AI 기초 개념 & 작동원리 가이드 (2편)

AI 작동원리를 실무 관점에서 이해하기. 데이터·모델·알고리즘의 역할, 지도/비지도/강화학습의 차이, PoC 설계 시 체크포인트까지. AI 도입 전 꼭 알아야 할 핵심 개념을 업무에 바로 적용할 수 있게 설명합니다.

중소기업기술마켓

Dec 08, 2025

Contents

들어가며 AI가 작동하는 기본 흐름: 입력 → 처리 → 출력 1단계: 입력(Input) – AI에게 주는 정보 2단계: 처리(Process) – AI가 데이터를 이해하고 계산하는 과정 모델 내부 연산 3) 확률 기반 예측 실제 사례로 보는 AI 작동 흐름 AI 작동원리, 실무에서 왜 알아야 할까요?PoC 설계 시 체크해야 할 4가지 마무리하며

들어가며

지난 글(1편)에서 AI가 무엇인지, 어떤 구성 요소(데이터·모델·알고리즘)로 이루어져 있는지 큰 그림으로 살펴봤어요.

이번에는 한 단계 더 들어가볼게요. "모델이 실제로 어떻게 작동하는지", 엔진 내부의 원리를 들여다 보려고 합니다.

실무에서 AI 도입을 검토하다 보면 이런 질문들이 꼭 나오더라고요.

"입력이 들어가면 어떻게 작동하는 거야?"
"신경망이 뭐고, 어떻게 계산을 하는 건데?"
"GPT나 Clova 같은 생성형 AI는 어떻게 답변을 만들어낼까?"

저도 처음엔 막막했어요. 하지만 한 번 이해하고 나니까 AI 솔루션 검토할 때 어떤 질문을 해야 하는지, 뭘 체크해야 하는지가 훨씬 명확해지더라고요.

이번 글에서는 실무자 관점에서 필요한 만큼만, 하지만 피상적이지 않게 정리해볼게요.

AI가 작동하는 기본 흐름: 입력 → 처리 → 출력

AI 시스템이 어떻게 움직이는지 이해하려면, 먼저 이 구조부터 알아야 해요.

입력(Input) → 처리(Process) → 출력(Output)

사실 이게 전부예요. ChatGPT든, 음성인식이든, 이미지 분류든 결국 이 세 단계를 거쳐서 결과를 만들어내요.

실무자 입장에서 이 흐름을 이해하면 "우리 업무에서 입력은 뭐고, 출력은 뭐여야 하지?"를 명확하게 정리할 수 있어요. 그러면 AI 도입 논의가 훨씬 구체적으로 바뀌죠.

입력(Input) - 처리(Process) - 출력(Output) 구조 시스템

1단계: 입력(Input) – AI에게 주는 정보

입력은 AI가 받아들이는 원천 정보예요. 사람으로 치면 '눈이나 귀로 받아들이는 자극' 같은 거죠. AI의 입력 형태는 크게 네 가지로 나눌 수 있어요.

텍스트(Text)

민원 응답 챗봇을 예로 들면, 사용자가 입력한 "휴일에도 민원24 이용이 가능한가요?"라는 문장이 바로 입력이에요.

이미지(Image)

품질 검사 시스템에서는 생산 라인에서 촬영한 제품 사진이 입력으로 들어가요.

음성(Voice)

고객센터 AI에서는 고객이 말한 음성이 그대로 입력으로 처리돼요.

정형 데이터(Structured Data)

예측 시스템이라면, 과거 3년간의 월별 매출 수치가 입력이 될 수 있어요.

실무에서 입력을 어떻게 정의하면 될까요?

입력 단계에서 가장 중요한 질문은 이거예요.

▪️

"우리가 AI에게 줄 수 있는 데이터가 뭐지?"

이 질문에 답하려면 이런 것들을 확인해봐야 해요.

체크 포인트	확인 내용
형식	텍스트/이미지/음성/정형 데이터 중 뭔가?
품질	데이터가 깨끗한가, 노이즈가 많은가?
접근성	실시간으로 받을 수 있나, 배치로만 가능한가?
보안	개인정보나 민감 정보가 포함되어 있나?

사실 많은 AI 프로젝트가 "좋은 아이디어"로 시작했다가, 정작 입력 데이터가 제대로 준비되지 않아서 중단되는 경우가 정말 많아요.

입력이 명확하지 않으면, 뒤에 아무리 좋은 모델을 가져와도 소용이 없더라고요.

2단계: 처리(Process) – AI가 데이터를 이해하고 계산하는 과정

입력을 받은 AI는 이제 본격적으로 '일'을 시작합니다. 바로 처리(Process) 단계입니다. 이 단계에서 AI는 세 가지 핵심 작업을 수행합니다.

1) 데이터 전처리 및 변환

AI는 원본 데이터를 그대로 이해하지 못합니다. 사람이 "안녕하세요"라는 글자를 보면 바로 이해하지만, AI는 이 글자를 숫자 형태로 변환해야만 연산할 수 있어요.

텍스트의 경우

문장을 작은 단위(토큰)로 쪼갭니다.
- 예: "주민등록등본 발급" → ["주민등록등본", "발급"]
각 토큰을 고유 숫자로 변환합니다.
- 예: "주민등록등본" → 1024, "발급" → 2048
이 숫자들을 다차원 벡터(vector)로 임베딩합니다.
- 단어의 의미를 숫자 공간에 표현하는 것이죠.

이미지의 경우

픽셀값(RGB 값)을 행렬 형태로 정리합니다.
이미지 크기를 표준화합니다. (예: 224x224 픽셀로 통일)
밝기, 대비 등을 조정해서 일관된 형태로 만듭니다.

음성의 경우

음파를 주파수 성분으로 분해합니다.
멜 스펙트로그램 같은 시각적 표현으로 변환합니다.
이후 이미지처럼 처리할 수 있게 됩니다.

이런 전처리 과정이 제대로 되지 않으면, 아무리 좋은 모델이라도 성능이 떨어집니다. 실무에서 "데이터 정제"가 중요하다는 말이 바로 이 단계를 의미합니다.

모델 내부 연산

전처리가 끝나면, 변환된 데이터가 모델 안으로 들어가요. 여기서부터가 진짜 AI의 '두뇌'가 일하는 구간이에요.

'‘모델 내부에서 일어나는 일”

[학습자료: 유투브 3Blue1Brown - 신경망 시리즈: 경사 하강법(2편)
가중치를 조정하며 학습하는 과정]

수학적 개념을 아름다운 애니메이션으로 시각화해서 비전공자도 이해하기 쉬워요. 한국어 자막이 있고, 한국어 번역 채널도 있어요.

가중치(Weight) × 입력값 계산

모델 안에는 수많은 연결선이 있는데요.
각 연결선마다 "가중치"라는 숫자가 붙어 있어요.

쉽게 비유하면 이래요. 우리가 "이 사람 말은 좀 더 신뢰해야지"라고 생각하는 것처럼, AI도 어떤 정보에는 더 큰 비중을 두고, 어떤 정보는 덜 중요하게 처리해요. 그게 바로 가중치의 역할이에요.

입력값에 가중치를 곱하고, 다 더하고, 또 곱하고... 이 연산을 수없이 반복하면서 AI는 패턴을 찾아가요.

💡 비유하자면: 친구 10명한테 맛집 추천을 받았는데, 미식가 친구의 의견(가중치 높음)은 더 중요하게 듣고, 아무거나 잘 먹는 친구의 의견(가중치 낮음)은 참고만 하는 것과 비슷해요.

활성화 함수(Activation Function) 적용

계산 결과가 나오면, 그대로 쓰지 않고 한 번 더 가공해요.
이걸 활성화 함수라고 불러요.

왜 이런 과정이 필요할까요?

만약 이 과정 없이 곱하기와 더하기만 반복하면, 아무리 복잡하게 계산해도 결국 직선적인 결과밖에 못 내요. 근데 세상의 문제들은 직선으로 풀 수 있는 게 거의 없잖아요.

활성화 함수는 여기에 굴곡을 만들어줘요. 덕분에 AI가 복잡한 패턴도 학습할 수 있게 되는 거예요.

💡 비유하자면: 시험 점수를 그대로 쓰는 게 아니라, "80점 이상이면 A, 60점 이상이면 B..."처럼 등급으로 바꾸는 것과 비슷해요. 단순한 숫자를 의미 있는 구간으로 변환하는 거죠.

층을 거듭하며 점점 깊이 이해해요

이런 계산이 한 번만 일어나는 게 아니에요.
여러 층(layer)을 거치면서 점점 더 높은 수준으로 이해하게 돼요.

층	이해 수준	예시 (이미지)	예시 (텍스트)
초기 층	아주 기본적인 패턴	선, 점, 색깔 변화	개별 단어의 의미
중간 층	조금 복잡한 패턴	눈, 코, 입 모양	단어 조합의 의도
최종 층	전체적인 의미	"이건 고양이다"	“무엇을 물어보는 질문인가"

민원 챗봇을 예로 들면, "주민등록등본 발급은 어떻게 하나요?"라는 문장이 들어왔을 때:

초기 층: "주민등록등본", "발급", "어떻게" 각 단어가 뭔지 파악
중간 층: "주민등록등본 + 발급"이 함께 나왔네? 서류 발급 관련이겠구나
최종 층: 아, 방법을 물어보는 질문이구나!

이렇게 단계별로 점점 깊이 이해해가는 거예요.

3) 확률 기반 예측

AI는 결국 "가장 그럴듯한 답"을 고르는 거예요!

모든 층을 거쳐 최종 단계에 도달하면, AI는 "어떤 출력이 가장 적절할까?"를 확률로 계산해요. 여기서 중요한 건, AI가 "정답을 안다"기보다는
"가장 확률이 높은 걸 고른다"는 점이에요.

이미지 분류의 경우

예를 들어 고양이 사진을 넣었다고 해볼게요. AI는 이렇게 생각해요.

"음... 이 이미지는..."

고양이일 확률: 85% ✅
강아지일 확률: 10%
새일 확률: 3%
기타: 2%

"고양이가 제일 높네. 고양이로 하자!"

확신이 있어서 고르는 게 아니라, 확률이 가장 높은 선택지를 고르는 거예요. 그래서 가끔 AI가 틀리기도 하는 거고요.

💡

객관식 시험에서 "이건 확실히 모르겠는데, 2번이 제일 그럴듯해 보여"라고 찍는 것과 비슷해요. 다만 AI는 이 "찍기"를 아주 정교한 계산으로 하는 거죠.

생성형 AI(ChatGPT, Clova 같은 LLM)는 조금 달라요

LLM은 한 번에 전체 답을 내놓는 게 아니에요. "다음에 올 단어는 뭘까?"를 계속 반복하면서, 한 단어씩 문장을 만들어가요.

마치 끝말잇기처럼요.

실제로 어떻게 작동하는지 볼게요.

1️⃣ 입력: "주민등록등본은"

   → 다음 단어 후보는?
   - 정부24 (40%) ✅
   - 온라인 (25%)
   - 발급 (20%)
   - 기타...
   
   → "정부24" 선택!

2️⃣ 현재 문장: "주민등록등본은 정부24"

   → 다음 단어 후보는?
   - 에서 (60%) ✅
   - 를 (20%)
   - 웹사이트 (15%)
   
   → "에서" 선택!

3️⃣ 현재 문장: "주민등록등본은 정부24에서"

   → 다음 단어 후보는?
   - 발급 (50%) ✅
   - 신청 (30%)
   - 조회 (15%)
   
   → "발급" 선택!

... 이렇게 계속 반복 ...

이런 식으로 한 토큰씩 이어붙여서 완전한 문장을 완성해요.

💡 비유하자면: 소설을 쓸 때 "다음 문장은 뭐가 자연스럽지?" 를 한 문장씩 고민하면서 써나가는 작가와 비슷해요. 전체 스토리를 미리 다 정해놓고 쓰는 게 아니라, 앞 내용을 보면서 "다음엔 이게 오면 자연스럽겠다"를 계속 판단하는 거죠.

그래서 가끔 이상한 답이 나오기도 해요

이 방식의 특징은, 앞에서 한 선택이 뒤에 계속 영향을 준다는 거예요.

초반에 "정부24"를 골랐으면 그 뒤로는 정부24 관련 내용이 이어지고, 만약 "온라인"을 골랐다면 또 다른 방향으로 문장이 전개됐을 거예요.’

그래서 같은 질문을 해도 매번 조금씩 다른 답변이 나올 수 있어요. AI가 매번 확률적으로 단어를 선택하기 때문이에요.

또한, 확률이 높다고 해서 항상 "사실"인 건 아니에요. AI는 "그럴듯해 보이는 다음 단어"를 고를 뿐이라서, 가끔 없는 사실을 지어내기도 해요. 이걸 '할루시네이션(환각)'이라고 불러요. 실무에서 AI를 쓸 때 꼭 알아둬야 할 포인트예요.

실제 사례로 보는 AI 작동 흐름

개념만 보면 좀 추상적이죠? 실제 사례로 한번 살펴볼게요.

사례 1: 민원 자동 응답 시스템

① 입력(Input)

시민이 채팅창에 이렇게 질문해요. 이 문장이 그대로 AI 시스템에 들어가요.
"주민등록등본 발급은 어떻게 하나요?"

② 처리(Process)

먼저, 전처리 단계에서

AI는 문장을 바로 이해하지 못해요. 그래서 먼저 잘게 쪼개고 숫자로 바꿔요.

"주민등록등본 발급은 어떻게 하나요?"
        ↓
["주민등록등본", "발급", "은", "어떻게", "하나요", "?"]
        ↓
[1024, 2048, 15, 892, 1567, 3]  ← 숫자 벡터로 변환

이 과정에서 "은"이나 "?" 같은 조사들은 자연스럽게 가중치가 낮아져요.
핵심 단어인 "주민등록등본"과 "발급"에 집중하게 되는 거죠.

그다음, 모델이 본격적으로 분석해요

LLM이 여러 층을 거치면서 문장을 이해해요.

단계	AI가 파악하는 것
초기	"주민등록등본", "발급" 각각의 의미
중간	이 두 단어가 함께 나왔네? → 서류 발급 관련이겠구나
후반	"어떻게"라는 표현 → 방법을 물어보는 질문이구나!

과거에 학습한 민원 Q&A 수천 건을 바탕으로, 비슷한 질문 패턴을 찾고 가장 적절한 답변 후보를 계산해요.

마지막으로, 확률 예측 단계

앞서 설명한 것처럼, 다음에 올 단어를 하나씩 예측하면서 답변을 만들어가요.

"주민등록등본은" → 다음 단어? → "정부24" (40%) ✅
"주민등록등본은 정부24" → 다음 단어? → "웹사이트에서" (55%) ✅

...계속 반복...

③ 출력(Output)

최종적으로 이런 답변이 만들어져요.

AI 답변
주민등록등본은 정부24 웹사이트에서 발급받으실 수 있습니다. 로그인 후 '민원서비스' 메뉴를 선택하시면 됩니다. 온라인 발급 시 수수료는 무료예요.

만약 AI가 자신 없다면?

확신도(confidence score)가 낮을 때는 솔직하게 말해요.

AI 답변
관련 정보를 찾았지만 정확하지 않을 수 있어요. 상담원 연결을 원하시면 아래 버튼을 눌러주세요.
[상담원 연결하기]

이런 안전장치가 있어야 시민들이 잘못된 정보로 피해를 보는 걸 막을 수 있어요. 실무에서 AI 챗봇을 도입할 때 꼭 고려해야 할 부분이에요.

사례 2: 제품 품질 검사 시스템

① 입력(Input)

생산 라인에 설치된 카메라가 제품 사진을 촬영해요.

항목	값
해상도	1920x1080
형식	JPG
촬영 속도	초당 3장

컨베이어 벨트 위로 제품이 지나갈 때마다 "찰칵찰칵" 사진이 찍히는 거예요.

② 처리(Process)

먼저, 전처리 단계에서

카메라마다 조명이나 각도가 조금씩 다를 수 있잖아요. 그래서 AI가 분석하기 좋게 이미지를 정리해요.

원본 이미지 (1920x1080, 다양한 밝기)
        ↓
표준 크기로 조정 (640x640)
        ↓
밝기·대비 정규화
        ↓
픽셀값을 0~1 사이로 변환

그다음, CNN이 이미지를 분석해요.

CNN(합성곱 신경망)은 이미지 분석에 특화된 AI 모델이에요.

층	감지하는 것	예시
초기	아주 기본적인 패턴	선, 모서리, 색상 변화
중간	불량 관련 패턴	스크래치, 얼룩, 찌그러짐
최종	종합 판단	"이 제품은 정상인가, 불량인가?"

확률 예측 결과

정상: 92% ✅
스크래치 불량: 6%
변형 불량: 2%

③ 출력(Output)

정상 판정일 때

✅ 판정: 정상
   신뢰도: 92%
   처리시간: 0.3초
   
   → 정상품 라인으로 이동

불량 판정일 때

❌ 판정: 불량 (스크래치)
   위치: 좌측 상단 (120, 80) 좌표
   신뢰도: 94%
   
   → 불량품 라인으로 자동 분류

불량으로 판정되면 물리적인 분류 장치가 작동해서, 해당 제품을 별도 라인으로 빼내요. 사람이 일일이 눈으로 보고 분류하던 걸 AI가 초당 3개씩 처리하는 거예요.

▪️

실무 포인트: 이런 시스템을 도입할 때 중요한 건 "불량을 정상으로 잘못 판정하는 비율"이에요. 정상을 불량으로 판정하면 손해지만, 불량을 정상으로 내보내면 고객 클레임으로 이어지거든요. 그래서 KPI를 설정할 때 이 부분을 꼼꼼히 따져봐야 해요

AI 작동원리, 실무에서 왜 알아야 할까요?

여기까지 AI의 작동원리를 살펴봤는데요.
"그래서 이게 실무에 무슨 도움이 되나요?"라고 물으실 수 있어요.

결론부터 말하면, PoC 설계할 때 엉뚱한 질문 대신 핵심 질문을 던질 수 있게 돼요.

PoC 설계 시 체크해야 할 4가지

체크 포인트	구체적으로 따져볼 것
입력/출력 정의	입력 형식은? (텍스트/이미지/문서) / 출력은 분류? 요약? 생성?
성능 지표(KPI)	정확도 몇 %? / 응답 시간 몇 초? / 월 예산 얼마?
인프라	클라우드 vs 온프레미스? / 동시 사용자 몇 명? / GPU 필요?
보안·데이터	어떤 데이터를 외부로 보내도 되나? / 개인정보 비식별 처리는?

이 네 가지 사항을 기반으로 미리 정리해두면,
"데모만 보고 바로 계약했다가 현장에서 실패"하는 상황을 피할 수 있어요.

마무리하며

이번 글에서는 AI의 입력→처리→출력 구조를 살펴보고, 실무에서 어떻게 활용할 수 있는지 알아봤어요.

이 정도만 이해해도 실무에서 큰 차이가 나요.
💡
- AI 솔루션 검토할 때 어떤 질문을 해야 하는지
- C에서 어디까지 기대할 수 있는지
- 예산·일정을 어떻게 현실적으로 잡는지

다음 편에서는 AI를 학습할 수 있는 실제 커리큘럼과 성과 점검 체크리스트를 제공할게요. 실제로 어떻게 일상에서 활용할 수 있는지 하나씩 알아봐요!