[AI 독학하기] 1. 자연어 처리(NLP, Natural Language Processing)

image of natural language processing, NLP

자연어처리란?

사람의 언어(말이나 글)를 컴퓨터가 이해하고 처리하게 만드는 기술

쉽게 말해, 사람의 언어를 이해하는 컴퓨터, 언어로 소통하는 인공지능 등을 만드는 게 자연어처리.


자연어처리 대표 기술

토큰화 (Tokenization) 문장을 단어/문장 단위로 쪼갬 "나는 밥을 먹었다" → ["나는", "밥", "먹었다"]
품사 태깅 (POS tagging) 각 단어의 품사 파악 "먹었다" → 동사
개체명 인식 (NER) 사람, 장소, 조직 등 찾아냄 "이순신은 조선 장군이다" → 이순신: 인물
문장 분류 (Text classification) 감정 분석, 카테고리 분류 등 "좋아요!" → 긍정
질의응답 (QA) 질문에 대한 답변 생성 "한글 만든 사람?" → 세종대왕
요약 (Summarization) 긴 텍스트 요약 기사 → 한 문장 요약
번역 (Translation) 한 언어 → 다른 언어 "Hello" → "안녕"
텍스트 생성 (Text generation) 문장을 이어서 생성 GPT, ChatGPT, Claude 등

 

예시 1: "오늘 날씨 어때?" → 날씨 알려주는 AI

날씨 앱에 아래와 같이 질문을 하면

"오늘 우산 챙겨야 해?"

자연어처리 기술은 이 문장을

  • 질문인지
  • 날씨에 대한 건지
  • 우산 관련된 건지

파악해서,

"네, 서울은 오후에 비가 올 예정이에요."

라는 답변을 제공


예시 2: 유튜브 자동 자막

유튜브 보다가 영어 자막, 한국어 자막 자동으로 생기는 기술

  • 사람이 말한 음성 → 글자로 바꾸기 (음성인식)
  • 영어를 → 한국어로 바꾸기 (번역)
    → 이 두 가지도 전부 자연어처리

예시 3: 고객센터 챗봇

쇼핑몰 고객센터에 "반품하고 싶어요" 라고 입력하면,

"주문하신 상품을 선택해주세요. 반품 사유도 알려주세요."

라는 식으로 대답하는데, 이 또한 고객의 말 속에서 핵심 의도를 파악해서 반응하는 자연어처리의 기술


예시 4: 스팸 문자 자동 분류

“~대출 한도 조회 가능” 등의 스팸 문자,
문자의 말투, 단어, 문장 구조 등을 보고 컴퓨터가 스팸 메시지를 분류


예시 5: 감정 분석

리뷰나 댓글에서

  • “진짜 최고예요!” → 긍정
  • “다신 안 사요.” → 부정

이렇게 감정까지 분석해서, 마케팅에 활용


자연어처리(NLP) 기본 흐름

입력 수집 (Input)

  • 예시: 텍스트, 음성 등
  • 텍스트 입력: 이메일, 댓글, 뉴스기사
  • 음성 입력: 대화, 전화 녹음 등

전처리 (Preprocessing)

  • 문장을 컴퓨터가 처리하기 쉽게 정리
  • 대표 작업:
    • 토큰화(Tokenization): 문장을 단어/문장 단위로 자르기
    • 정제(Cleaning): 특수문자 제거, 소문자 통일
    • 불용어 제거(Stopword Removal): “은”, “는”, “이”, “가” 등 의미 적은 단어 제거
    • 형태소 분석(Morphological Analysis): 어근, 품사 분석

벡터화 (Vectorization)

  • 단어를 숫자로 바꾸기
  • 예: Bag of Words, TF-IDF, Word2Vec, BERT 등

모델 처리 (Modeling)

  • 머신러닝 or 딥러닝 모델로 분석/예측
  • 예: 감정 분석, 문서 분류, 요약, 번역 등

출력 결과 (Output)

  • 결과를 사람이 이해할 수 있게 표현
  • 예: 긍정/부정, 분류 결과, 요약문, 응답 문장

자연어처리의 진짜 힘

예전엔 사람이 직접 일일이 판단하던 것들을 이젠 기계가 사람처럼 말하고, 읽고, 알아듣고, 요약까지 가능

  • 기자 대신 기사가 요약되고
  • 상담사 대신 AI가 응대하고
  • 외국어 대신 자동번역기가 도와주고

자연어처리는 우리의 일상 속 '언어 감각 있는 AI'를 만드는 기술