Generative AI (생성형 AI)
2025. 3. 20. 16:25ㆍ개발 공부
- 생성형 AI란?
- 정의
- 기존 데이터를 학습하여 새로운 콘텐츠(텍스트, 이미지, 음악 등)를 생성하는 인공지능 기술
- 정의
- 생성형 AI의 원리와 핵심 기술
-
- 생성형 AI의 작동 원리
-
- 딥러닝을 사용하여 기존 데이터셋 내의 패턴을 식별하고 분석
- 딥러닝: 머신러닝의 한 분야, 인간의 두뇌 구조와 유사한 인공신경망을 활용하여 데이터를 학습하고 복잡한 문제를 해결하는 기술
- 머신러닝: 데이터를 기반으로 패턴을 학습하고 스스로 개선하는 알고리즘을 만드는 인공지능(AI)의 한 분야
- 인간의 두뇌 행동과 마찬가지로 트랜스포머 및 기타 딥러닝 아키텍처를 활용하여 데이터셋을 처리하고 학습
- 트랜스포머: Self-Attention과 병렬 처리를 활용하여 기존의 RNN보다 빠르고 강력한 성능을 발휘
- Self-Attention: 문장에서 중요한 단어 간의 관계를 학습하여 의미를 이해
- 병렬 처리: RNN과 달리 전체 문장을 한 번에 처리하여 속도 향상
- RNN(Recurrent Neural Network, 순환 신경망)
- 시퀀스(연속적인 데이터)(순차적 데이터 처리)를 다루는 딥러닝 모델 중 하나
- 이전의 정보(메모리)를 저장하고 활용(이전 단계의 출력을 현재 단계의 입력에 반영)
- ex) 번역, 챗봇, 문장 자동 완성, 음성인식(Siri, GoogleAssistant), 주가예측, 날씨예측
- 순차적 데이터 처리에 강점이 있지만, 학습 속도(순차적처리)와 장기 의존성 문제(문장이 길어지면 앞의 정보를 기억하지 못함) 때문에 트랜스포머(Transformer) 같은 최신 모델로 점점 대체되고 있음
- 트랜스포머: Self-Attention과 병렬 처리를 활용하여 기존의 RNN보다 빠르고 강력한 성능을 발휘
- 방대한 양의 데이터를 트레이닝하여 새로운 콘텐츠를 생성
- 딥러닝을 사용하여 기존 데이터셋 내의 패턴을 식별하고 분석
- AI 모델 학습 과정
- 텍스트, 이미지, 음악 등의 데이터를 입력하여 AI 모델을 트레이닝
- 학습된 AI 모델에 "프롬프트"(입력)를 제공
- 알고리즘이 입력을 기반으로 새로운 콘텐츠를 생성
- EX) 텍스트에서 이미지를 생성하거나, 이미지에서 텍스트 캡션을 생성
- 대표적인 생성형 AI 모델
- 대규모 언어 모델(LLM, Large Language Model)
- 텍스트 데이터를 학습하여 단어 간의 패턴을 학습
- 문장 내 단어 순서를 예측하여 자연스러운 문장을 구성
- 예시: GPT-4, BERT 등
- 입력 (Input)
- 다양한 데이터 소스를 입력
- 책, 위키백과, 과학 연구 논문, 인터넷에서 수집된 데이터 등 여러 텍스트 데이터
- 맞춤형 데이터로 특정한 목적을 가진 AI 모델을 학습할 수도 있음
- 토큰화 (Tokenize)
- AI가 텍스트를 직접 이해하지 못하기 때문에, 텍스트를 숫자로 변환하는 과정
- 문장은 토큰(token) 단위로 분할되며, 각 토큰은 고유한 숫자로 매핑
- 토큰 임베딩 (Token Embeddings)
- 각 토큰을 단순한 숫자로 처리하는 것이 아니라, 벡터 공간에서 의미적으로 유사한 단어끼리 가깝게 배치
- 사전 학습된 임베딩 함수(Embedding Functions, Pretrained Model)를 사용하여 이루어짐
- Ex) dog와 puppy는 의미적으로 가깝기 때문에 벡터 공간에서 가까운 위치
- Ex) car와 van도 서로 관련성이 있지만 dog보다는 멀리 위치
- 인코딩 (Encoding)
- 토큰화된 숫자와 임베딩된 벡터가 사전 학습된 트랜스포머 모델(Pretrained Transformer Model)로 전달
- 트랜스포머 모델: 입력된 문장의 문맥을 이해하고, 가장 적절한 단어나 문장을 예측
- 수십억 개의 매개변수(parameters)를 사용하여 문맥을 학습
- 인간의 피드백(Human Feedback)을 받아 모델을 개선하는 과정이 포함
- 출력 생성 (Output Text)
- 트랜스포머 모델이 벡터 연산을 수행한 후, 최종적으로 예측된 단어를 출력
- EX
- [4.2, 1.2, -1.9, ...] → 모델이 예측한 숫자 벡터
- 다시 텍스트로 변환(Decoding) 하면
- 모델은 문맥을 고려하여 가장 가능성이 높은 다음 단어를 생성
3. 생성형 AI의 이점
- 효율성 향상, 필요에 따라 콘텐츠와 답변을 생성할 수 있음 → 노동 집약적인 작업을 가속화하거나 자동화하고 비용을 절감
-
- 창의력 향상
- 더 빠르고 향상된 의사결정
- 동적 개인화
- 지속적인 가용성
4. 생성형 AI의 과제, 한계 및 위험
-
- 할루시네이션(Hallucination) 및 부정확한 아웃풋
- 데이터를 기반으로 확률적으로 답변을 생성하기 때문에 진실과 허구를 구별하는 능력이 없음
- 실제로 존재하지 않는 정보를 만들어내거나 부정확한 정보를 제공하는 현상
- 신뢰성이 중요한 분야(법률, 의료, 금융)에서 심각한 문제가 될 수 있음.
- 대표적인 사례: AI가 법률 문서를 요약하면서 존재하지 않는 판례를 생성한 사례
- 일관성 없는 아웃풋(Variability in Responses)
- 확률적 방식으로 답변을 생성하기 때문에 같은 입력을 주더라도 매번 다른 결과를 출력할 수 있음
- 특정 문맥에서는 창의적인 답변이 유용할 수 있지만, 일관성이 중요한 경우(예: 고객 서비스, 법률 상담)에는 문제가 될 수 있음
- 고객 서비스 챗봇 등에서는 일관성이 중요한데, AI의 변동성이 문제가 될 수 있음
- 편향(Bias) 문제
- 훈련 데이터에 포함된 편향을 그대로 학습하기 때문에 인종, 성별, 문화적 요소 등에 대한 차별적이거나 불공정한 결과를 생성할 가능성이 있음
- 인간이 만든 데이터에는 무의식적인 편견이 포함될 수밖에 없으며, AI는 이를 증폭할 가능성이 있음.
- 보안, 개인정보보호 및 지적 재산(IP) 문제
- 피싱 이메일, 가짜 신원 정보, 허위 문서를 자동 생성하여 사이버 보안 위협을 초래할 수 있음
- AI가 생성한 콘텐츠가 기존 저작권을 침해할 가능성이 있음
- 딥페이크(Deepfake) 문제
- AI가 생성하거나 조작한 이미지, 영상, 음성을 이용해 가짜 뉴스, 사기, 범죄 등이 발생할 수 있음
- 금융 사기(보이스 피싱), 허위 정보 유포, 유명인 사칭 등의 문제 발생
- 할루시네이션(Hallucination) 및 부정확한 아웃풋
5. 활용할만한 AI 도구 모음
- 유튜브 영상 요약 도구
도구명설명장점제한사항도구명설명장점제한사항
Google Gemini | 간단한 요약 | 간편하고 빠르게 요약 가능 | 세부적인 요약 기능 부족 |
LilysAI | 이미지 & 타임라인 기반 상세 요약 | 상세한 요약 제공, 이미지 포함 | 무료 사용량 제한 |
ChatGPT | 유튜브 영상 자막(유트브 스크립트 표시 클릭)을 복사 후 요약 요청 | 다양한 요약 가능, 문맥 이해 우수 | 직접 스크립트 복사 필요 |
2. 실시간 검색 & 정보 탐색
도구명설명장점제한사항
ChatGPT | 자연어 기반 검색, 문맥 이해 우수 | 폭넓은 정보 제공, 자연스러운 대화 가능 | 최신 정보 업데이트 한계, 할루시네이션 가능성 심층 리서치 - 유료 |
Perplexity AI | 실시간 웹 검색, 출처 제공 | 최신 데이터 반영, 신뢰도 높은 결과 | 창의적인 답변이 부족할 수 있음 |
3. 나만의 GPT 생성 (유료 GPT)
GPT 탐색 클릭 → 만들기 클릭 → 구성 내용에 내용, 지침, 파일(업로드한 콘텐츠 중 분석), 코드 인터프리터 및 데이터 분석 체크 → 만들기 클릭 → 검색
4. 가이드라인 동영상 만들기
도구명설명장점
Guidde | 원하는 웹사이트에서 클릭만으로 가이드 생성 | 텍스트, 이미지, 비디오 편집 가능, 월 25개 무료 |
5. PPT 만들기
도구명설명장점
Gamma | 프레젠테이션 자동 생성 AI | 여러 스타일, 모든 이미지, 차트 내용 모두 AI로 재구성 가능, 내보내기 기능 빠른 시간 내 제작 가능 |
6. 디자인 관련 AI 도구
도구명설명장점
Napkin | 텍스트 기반으로 순서도 및 이미지 생성 | 빠르게 디자인 생성 가능 |
Color Magic | AI가 키워드 기반으로 컬러 팔레트 추천 | 색상 조합 추천, 창의적 디자인 지원 |
출처