728x90
Zero-shot 학습(Zero-shot Learning, ZSL)이란?
모델이 학습하지 않은(본 적 없는) 데이터에 대해서도 올바르게 예측하는 능력
즉, 새로운 개념이나 클래스에 대한 데이터가 없어도 모델이 추론할 수 있는 능력
1. Zero-shot 학습이 필요한 이유
기존 머신러닝 모델은 훈련 데이터에 없는 개념을 학습할 수 없었음.
하지만, 인간은 몇 가지 개념만 배워도 새로운 상황을 이해할 수 있음.
- 사자가 뭐야? 🦁
- "고양이과 동물이고, 덩치가 크고, 갈기가 있어."
- "그럼, '백사자'는?"
- 한 번도 본 적 없지만, "사자의 한 종류겠구나!" 라고 추론 가능.
2. Zero-shot Learning의 핵심 원리
Zero-shot Learning은 텍스트, 이미지, 코드 등 다양한 데이터를 활용하여 일반적인 개념을 학습하는 방식으로 이루어짐.
(1) 사전 학습된 대형 모델(Pre-trained Model) 사용
- GPT, BERT, CLIP 같은 사전 학습된 대형 언어 모델/멀티모달 모델을 활용.
- 예를 들어, GPT-4는 수많은 문장을 학습했기 때문에 "새로운 단어"가 등장해도 문맥을 통해 유추 가능.
(2) 개념 간의 연관성 활용
- 모델이 "A와 B는 비슷하다" 같은 개념을 배웠다면, B를 학습하지 않아도 A와의 유사성을 이용해 추론.
- 예를 들어, "강아지 🐶"를 알고 있다면, "늑대 🐺"도 개와 비슷한 동물일 거라고 예측 가능.
(3) 자연어 프롬프트 활용 (Prompt Engineering)
- GPT-4 같은 LLM은 텍스트 프롬프트를 이용해 Zero-shot 작업이 가능해.
예) "이 문장이 긍정적인지 부정적인지 판단해 봐."- 모델은 감성 분석을 배운 적이 없어도 문맥을 이용해 추론 가능.
3. Zero-shot Learning의 주요 응용 사례
(1) 텍스트 분류 (Zero-shot Text Classification)
- 기존 머신러닝 모델은 감성 분석(긍정/부정) 모델을 학습해야 했지만,
GPT-4 같은 모델은 학습 없이도 감성 분석이 가능. - 예)
- "이 영화 너무 감동적이야!" → 긍정 (Zero-shot 분류)
- "서비스가 별로였어." → 부정 (Zero-shot 분류)
(2) 이미지 분류 (Zero-shot Image Classification)
- CLIP(OpenAI) 같은 모델은 학습하지 않은 이미지도 설명 가능.
- 예) "고양이처럼 생긴 동물을 보여주면?" → "이것은 스라소니입니다."
(모델이 스라소니를 학습한 적 없지만, '고양이과 동물'이라는 점을 유추)
(3) 검색 & 추천 시스템 (Zero-shot Information Retrieval)
- 사용자가 입력한 키워드와 정확히 일치하지 않더라도 의미적으로 유사한 문서를 찾아줌.
- 예) "강아지 먹이 추천" → 모델은 "강아지 사료"라는 개념을 학습하지 않아도 적절한 결과를 추천할 수 있음.
(4) 자연어 처리 (NLP) - 문서 요약, 번역, 질의응답
- GPT-4 같은 모델은 번역 모델을 따로 학습하지 않아도 번역이 가능.
- 질문-답변 시스템도 Zero-shot 방식으로 구현 가능.
- 예)
- "이 기사 요약해줘!" → 모델이 요약 가능.
- "이 문장 번역해줘!" → 학습하지 않은 언어라도 번역 가능.
4. Zero-shot Learning vs Few-shot Learning vs Supervised Learning
학습 방식 | 특징 | 예제 |
Supervised Learning (지도 학습) | 레이블된 데이터를 학습 후 예측 | "강아지"를 학습해야 "강아지"라고 예측 가능 |
Few-shot Learning (소수 학습) | 몇 개의 예제만 보고 학습 | 2~5개의 강아지 사진만 보고도 예측 가능 |
Zero-shot Learning (제로샷 학습) | 예제 없이도 예측 | 강아지 학습 없이도 "개과 동물"이라고 예측 |
5. Zero-shot Learning의 장점과 한계
장점
- 새로운 개념도 학습 없이 예측 가능 → 데이터가 부족한 상황에서 유용
- 다양한 작업에 활용 가능 (멀티태스킹) → 감성 분석, 번역, 질의응답 등
- 빠른 적용 가능 → 추가 학습 없이 즉시 사용 가능
한계
- 정확도가 낮을 수 있음 → 학습된 데이터가 부족하면 잘못된 예측 가능
- 추론 속도가 느릴 수 있음 → 대형 모델(GPT-4, CLIP 등)은 많은 연산 필요
- 설명 불가능성(Explainability) → 왜 특정 결과가 나왔는지 이해하기 어려움
728x90
'AI > 개념 정리' 카테고리의 다른 글
[AI/AWS]비정형 데이터 수집/저장(S3, Glue) (0) | 2025.02.04 |
---|