Geek News의 지난 5년간 LLM 컨텍스트 윈도우의 크기 확장 타임라인 글: 링크
와 원본 글 A timeline of LLM Context Windows, Over the past 5 years. (done right this time): 링크
실제 활용 가능한 컨텍스트 크기
실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능
Qwen, Mistral, Gemma 등
- Mistral Large, Gemma3 27B는 32k에서 괜찮아 보임
- Gemma3는 최악 수준, Fiction.live 벤치마크 참고 권장
결론
- 공통 합의: 모델마다 “공식 스펙”과 “실사용 성능”은 큰 차이가 있음
- Gemini: 대체로 가장 안정적이고 대용량 컨텍스트에서도 강력하다는 평가
- GPT-5: 중간까지는 뛰어나지만 성능 저하 시점이 Gemini보다 빠름
- Claude: 긴 컨텍스트 활용에서는 가장 낮은 평가
- Llama/Gemma: 지원 스펙 대비 실제 사용성은 미흡
최근에는 Gemini랑 ChatGPT 위주로 쓰고 Claude는 문맥이 길어지면 영 별로라고 생각했는데 다들 그렇게 느끼나보다.
최근 Qwen이 한국어를 잘 한다는 의견이 제법 있었는데 로컬라마 사용자들도 쓰기에도 Qwen이 괜찮은가보다.
Lost in the Middle 논문을 분석한 적 (블로그 링크)이 있는데, 그때의 핵심은 긴 텍스트의 중간에 위치한 맥락을 잘 모른다는 문제였다.
해당 논문에서는 맨 앞과 맨 뒤를 LLM이 잘 참조하기 때문에 문서의 중요도에 따라서 재배치하는 방법을 제시했다.
하지만 이 정도로는 사람들의 더 높은 기대치를 충족하기에는 이제 부족한가보다.
긴 문맥을 다루지 못한다는 이야기는 사용에서 다음의 문제점이 생길 수 있다.
1. 중간 중간 데이터가 가진 정보를 제대로 다루지 못하고 잃어버릴 수 있다.
2. 긴 데이터에 대한 맥락과 일관성을 유지 하지 못한다.
3. 추론을 스텝 바이 스텝으로 하는 경우에, 이전의 정보를 잊어버리면 큰 실수를 할 수 있을 것 같다.
4. 시스템 프롬프트 자체가 길어진다면, 시스템 프롬프트 자체를 제대로 인지하는지, 그리고 컨텍스트와 유저 입력을 제대로 기억할까 하는 의문이 생긴다.
5. RAG를 수행할 때 관련된 정보들을 풍부하게 줘도 제대로 처리하지 못한다.
결론적으로 긴 텍스트를 요구하는 작문 작업이나, 긴 맥락이 필요한 코드 작성에 있어서 문제가 될 수 있다.
'NLP > LLM' 카테고리의 다른 글
| 왜 언어 모델이 환각을 일으키는가? (업데이트 예정) (1) | 2025.09.09 |
|---|---|
| 41가지 로컬 LLM 벤치마크를 실행 결과 (1) | 2025.09.02 |
| Mamba (2023) 논문 리뷰 (2) | 2025.08.26 |
| 도메인 특화 LLM 리서치 (4) | 2025.08.12 |
| MUVERA와 Mercury 리서치 (1) | 2025.07.15 |