본문 바로가기
NLP/LLM

LLM의 컨텍스트 윈도우와 관련된 글

by 아르카눔 2025. 9. 1.

Geek News의 지난 5년간 LLM 컨텍스트 윈도우의 크기 확장 타임라인 글: 링크

 

와 원본 글 A timeline of LLM Context Windows, Over the past 5 years. (done right this time): 링크


실제 활용 가능한 컨텍스트 크기

 

실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능

 

 

Qwen, Mistral, Gemma 등

  • Mistral Large, Gemma3 27B는 32k에서 괜찮아 보임
  • Gemma3는 최악 수준, Fiction.live 벤치마크 참고 권장

 


결론

 

  • 공통 합의: 모델마다 “공식 스펙”과 “실사용 성능”은 큰 차이가 있음
  • Gemini: 대체로 가장 안정적이고 대용량 컨텍스트에서도 강력하다는 평가
  • GPT-5: 중간까지는 뛰어나지만 성능 저하 시점이 Gemini보다 빠름
  • Claude: 긴 컨텍스트 활용에서는 가장 낮은 평가
  • Llama/Gemma: 지원 스펙 대비 실제 사용성은 미흡

 

최근에는 Gemini랑 ChatGPT 위주로 쓰고 Claude는 문맥이 길어지면 영 별로라고 생각했는데 다들 그렇게 느끼나보다.

 

최근 Qwen이 한국어를 잘 한다는 의견이 제법 있었는데 로컬라마 사용자들도 쓰기에도 Qwen이 괜찮은가보다. 

 

 

Lost in the Middle 논문을 분석한 적 (블로그 링크)이 있는데, 그때의 핵심은 긴 텍스트의 중간에 위치한 맥락을 잘 모른다는 문제였다. 

 

해당 논문에서는 맨 앞과 맨 뒤를 LLM이 잘 참조하기 때문에 문서의 중요도에 따라서 재배치하는 방법을 제시했다. 

 

하지만 이 정도로는 사람들의 더 높은 기대치를 충족하기에는 이제 부족한가보다. 

 

 

 

긴 문맥을 다루지 못한다는 이야기는 사용에서 다음의 문제점이 생길 수 있다.

 

1. 중간 중간 데이터가 가진 정보를 제대로 다루지 못하고 잃어버릴 수 있다.

2. 긴 데이터에 대한 맥락과 일관성을 유지 하지 못한다.

3. 추론을 스텝 바이 스텝으로 하는 경우에, 이전의 정보를 잊어버리면 큰 실수를 할 수 있을 것 같다.

4. 시스템 프롬프트 자체가 길어진다면, 시스템 프롬프트 자체를 제대로 인지하는지, 그리고 컨텍스트와 유저 입력을 제대로 기억할까 하는 의문이 생긴다.  

5. RAG를 수행할 때 관련된 정보들을 풍부하게 줘도 제대로 처리하지 못한다. 

 

 

결론적으로 긴 텍스트를 요구하는 작문 작업이나, 긴 맥락이 필요한 코드 작성에 있어서 문제가 될 수 있다.