nlp81 왜 언어 모델이 환각을 일으키는가? (업데이트 예정) OpenAI에서 Why language models hallucinate (OpenAI 블로그 링크)라는 논문을 발표했다. 아직 논문을 본격적으로 읽은 것은 아니지만 핵심을 번역해보자면 다음와 같다. 문제: Hallucination (환각)은 정답이 아니지만 그럴듯해 보이는 거짓말이다. 문제의 원인: 현재의 평가 방법들은 "모르는 것을 모른다" 라고 하는 것 보다는 "그럴듯한 답변을 생성"하면 더 좋은 성능으로 평가한다. GPT-5-Thinking-Mini는 4-o-mini 보다 정답률은 낮지만, Abstention rate (기권율)과 Error rate (오류율)이 훨씬 더 낮다. 우리가 사용하는 텍스트 자료에는 일반적인 머신러닝 문제와 다르게 참 / 거짓 라벨이 붙어있지 않다. 따라서,.. 2025. 9. 9. 41가지 로컬 LLM 벤치마크를 실행 결과 Reddit의 Local LLaMA를 보다가 흥미로운 결과가 있어서 공유한다. I locally benchmarked 41 open-source LLMs across 19 tasks and ranked them (레딧 링크, Github 링크) LLM 벤치마크 선정은 해당 깃허브 (링크)를 참조했다고 한다. 해당 프로젝트는 머신 런타임으로는 18일 8시간이 걸렸으며, RTX 5090 GPU 시간으로는 14일 23시간이 걸렸다고 한다. 19가지 벤치마크 19가지 벤치마크는 다시 크게 3가지 범주로 나누었다.Reasoning & Math, Commonsense & Natural Language Inference, 그리고 Knowledge & Reading이다. 각 범주의 구체적인 항목은 다음과 같다. .. 2025. 9. 2. LLM의 컨텍스트 윈도우와 관련된 글 Geek News의 지난 5년간 LLM 컨텍스트 윈도우의 크기 확장 타임라인 글: 링크 와 원본 글 A timeline of LLM Context Windows, Over the past 5 years. (done right this time): 링크실제 활용 가능한 컨텍스트 크기 실사용 타임라인은 1k→2k→4k→8k→8k→8k→32k→40k, 단 Gemini 2.5 Pro만 80k 가능 Qwen, Mistral, Gemma 등Mistral Large, Gemma3 27B는 32k에서 괜찮아 보임Gemma3는 최악 수준, Fiction.live 벤치마크 참고 권장 결론 공통 합의: 모델마다 “공식 스펙”과 “실사용 성능”은 큰 차이가 있음Gemini: 대체로 가장 안정적이고 대용량 컨텍스트에서도 강력.. 2025. 9. 1. Mamba (2023) 논문 리뷰 Mamba 논문의 이름은 Mamba: Linear-Time Sequence Modeling with Selective State Spaces다. (링크) 저자는 Albert Gu, Tri Dao다. Mamba는 State Space Model을 활용한 본격적인 NLP 모델이다. Absract 현재 딥러닝 분야의 흥미로운 애플리케이션 대부분을 구동하는 Foundation 모델은 거의 대부분 Transformer 아키텍처와 그 핵심인 어텐션 모듈을 기반으로 한다. Linear Attention, gated convolution, recurrent models, structured state space model (SSM)과 같은 많은 subquadratic-time 아키텍처가 긴 시퀀스에서 Transfor.. 2025. 8. 26. GPT-OSS-120B을 실제로 실행하는 내용들 llama-cpp의 --cpu-moe 옵션을 활용해 MOE 전문가 레이어를 CPU에서 처리하고, 주의(attention) 레이어만 GPU에 오프로드해 5~8GB VRAM으로 빠른 프리필 성능을 구현 CPU-MOE와 GPU 오프로딩 구조--cpu-moe 옵션으로 전문가(MOE) 레이어를 전부 CPU에서 처리예: --n-cpu-moe 36 → 36개 MOE 블록 전부 CPU 실행필요 시 일부 MOE만 GPU로 옮겨 성능 조정 가능GPU에는 다음만 상주시켜 VRAM 절약KV 캐시(시퀀스)Attention 가중치와 활성값라우팅 테이블LayerNorm 및 기타 비전문가 파라미터MOE 가중치는 GPU에 상주하지 않아 대형 MLP 파라미터 부담 없음 Step 1: 최초 추론 실행 어떤 방식이라도 최초 추론(base.. 2025. 8. 18. LLM 에이전트 기반 음악 추천 챗봇 개발 v0.0.3 후기 개요 v0.0.2 (링크)에서 LLM API의 예상 비용을 추가해야겠다고 했는데 드디어 추가했다. 개발한 결과는 Github (링크)에 올렸다. v0.0.2부터 시작한거지만 tag로 버젼을 추가하고, branch를 파서 pull request 형식으로 이력을 관리하기 시작했다. LLM API 가격 OpenAI, Google, Anthropic의 API 가격을 직접 yaml로 정리해서 config에 추가했다. YAML 데이터 LLM 호출 예상 비용 대시보드 MongoDB에 비용과 관련된 내용을 저장한다.그 이유는 나중에 밝힌다. 현재는 웹 검색 에이전트, 선호도 로딩 에이전트, 수퍼바이저 에이전트의 3가지라서 각각의 input_tokens, cached_input_tokens, output.. 2025. 8. 13. 이전 1 2 3 4 ··· 14 다음