본문 바로가기

NLP61

Mixtral (2024) 논문 리뷰 Mixtral이 제시된 논문 제목은 Mixtral of Experts다. (링크) 저자들은 Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Anton.. 2025. 6. 24.
ELECTRA (2020) 논문 리뷰 ELECTRA 논문의 이름은 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators다. (링크) 저자들은 Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning다. AbstractBERT와 같은 Mask Lanauge Modeling (MLM) 사전 학습 방법은 일부 토큰을 [MASK]로 대체하여 입력을 손상시킨 후, 원래 토큰을 재구성하는 방법으로 모델을 학습한다. 다운스트림 NLP 작업에 적용하면 좋은 결과를 도출하지만, 일반적으로 효과를 발휘하려면 많은 양의 컴퓨팅 리소스가 필요하다. 대안으로, 본 연구에서는 Replaced Token Detection라는.. 2025. 6. 24.
Codex (2021) 논문 리뷰 Codex 논문의 이름은 Evaluating Large Language Models Trained on Code다. (링크) 저자들은 Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power.. 2025. 6. 24.
LLM에서의 temperature, Top-k, Top-p, Penalties 우선 LLM의 생성 과정을 알아야 하니 간단하게 짚고 넘어간다. 입력 쿼리 → LLM → logits 계산 → logits에 softmax를 취해서 token에 대한 확률 계산 → 답변 생성 이때 token의 숫자는 tokenzier에서 설정한 Vocab size와 같다. Vocab size가 32000이라면, 입력된 쿼리를 바탕으로 32,000개의 token들을 각각이 가진 softmax에 의한 확률을 가지고 multinomial 방법으로 샘플링을 하여 답변을 생성하게 된다. 이때 가장 큰 값만을 사용하면 매번 확정적으로 고정된 token을 생성하겠지만 샘플링 방법을 사용함으로써 답변의 다양성을 확보할 수 있다. 이때 답변의 다양성을 조절할 수 있는 방법들이 몇가지 존재하게 된다. temperat.. 2025. 5. 11.
Enhancing RAG performance with smart chunking strategies IBM에서 Enhancing RAG performance with smart chunking strategies란 글 (링크)을 올렸길래 유용해 보여서 러프하게 번역하고 간단한 코멘트를 남겨 본다. 그리고 여기서 Contextual Compression이란 개념이 나오는데 관련된 LangChain의 내용도 간략하게 정리한다. Chunking의 중요성토큰 길이 제한 내에서 컨텍스트 유지: LLM에는 토큰의 길이에 제약이 있으므로, 청킹을 통해 이러한 제한 내에서 관련성 있고 완전한 정보가 제공을 보장한다.컨텍스트 관계 유지: 잘 구성된 청크는 정보의 논리적 흐름을 유지하여 표현과 이해를 향상시킨다.확장성 향상: 청킹을 통해 대규모 데이터세트를 효율적으로 처리하여 인덱싱 및 검색을 더욱 쉽게 관리할 수 .. 2025. 5. 10.
A Survey of Prompt Engineering Methods in LLMs for Differenct NLP Tasks (2024) 논문 리뷰 A Survey of Prompt Engineering Methods in LLMs for Differenct NLP Tasks 논문 (링크) 저자는 Shubham Vatsal와 Harsh Dubey 두 사람이다. 서베이 논문인데 여러가지 prompting 방법들의 목록을 간단하게 정리하고 표를 올리고자 한다. Prompt Engineering Techniques Basic / Standard / Vanilla PromptingChain-of-Thoguht (CoT)Self-ConsistencyEnsemble Refinement (ER)Automatic Chain-of-Thoguht (Auto CoT)Complex CoTProgram-of-Thoughts (PoT)Least-to-MostChain-o.. 2025. 5. 6.