본문 바로가기

NLP/LLM17

LLM 서빙 관련 글 모음 GPU RAM 필요량 계산 우선 LLM을 API로 가져와서 쓰는게 아니라면 GPU의 RAM 계산이 필수적이다. 이에 관련된 내용들을 레퍼런스들에서 참고해서 적어본다. 학습이 아니라 추론만을 위한 계산은 다음과 같다. M = $\frac{P \times 4B}{\frac{32}{Q}} \times 1.2$M is the GPU memory in Gigabytes.P is the number of parameters in the model.4B represents the 4 bytes used per parameter.Q is the number of bits for loading the model (e.g., 16-bit or 32-bit).1.2 accounts for a 20% overhead. L.. 2025. 4. 27.
Mistral 7B (2023) 논문 리뷰 Mistral 7B의 논문 이름은 Mistral 7B다. (링크) 저자는 Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed다. Github: Mistral common (링크)Mistral C.. 2025. 4. 27.
GPT 4 (2023) 리뷰 GPT4 부터는 아예 논문이 아니라 Technical Report라고 나온다. (링크) OpenAI가 아니라 ClosedAI라고 해야하는게 아닌가 싶긴 하지만 내용을 간략하게 살펴본다. 다들 알다시피 첫 보고서는 2023년에 나왔지만 지금은 6번째로 리비전이 되어서 v6다. 아래의 Table 1과 Figure 4에서 GPT-3.5와 비교하면서 시작한다. Academic and professional exams에서 GPT 3.5에 비해서 GPT-4는 월등하게 좋은 성능을 보여준다. 사실 ChatGPT가 아주 처음에 나왔을 때 GPT-3.5를 무료로 써봤을 때 생각보다 별로여서 실망했던 기억이 난다. GPT-4 이후에 점차 쓸만해졌다고 느꼈던 기억이 난다. GPT-4는 Table 3에 나와있듯.. 2025. 4. 26.
Self-Instruct (2022) 논문 리뷰 Self-Instruct의 논문 이름은 Self-Instruct: Aligning Language Models with Self-Generated Instructions다. (링크) 저자는 Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi다. Github: 링크 사람이 생성한 레퍼런스 instructions을 기반으로 LLM을 통해서 instructions를 생성하고 파인 튜닝에 사용한 논문이다. AbstractInstruction-tuned LLM은 새로운 태스크에 대한 zero-shot 성능에서 놀라운 성능을 보였다. 하지만 이는 사람이 작성한 instr.. 2025. 4. 17.
LLaMA 2 (2023) 논문 리뷰 LLaMA 2의 논문 이름은 Llama 2: Open Foundation and Fine-Tuned Chat Models다. (링크) 저자는 Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedan.. 2025. 4. 17.
Emergent Abilities of Large Language Models (2022) 논문 리뷰 Emergent Abilities of Large Language Models는 LLM의 성능이 급격하게 오르는 파라미터 수를 연구한 논문이다. (링크) 저자는 Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus다. Emergent abilities, 예기치 않게 생겨난 능력이 LM 모델의 스케일을 키울 때 등장한다는 내용을 다룬 논문이다. 전반적으.. 2025. 4. 17.