본문 바로가기

NLP8

LLM 개인용 유료 구독 가격 비용 정리 2024년 8월 2일 기준이다. 여러 업체의 LLM이 있지만 몇가지만 살펴본다. OpenAI, Google, MS, Anthropic의 LLM들이다.  회사이름유료 이름가격 (월 구독비)OpenAIChatGPTPlus20$ 혹은 29000원GoogleGeminiAdvanced29000원MicrosoftCopilotPro29000원AnthropicClaudePro29000원  엔터프라이즈용은 아니며 모두 개인용 구독 가격이다.   ChatGPT, Claude, Gemini 모두 무료도 그럭저럭 쓸만해서 굳이 결제를 해야하나 싶다. 물론, 써보면 유료가 훨씬 더 좋긴아서 체감이 크긴 하다. 거기다가 Claude나 ChatGPT나 무료는 하루 당 가능한 회수 제한도 있다. 결국 비용 대비 효용이 얼마나 있느냐.. 2024. 8. 2.
GRU 모델 설명 GRU 설명 GRU는 Gated Recurrent Units의 약자로 Recurrent Neural Network (RNN)의 하나다. GRU가 소개된 논문 이름은 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation이다. 저자는 Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua이다. 전체적인 내용은 LSTM과 유사하여 간략하게 설명하고 구현도 비슷하므로 생략한다. GRU의 가장 특징은 LSTM의 Cell을 다소 단순화했다는 사실이다. Update ga.. 2024. 4. 11.
LSTM 모델 설명과 PyTorch Implementation LSTM 설명 LSTM은 Long Short Term Memory의 약자로 Recurrent Neural Network (RNN)의 하나다. 워낙 오래된 모델이라 논문에 대한 설명 보다는 알고리즘에 대한 설명한 하고 넘어가겠다. 설명을 생략하기에는 Tabular data 등의 예측 모델에 쓴다거나 하는 식으로 응용할 수 있기에 포스팅해야겠다 생각했다. RNN은 기본적으로 sequential model로 순서가 유의미한 모델이다. 따라서 단어의 순서가 중요한 NLP라든가 시간에 따른 변화 추이가 중요한 금융 데이터 등에 쓰기 좋은 모델이다. LSTM 역시 RNN의 하나로 sequential model이다. Figure 1을 보면 $t-1$의 이전 state의 cell의 정보가 현재 state인 $t$의 c.. 2024. 4. 9.
딥러닝 기반 NLP 모델들 Transformer 이후 이에 기반한 많은 모델들이 나왔고 LLM까지 등장했다. LLM은 모델도 크고, 데이터도 크기 때문에 개인이나 소규모 기업들이 직접 학습시키기 어렵다. 하지만 LLM은 GLUE에서 좋은 성능을 거두는 경우도 많고, 오픈소스인 경우도 많아서 직접 모델을 학습할 수 없는 사람이나 집단은 pretrained model을 가져와서 tuning하거나 transfer learning의 방법으로 각자의 문제를 풀 수 있게 되었다. 따라서 이런 PLM (Pretrained Langauge Model)을 아는 것은 중요하다. 기본적으로 Transformer는 Multi-head Attention과 Self-Attention, Encoder, Decoder 구조를 지니고 있다. 여기서 Encode.. 2024. 3. 6.
GLUE, SuperGLUE, KLUE, Huggingface LB 요즘은 LLM의 등장 이후 이런 거대 모델 백본으로 하여 전이 학습 등을 적용한 사례들이 늘어나고 있다. LLM은 다양한 자연어 태스크를 처리할 수 있도록 학습되는데 이를 위한 벤치마크가 GLUE다. GLUE와 그 확장 버젼인 SuperGLUE는 영어라서 한국어인 KLUE도 소개한다. GLUE GLUE는 General Language Understanding Evaluation의 약자로 다양한 NLU 태스크들을 모아서 인간처럼 여러가지 복잡한 자연어 처리를 수행할 수 있는지를 확인할 수 있는 벤치마크다. GLUE Tasks는 총 11개다. 각각의 태스크에 맞는 영어 데이터와 부합하는 evaluation metrics가 나와있다. 위에서 부터 차례대로 태스크, 데이터, 메트릭을 살펴보자. Single-Se.. 2024. 3. 4.
자연어처리 (NLP) 기초 자연어처리는 컴퓨터가 자연언어 (한국어, 영어, 일본어 등의 자연적으로 생성된 언어)를 이해하고 분석하고 생성할 수 있도록 만드는 기술이다. 언어학의 하위 분야 중에서 전산언어학 (computational linguistics)에서는 컴퓨터 기술을 적극적으로 활용한다. 기존에는 규칙 기반 혹은 통계 기반에서 분석을 했으나 2010년대부터는 딥러닝을 적극적으로 도입했다. 언어학의 연구 분야들은 여러가지가 있지만 AI 분야에서 주의 깊게 봐야할 분야를 대략적으로 분류하면 다음과 같다. 언어학의 분야 형태를 연구하는 음운론(Phonology), 형태론(Morphology) , 통사론(Syntax) 내용을 연구하는 의미론(Semantics) 언어의 사용을 연구하는 화용론(Pragmatics) 형태론 (Morph.. 2024. 2. 29.