본문 바로가기

데이터1

Pre-train 데이터 정리 Language Model은 크게 Pre-train과 Fine-tuning 단계가 있다. GPT 3 이후 Pre-trian 단계에서 막대한 양의 데이터를 NTP (Next token prediction)과 In-context Learning (ICL)의 측면에서 학습을 한다. 그동한 읽었던 논문들에서 많이 쓰이는 대용량의 고품질 데이터들을 간단하게 정리하고자 한다. WikipediaC4 (Colossal Clean Crawled Corpus)The PileRefined WebFineWebWebTextRedPajamaBook Corpus Wikipedia(huggingface link) 300개가 넘는 언어를 지원하는 데이터다. C4(huggingface link) 구글에서 만든 common crawl.. 2025. 4. 11.

이전 1 다음

티스토리툴바