1. 들어가며
LLM 대표 논문 10개를 리뷰해보면서 ChatGPT같은 모델들이 어떤 방식으로 발전해왔는지 알아보며 LLM 트랜드를 따라가 보겠습니다.
2. 논문 순서
- 🌱 Attention is All You Need (2017) - Vaswani et al.
- 트랜스포머 아키텍처를 소개하며 LLM의 기반을 마련한 논문.
- 🔗 논문 링크
- 😷 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019) - Devlin et al.
- 마스킹 기법으로 NLP 성능을 크게 향상시킨 논문.
- 🔗 논문 링크
- 🔫 GPT-2: Language Models are Few-Shot Learners (2019) - Radford et al. (OpenAI)
- 사전 학습만으로 다양한 언어 작업을 수행할 수 있음을 보여준 논문.
- 🔗 논문 링크
- ⚔️ XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019) - Yang et al.
- BERT와 GPT의 장점을 결합하여 성능을 개선한 모델.
- 🔗 논문 링크
- 5️⃣ T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2020) - Raffel et al.
- 모든 NLP 작업을 텍스트-텍스트 형태로 통합한 접근 방식을 제안.
- 🔗 논문 링크
- 🔍 BART: Denoising Autoencoders for Pretraining Sequence-to-Sequence Models (2020) - Lewis et al.
- 인코더-디코더 구조를 활용한 복원 기반 사전 학습 기법 소개.
- 🔗 논문 링크
- 🧠 GPT-3: Language Models are Few-Shot Learners (2020) - Brown et al. (OpenAI)
- 초거대 모델이 제로샷, 원샷, 퓨샷 학습 능력을 갖췄음을 입증.
- 🔗 논문 링크
- ⚙️ Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (2021) - Fedus et al.
- 모델의 크기를 확장하며 연산 효율성을 개선하는 방법을 다룸.
- 🔗 논문 링크
- 🔬 PaLM: Scaling Language Modeling with Pathways (2022) - Chowdhery et al. (Google Research)
- Google의 PaLM 모델과 스케일링 법칙에 관한 연구.
- 🔗 논문 링크
- 🦙 LLaMA: Open and Efficient Foundation Language Models (2023) - Touvron et al. (Meta AI)
- 메타의 LLaMA 모델로 오픈소스 기반 LLM 연구를 촉진.
- 🔗 논문 링크
ps) LLM 논문 리뷰 한다고 생각만하고 있다가 이제서야 글을 써봅니다.