
주간 LLM 은 매주 LLM 관련 최신 연구, 논문을 다루는 시리즈 입니다.
2025.02 - 1주차는 최근 주목받고 있는 오픈소스 LLM인 딥시크(DeepSeek)에 대해 다룹니다.
Overview
최근 중국의 AI 스타트업인 DeepSeek가 개발한 오픈소스 LLM이 세계적으로 주목받고 있습니다. 사실, DeepSeek에서 처음 공개한 모델은 23년 11월에 공개된 코딩 특화 모델 DeepSeek Coder이지만, DeepSeek의 이름이 주목받기 시작한 것은 작년 말인, 약 670B의 거대 언어모델인 DeepSeek-V3을 80억원에 불가한 획기적인 비용으로 개발했다는 사실이 알려지면서 입니다. 또한, 바로 저번달인 25년 1월에 DeepSeek-R1모델이 공개되면서 수천억원의 비용을 들여 모델을 개발한 OpenAI와도 비교되고 있는 상황입니다. 하지만, DeepSeek의 저비용-고성능 모델 개발이 가능했던 이유를 아래의 사진처럼 보는 시각도 있긴 합니다.

본 글에서는 DeepSeek에서 공개한 모델의 히스토리와, 모델의 학습 기법, 최근 추론형으로 나온 DeepSeek-R1 모델을 직접 돌려보도록 하겠습니다.
*deepseek의 전반적인 이론보다는, 실제로 현업에서 deepseek를 학습/추론으로 사용하고 싶은 분께 더 적합한 내용을 다루고 있습니다.
1. DeepSeek 모델을 돌리기 위한 하드웨어 스펙
실제로 현업에서 DeepSeek를 사용하려고 한다면, 개인 혹은 회사 자원으로 DeepSeek를 돌릴 수 있을까가 가장 궁금할 것 입니다. 아래 huggingface에서 오피셜 모델들을 제공하고 있으며, 크게 Full Model과 Qunatization Model로 나누어집니다. 각각의 모델을 돌리기위한 최소 GPU 사양을 살펴보겠습니다.
https://huggingface.co/deepseek-ai
deepseek-ai (DeepSeek)
Running on Zero
huggingface.co
*아래 스펙은 가장 최신에 나온 DeepSeek-R1을 기준으로 작성되었습니다. 이전모델(ex. DeepSeek-V3)의 경우 다음 링크를 참고하시길 바랍니다(https://apxml.com/posts/system-requirements-deepseek-models)
1.1. Full Model
Model | Parameter | VRAM Requirement |
Recommended GPU |
DeepSeek-R1-Zero | 671B | ~1,543 GB | Multi-GPU setup (NVIDIA A100 80GB x16) |
DeepSeek-R1 | 671B | ~1,543 GB | Multi-GPU setup (NVIDIA A100 80GB x16) |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | ~3.9 GB | NVIDIA RTX 3060 12GB or higher |
DeepSeek-R1-Distill-Qwen-7B | 7B | ~18 GB | NVIDIA RTX 4090 24GB or higher |
DeepSeek-R1-Distill-Llama-8B | 8B | ~21 GB | NVIDIA RTX 4090 24GB or higher |
DeepSeek-R1-Distill-Qwen-14B | 14B | ~36 GB | Multi-GPU setup (NVIDIA RTX 4090 x2) |
DeepSeek-R1-Distill-Qwen-32B | 32B | ~82 GB | Multi-GPU setup (NVIDIA RTX 4090 x4) |
DeepSeek-R1-Distill-Llama-70B | 70B | ~181 GB | Multi-GPU setup (NVIDIA A100 80GB x3) |
모델 별 학습 파라미터와 요구되는 최소 GPU 사양을 위 표에서 구체적으로 확인할 수 있습니다. 원본 모델의 경우 멀티 GPU 세팅으로 무려 A100 80GB가 16개가 필요합니다. 개인으로는 택도 없고, 회사에서도 서버가 넉넉하지 않는 이상 돌리기 힘든 사양입니다.
따라서 공식에서는 R1 모델로 생성된 합성 데이터로 파인튜닝된 모델인 Qwen, Llama 를 이용한 'DeepSeek-R1-Distill' 모델도 함께 제공하고 있습니다. 1~8B 모델의 경우는 개인이 돌리기에도 부담스럽지 않은 요구사항을 보입니다.
추가로, VRAM Requirement는 GPU가 데이터를 저장하고 불러올 수 있는 VRAM의 최소용량을 얘기합니다. nvidia-smi 명령어를 터미널에 입력하시면 쉽게 확인할 수 있는데, 예시로 제 서버에 해당 명령어를 치면 다음과 같은 테이블이 나옵니다. 이때, 81920MiB -> 80GB의 VRAM 용량으로 최대 DeepSeek-R1-Distill-Qwen-32B 정도까지 올릴 수 있는 걸 확인할 수 있습니다.

1.2. Quantized Models
Model | Parameter | VRAM Requirement |
Recommended GPU |
DeepSeek-R1-Zero | 671B | ~436 GB | Multi-GPU setup (NVIDIA A100 80GB x6) |
DeepSeek-R1 | 671B | ~436 GB | Multi-GPU setup (NVIDIA A100 80GB x6) |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | ~1 GB | NVIDIA RTX 3050 8GB or higher |
DeepSeek-R1-Distill-Qwen-7B | 7B | ~4.5 GB | NVIDIA RTX 3060 12GB or higher |
DeepSeek-R1-Distill-Llama-8B | 8B | ~5 GB | NVIDIA RTX 3060 12GB or higher |
DeepSeek-R1-Distill-Qwen-14B | 14B | ~9 GB | NVIDIA RTX 4080 16GB or higher |
DeepSeek-R1-Distill-Qwen-32B | 32B | ~21GB | NVIDIA RTX 4090 24GB or higher |
DeepSeek-R1-Distill-Llama-70B | 70B | ~46 GB | Multi-GPU setup (NVIDIA RTX 4090 24GB x2) |
Full Model이 너무 부담스럽다면 다음의 경량화 모델 옵션도 고려해볼 수 있습니다. 위 표의 모델은 모두 원본 모델을 4-bit로 Quantization한 모델로, Distillation 모델의 경우 개인 컴 GPU로도 많이 사용하는 RTX3050, 3060 스펙에서도 돌아간다고 합니다. R1, R1-Zero 모델도 A100 80GB 6장으로 돌릴 수 있다고 합니다. Quntization 모델의 경우 전반적으로 요구되는 VRAM 용량이 대략 1/3로 줄어든다고 합니다.
2. DeepSeek 모델 별 학습 기법, 특징
다음으로, DeepSeek에서 공개한 모델들의 학습 기법 및 특징을 살펴보겠습니다.
모델 | 발표일 | 사이즈 | 비교 모델 | 특징 |
DeepSeek Coder
|
23.11
|
1B~33B | CodeLlama, GPT-3.5, 4 (Code Task Only) |
코딩 특화 모델. (학습시 87% 코드, 13% 자연어 구성) |
DeepSeek Math
|
24.02
|
7B |
GPT-4, Gemini, Qwen (Math Task Only) |
수학 문제 특화 모델 |
DeepSeek-VL, VL2
|
24.03
|
1.3B~7B | GPT-4V, Qwen-VL | Vision-Language 모델로, 다양한 multi-modal task 수행이 가능 |
DeepSeek-V2
|
24.05
|
236B | Llama3, Qwen1.5 | 본격적으로 100B이상의 LLM 모델 등장 시기. 비용 절감과 성능 향상에 초점을 둠 (GPT-4 대비 1/10 비용) |
DeepSeek-V3
|
24.12
|
671B (37B) | Qwen2.5-72B, Lllama 3.1-405B |
총 파라미터는 671B이나, 활성화되는 파라미터는 37B (MoE 아키텍처 도입) |
DeepSeek-R1
|
25.01
|
671B (37B) | openai-o1, o1-mini | Deepseek-V3 모델 기반으로, 두가지 강화학습 기법을 적용한 모델(R1, R1-Zero) 공개 무료 추론이 가능한 어플 공개로, Chatgpt를 제치고 북미 앱 다운로드 1위 달성 |
DeepSeek 모델의 처음 시작은 코딩과 수학 문제 해결에 초점이 맞춰진 모델입니다. DeepSeek Coder 모델의 경우 약 86개의 다양한 프로그래밍 언어를 지원합니다. DeepSeek Math에서는 7B 모델로, 용도에 따라 Base, Instruct, RL 버전을 함께 제공하며 다양한 카테고리의 수학 문제 해결을 제공합니다. 해당 모델에서는 영어와 중국어만을 지원하며 공개된 벤치마크에 의하면, 코딩 문제와 수학 문제 해결 태스크에 한해서 GPT-3.5와 GPT-4 사이의 성능을 보입니다.
2.2. Vision-Language 모델 등장: DeepSeek-VL, VL2
DeepSeek VL의 경우 Vision-Language 모델로 기존에 공개된 모델과 달리 다양한 Multi-Modal Task 수행이 가능해졌습니다. VL의 경우 1.3B, 7B 사이즈의 모델을, VL2의 경우 기존 VL1을 업그레이드한 버전으로, 1B, 2.8B, 4.5B 세 가지 모델로 구성되어 있습니다.
2.3. 저비용-고성능 모델: DeepSeek-V2, V3, R1
DeepSeek-V2는 236B 모델로 본격적으로 DeepSeek가 거대 언어모델 경쟁에 뛰어들게 된 것을 알린 모델입니다. 236B의 Base모델과 함께 16B의 Lite, V2-Chat (RL) 버전 모델을 함께 공개했습니다. V3는 V2 대비 추론 속도가 약 3배 빨라졌으며, gpt-4o와 유사한 성능을 보이나 2048개의 H800(H100의 저가형 모델)을 이용해 671B의 거대 언어 모델을 학습했다고 공개하면서 큰 파장을 일으킨 모델입니다.
가장 최근에 공개된 강화학습 기반의 추론 모델인 DeepSeek-R1 모델의 경우, R1, R1-Zero, 자체적으로 파인튜닝한 Distillation 모델(llama, Qwen)을 공개했습니다. R1 모델 시리즈의 경우, 이전 모델인 V3 기반으로 671B 파라미터를 가진 MoE(Mixture of Experts) 구조를 가집니다. 여기서 MoE 구조란, 각 분야에 특화된 sub-network를 의마하는 전문가의 조합을 통해 입력 데이터를 처리하는 기술로 언어 모델의 고속 추론을 위해 사용되는 기법 중 하나입니다. 먼저 R1-Zero의 경우 V2모델에 SFT(Supervised Fine-Tuning) 없이 직접 강화학습을 적용한 모델로 추론 성능은 크게 향상되나 낮은 가독성, 반복 문장 생성, 언어 혼용 등 한계점이 발생합니다. R1은 이러한 문제점을 극복하기 위해 고안된 Training Recipe로 학습된 모델이며, 적은 양의 cold-start data(초기 데이터)를 활용합니다. 이 방법을 통해 초기 학습 단계의 불안정성을 감소시키며 가독성을 향상시킨다고 합니다. R1 모델은 다양한 태스크에서 o1-mini를 뛰어넘고, o1과 유사한 성능을 보입니다. 또한 기존에는 영어, 중국어만을 지원했으나 한국어 등 다른 언어에 대한 지식도 어느정도 보유합니다. 추가로, R1 모델에서 학습된 지식을 작은 모델(Qwen, Llama)에 증류하여 추론 능력을 기존 모델 대비 크게 향상시킨 Distillation 모델도 함께 공개했습니다.
*분량이 길어질 것 같아, 다음 주간 LLM 편에서 딥시크(DeepSeek) 모델의 실습 파트를 다루도록 하겠습니다.
References
- GPU system Requirements for Running DeepSeek-R1: https://apxml.com/posts/gpu-requirements-deepseek-r1
- huggingface(official model): https://huggingface.co/deepseek-ai
'인공지능(AI) > LLMs' 카테고리의 다른 글
[주간 LLM] LLM Evaluation (2) LLM-as-a-Judge (0) | 2025.01.20 |
---|---|
[주간 LLM] LLM Evaluation (1) - Ifeval (2) | 2025.01.13 |