25.01.27 출시도 안 된 OpenAI o3를 뛰어넘은 DeepSeek R1

이옴므

2025. 1. 27. 22:19

"DeepSeek R1은 단순히 'GPT o1보다 25배 저렴하다'는 것만이 아닙니다.
이것은 아직 출시되지 않은 OpenAI o3보다 더 뛰어나며, Codeforces와 ARC-AGI에서 코딩하는 데 드는 동일한 비용으로 이용할 수 있습니다!"

X축: 비용(Cost) - AI 모델을 실행하거나 사용할 때 드는 비용.
Y축: Codeforces Elo 점수 - Codeforces에서 코딩 성능을 평가하는 점수로, 높은 점수일수록 더 뛰어난 성능을 나타냄.
주요 데이터:
- "o3" 모델은 성능이 가장 높지만 비용도 가장 비쌈.
- "o3-mini" (high, medium, low) 모델은 비용에 따라 성능이 조정된 다양한 옵션.
- "o1-mini"는 성능과 비용 모두 낮은 모델.
- "DeepSeek R1"은 비용이 낮으면서도 "o3-mini (high)"보다 뛰어난 성능을 보여줌.

의미:
DeepSeek R1은 비용 대비 성능 비율에서 매우 우수한 모델로, 적은 비용으로도 높은 Codeforces Elo 점수를 기록하고 있음.

X축: 비용(cost per task) - 태스크당 드는 비용.
Y축: 점수(score) - 특정 작업(ARC-AGI 및 기타 평가)에서의 성능 비율.
주요 데이터:
- "o1-mini" 등은 낮은 비용에 낮은 점수를 기록.
- "o3-high (tuned)"는 높은 점수(88%)와 매우 높은 비용을 요구.
- DeepSeek R1은 상대적으로 낮은 비용에 비해 높은 점수(15.8%)를 기록하며, 특히 "o1-high" 등과 비교했을 때 효율적.

의미:
DeepSeek R1은 비용 효율성을 유지하면서도 경쟁력 있는 성능을 제공하며, 특히 중간 범위의 태스크에 적합한 모델임을 보여줌.

이 그래프는 DeepSeek R1이 다른 모델에 비해 비용 효율성이 뛰어나며, 특히 고가의 모델(OpenAI o3 등)을 대체할 수 있는 가능성을 강조하고 있습니다. 이는 저비용 고성능 AI 솔루션이 필요한 사용자들에게 매력적인 옵션임을 시사

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Arrancado Luna