DeepSeek, 자사의 ‘추론’ 모델이 특정 벤치마크에서 OpenAI의 o1을 능가한다고 주장

중국 AI 연구소 DeepSeek이 자사의 ‘추론 모델’로 불리는 DeepSeek-R1의 오픈 버전을 공개했습니다. 이 모델은 특정 AI 벤치마크에서 OpenAI의 o1과 동등한 성능을 발휘한다고 주장하고 있습니다.

R1은 MIT 라이선스 하에 AI 개발 플랫폼인 Hugging Face에서 제공되며, 상업적으로 제한 없이 사용할 수 있습니다. DeepSeek에 따르면, R1은 AIME, MATH-500, SWE-bench Verified 벤치마크에서 o1을 능가합니다. AIME는 다른 모델을 활용해 성능을 평가하며, MATH-500은 단어 문제 모음입니다. SWE-bench Verified는 프로그래밍 작업에 중점을 둡니다.

추론 모델인 R1은 스스로 사실 확인을 수행하여 일반적인 모델이 흔히 겪는 오류를 피할 수 있도록 돕습니다. 추론 모델은 일반적인 비추론 모델보다 해결책에 도달하는 데 몇 초에서 몇 분 정도 더 걸리지만, 물리학, 과학, 수학 등과 같은 분야에서 더 신뢰할 수 있는 결과를 제공합니다.

DeepSeek은 기술 보고서를 통해 R1이 6710억 개의 파라미터를 포함하고 있다고 밝혔습니다. 파라미터는 모델의 문제 해결 능력과 대략적으로 대응하며, 파라미터 수가 많을수록 일반적으로 성능이 더 뛰어납니다.

6710억 개의 파라미터는 매우 방대한 수준이지만, DeepSeek은 R1의 “축소된(distilled)” 버전도 공개했으며, 파라미터 수는 15억 개에서 700억 개에 이릅니다. 가장 작은 버전은 노트북에서도 실행할 수 있습니다. 반면, 전체 R1은 더 강력한 하드웨어가 필요하지만, DeepSeek의 API를 통해 OpenAI의 o1보다 90~95% 저렴한 가격으로 사용할 수 있습니다.

Hugging Face의 CEO 클렘 들랑주(Clem Delangue)는 월요일 X에 게시한 글에서 플랫폼 개발자들이 R1의 파생 모델 500개 이상을 만들어냈으며, 이들이 총 250만 회 다운로드되었다고 밝혔습니다. 이는 공식 R1 다운로드 수의 5배에 달합니다.

R1의 단점 중 하나는 중국 모델이라는 점입니다. 이는 중국 인터넷 규제 당국의 검열을 받아야 하며, “사회주의 핵심 가치를 구현”하는 답변을 보장해야 합니다. 예를 들어, R1은 톈안먼 사태나 대만의 자치에 대한 질문에 답변하지 않습니다. 중국의 다른 추론 모델들도 시진핑 정권에 민감한 주제와 같은 규제 당국의 반발을 일으킬 수 있는 주제에 답변을 거부합니다.

R1은 바이든 행정부가 중국 기업을 대상으로 AI 기술 수출 규제와 제한을 강화하려는 제안을 발표한 지 며칠 만에 등장했습니다. 중국 기업들은 이미 고급 AI 칩 구매가 제한되어 있으며, 새로운 규칙이 적용되면 반도체 기술과 고급 AI 시스템 구축에 필요한 모델에 대해 더 엄격한 제한이 가해질 것입니다.

지난주 정책 문서에서 OpenAI는 미국 정부에 자국 AI 개발을 지원할 것을 촉구하며, 그렇지 않으면 중국 모델이 성능 면에서 이를 따라잡거나 앞설 수 있다고 경고했습니다. OpenAI 정책 부사장 크리스 레하네(Chris Lehane)는 인터뷰에서 DeepSeek의 모기업인 High Flyer Capital Management를 특히 우려되는 조직으로 지목했습니다.

현재까지 DeepSeek, 알리바바, 중국 유니콘 기업 Moonshot AI가 소유한 Kimi 등 세 곳의 중국 연구소가 o1과 경쟁할 수 있는 모델을 개발했다고 주장하고 있습니다. (참고로 DeepSeek은 이 중 최초로, 지난해 11월 말 R1의 미리보기를 발표했습니다.) 조지 메이슨 대학교의 AI 연구원 딘 볼(Dean Ball)은 X에 게시한 글에서 이 추세는 중국 AI 연구소가 계속해서 “빠른 추격자”가 될 것임을 시사한다고 언급했습니다.

“DeepSeek의 축소된 모델들이 보여주는 인상적인 성능은 매우 능력 있는 추론 모델들이 광범위하게 확산되고, 로컬 하드웨어에서도 실행 가능하게 될 것임을 의미합니다. 이는 어떤 중앙 통제 체제의 눈길로부터도 벗어나게 될 것입니다”라고 볼은 작성했습니다.

DeepSeek, 자사의 ‘추론’ 모델이 특정 벤치마크에서 OpenAI의 o1을 능가한다고 주장

iOS 27 공개 베타 시작, 새 Siri AI 정말 모두가 사용할 수 있을까?

뉴욕 메디케이드 1억 9천만 달러 사기 의혹… 닥터 오즈와 닉 셜리의 폭로, 어디까지 사실일까?

심장 건강에 좋은 과일은 무엇일까? 연구로 확인된 사과·블루베리·바나나의 놀라운 효과

T-Mobile 요금제 강제 변경 시작! 기존 고객도 더 이상 예외가 아니다? 꼭 확인해야 할 변경 사항 총정리