중국 연구진이 새해 첫날 엔비디아의 GPU 독점을 종식시킬 수 있는 논문을 발표했습니다.
딥시크(DeepSeek)의 이번 혁신은 모든 AI 모델이 사용하는 10년 묵은 기반에 도전하고, 더 큰 것이 항상 더 좋은 것은 아니라는 점을 입증하며, 2026년이 효율성이 순수한 성능을 능가하는 해가 될 수 있는 이유를 보여줍니다.
원 글 : Chinese Researchers Published a Paper on New Year’s Day That Could End Nvidia’s GPU Dominance
DeepSeek’s breakthrough challenges the 10-year-old foundation every AI model uses, proves bigger isn’t always better, and shows why 2026 might be the year efficiency beats raw power.
글쓴이 : Nov Tech
출처 : https://medium.com/predict/chinese-researchers-published-a-paper-on-new-years-day-that-could-end-nvidia-s-gpu-dominance-a6333b0815df
[아래는 구글번역 입니다.]
2026년 1월 1일, 전 세계가 샴페인을 터뜨리고 지키지도 못할 새해 결심을 세우는 동안, 19명의 중국 연구진으로 구성된 한 팀이 조용히 과학 논문을 발표했습니다.
며칠 후, 업계 분석가들은 이를 "획기적인 발견"이라고 평가했습니다. 그리고 그들이 무엇을 했는지 이해한다면, 2026년이 인공지능 경쟁의 방향을 완전히 바꿀 수 있는 해가 될 수 있는 이유를 알게 될 것입니다.
딥시크(DeepSeek)는 오늘날 모든 현대 인공지능 모델이 의존하는 근본적인 핵심 요소에 도전했습니다. 10년도 더 전에 나왔고, 완벽하게 작동했기에 아무도 감히 손대지 못했던 아이디어였습니다.
하지만 여기서 문제가 발생합니다. 그리고 이는 인공지능을 넘어 다른 분야에도 적용될 수 있는 문제입니다. 작동하는 것이 항상 최적의 것은 아닙니다. 딥시크는 바로 이 점을 증명했습니다.
저는 지난 며칠 동안 그들의 논문을 꼼꼼히 살펴보았고, 딥시크가 무엇을 발견했는지뿐만 아니라 이 발견이 향후 인공지능의 판도를 어떻게 바꿀지 설명했습니다.
스포일러: 이제는 GPU 개수가 가장 많은 팀이 반드시 승리하는 것은 아닙니다.
2015년, 누구도 의문을 제기하지 않았던 토대
이 획기적인 발전을 이해하려면 2015년 12월로 돌아가야 합니다. 마이크로소프트 연구소의 한 연구팀이 딥러닝을 문자 그대로 구원할 논문([1512.03385] Deep Residual Learning for Image Recognition)을 발표했습니다.
연구자들은 난관에 부딪혔습니다. 신경망에 레이어를 추가할수록 오히려 지능이 떨어지는 현상이 나타났습니다. 직관에 반하는 것처럼 보이죠? 이 문제는 '기울기 소실’이라고 불렸습니다. 학습 신호가 여러 레이어를 거치면서 너무 약해져서 결국 신경망의 시작점에 도달하지 못했던 것입니다.
마이크로소프트의 해결책은 무엇이었을까요? 바로 '잔여 연결(Residual connections)'이었습니다.
이 아이디어는 매우 훌륭합니다. 정보가 모든 레이어를 순서대로 거치도록 하는 대신, 주요 도로와 평행하게 뻗어 있는 고속도로처럼 지름길을 만들어 정보를 목적지까지 손상 없이 전달하는 것입니다.
이 혁신은 ImageNet 2015 대회에서 우승을 차지했고, 이전에는 30개 레이어를 넘기기조차 어려웠던 네트워크를 150개 레이어로 학습시킬 수 있게 했습니다. 그리고 흥미로운 점은 이 솔루션이 너무나 효과적이어서 모두가 이를 채택했다는 것입니다.
ChatGPT, Claude, Gemini, Grok을 구동하는 Transformer들은 모두 잔여 연결(residual connection)을 사용합니다. 마치 집의 기초처럼 눈에 띄지 않게 되었고, 더 이상 아무도 의문을 제기하지 않습니다.
하지만 숨겨진 타협점이 있었습니다. 안정성을 보장하기 위해 이러한 연결은 모든 정보를 하나의 흐름, 즉 폭에 상관없이 하나의 고속도로로만 통과하도록 강제했습니다. 그리고 수년 동안 아무도 이 문제에 대해 크게 신경 쓰지 않았는데, 그 이유는 더 많은 데이터, 더 많은 파라미터, 더 정교한 어텐션 메커니즘 등 다른 부분에서 이점이 있었기 때문입니다. 내부 아키텍처는 그대로 유지되었습니다.
그러다가 몇몇 연구자들이 간단한 질문을 던졌습니다.
“만약 고속도로를 하나만 만드는 대신, 여러 개의 평행 고속도로를 만든다면 어떨까?”
하이퍼커넥션 문제, 모든 것을 파괴하다
이 개념은 하이퍼커넥션으로 알려져 있으며, 특히 바이트댄스에서 개발되었습니다. 이론상으로는 정말 훌륭한 아이디어였지만, 실제로는 재앙에 가까웠습니다.
이러한 여러 흐름들이 제어할 수 없이 상호작용하기 시작했습니다. 신호는 층층이 증폭되었죠. 학습은 10,000단계까지는 순조롭게 진행되다가 갑자기 모든 것이 무너졌습니다. 손실 곡선은 폭발적으로 증가하고, 기울기는 제어할 수 없을 정도로 치솟으며, 몇 주 동안의 계산 작업이 허사가 되었습니다.
딥시크(DeepSeek)는 바로 이 문제를 최신 논문(2512.24880)에서 해결했습니다.
이 기술을 매니폴드 제약 하이퍼커넥션(Manifold Constrained Hyper-connections, MHC)이라고 부릅니다. 이름은 다소 어렵게 들리지만, 실제 개념은 매우 직관적입니다. 비유를 들어 설명해 보겠습니다.
물이 가득 찬 유리잔 네 개가 있다고 상상해 보세요. 물을 한 잔에서 다른 잔으로 어떻게 부든 상관없지만, 절대적인 규칙이 하나 있습니다. 전체 물의 양은 항상 같아야 한다는 것입니다. 한 방울도 더하거나 덜해서는 안 됩니다.
딥시크(DeepSeek)는 이러한 논리를 정보 흐름에 적용합니다. 정보 흐름을 혼합하는 행렬은 엄격한 수학적 제약을 따라야 합니다. 각 행의 합은 1이고, 각 열의 합도 1입니다. 기술적으로 말하면, 이러한 행렬은 버크호프 다면체에 투영된 이중 확률 행렬입니다.
이러한 전문 용어는 전문가분들을 위한 것이지만, 실제로 중요한 것은 결과입니다. 이 방법을 적용하면 정보는 강화되거나 약화되지 않고 흐름 간에 자유롭게 이동합니다. 안정성은 섬세한 조정이 아닌 수학적 구조 자체에 의해 보장됩니다.
엔비디아 주가를 불안하게 만든 결과
결과는 이미 놀라울 정도입니다. 제가 굳이 이 내용을 말씀드리지 않아도 될 정도니까요.
DeepSeek은 이 아키텍처를 30억, 90억, 270억 개의 파라미터를 가진 모델로 테스트했습니다. 수학적 추론 벤치마크인 GSM-8K에서 270억 파라미터 모델은 46.7%에서 53.8%로, 논리 벤치마크인 BBH에서는 43.8%에서 51%로, 일반 이해 벤치마크인 MMLU에서는 59%에서 63%로 성능이 향상되었습니다.
이러한 벤치마크에서 2~3점 상승만으로도 큰 발전으로 여겨지는 세상에서, 이 정도의 성능 향상은 정말 놀랍습니다.
하지만 여기서부터 더욱 놀라운 사실이 드러납니다.
일반적으로 모델의 내부 흐름을 넓히면 비용이 증가합니다. 메모리에서 이동해야 하는 데이터가 많아지면 GPU에 부담이 커지고, 계산량이 늘어나면 학습 시간이 끝없이 길어지기 때문입니다.
딥시크는 모델의 유효 내부 흐름 폭을 4배로 늘렸지만, 학습 오버헤드는 단 6.7%에 불과했습니다.
딥시크는 최신 엔비디아 GPU를 사용할 수 없었기 때문에 맞춤형 그래픽 카드를 사용하여 학습 인프라의 일부를 완전히 재구축했습니다. 메모리와 그래픽 카드 간의 왕복 시간을 최소화하기 위해 연산들을 통합했습니다. 즉, 계산과 통신을 지능적으로 중첩시킨 것입니다.
이는 우연이 아닙니다. 바로 이러한 혁신 덕분에 딥시크는 명성을 쌓았고, 2026년 1월에도 그 명성을 계속해서 높여가고 있습니다.
모두가 놓친 스푸트니크 순간
엔비디아의 DeepSeek-R1 모델은 ChatGPT o1과 동등한 성능을 훨씬 저렴한 비용으로 구현하며 AI 업계 전체를 뒤흔들었습니다. 분석가들은 이를 AI의 "스푸트니크 순간"이라고 불렀습니다. 샘 알트만은 오픈AI에 비상사태를 선포했지만, 우리는 그 사실을 훨씬 나중에야 알게 되었습니다. 엔비디아의 주가는 폭락했습니다.
이번 새로운 발표는 전략적으로 중요한 시점에 이루어졌습니다. DeepSeek은 이미 2025년 중반 출시가 연기된 유명한 차세대 플래그십 모델인 DeepSeek-R2를 개발 중입니다. The Information에 따르면, 창립자 량원펑(Liang Wenfeng)은 성능에 만족하지 못했고, 중국 내 칩 부족 사태도 출시 지연의 원인이 되었습니다.
일부 분석가들은 MHC 기술이 차세대 제품에 확실히 통합될 것이라고 예상합니다. 반면, 다른 분석가들은 R2 단독 모델이 아니라 이러한 혁신 기술들이 미래의 DeepSeek V4와 같은 제품의 기반이 될 것이라고 주장합니다.
흥미로운 점은 이러한 접근 방식의 차이입니다.
딥시크는 연구 결과를 공개하고 있는데, 이는 오픈AI가 내부 알림만 제공(https://medium.com/predict/openais-economists-just-resigned-because-the-company-refuses-to-publish-the-truth-about-ai-and-a6f52ff3464a)하는 것과는 대조적입니다. 구글 제미니와 오픈AI는 사용자 확보 및 벤치마크 성과 경쟁을 벌이고 있습니다. 량 대표에 따르면 이러한 투명성은 오늘날 중국 AI 생태계에 대한 신뢰가 높아지고 있음을 반영합니다.
모델을 통해 독창적인 가치를 제공하면서 기본적인 아이디어를 공유하는 것은 진정한 이점입니다. 우리는 이러한 현상을 정기적으로 목격하는데, 이는 결함이 아니라 오히려 장점입니다. 반면 많은 미국인들은 오픈소스를 취약점으로 간주합니다.
이것이 모든 것을 바꾸는 이유 (승자까지 포함해서)
어쩌면 이것이 이 글의 핵심 메시지일지도 모릅니다. 업계는 새로운 시대로 접어들고 있습니다.
수년간 '더 큰 것이 곧 더 나은 것’이었고, GPU와 수십억 달러 규모의 인프라 투자 경쟁이 업계를 좌우했던 시대가 지나갔습니다. 이제 DeepSeek은 다른 길이 있음을 증명합니다. 아키텍처 혁신, 수학적 우아함, 적은 자원으로 더 많은 것을 해내는 능력 말입니다.
카운터포인트 리서치의 수석 분석가인 바룬 미슈라는 이 상황을 완벽하게 요약했습니다. “DeepSeek은 다시 한번 컴퓨팅 병목 현상을 극복하고 인공지능의 비약적인 발전을 이끌어낼 수 있습니다.”
이제 누가 가장 많은 엔비디아 H100 카드를 보유하느냐의 문제가 아닙니다. 누가 AI 모델 내부에서 정보가 어떻게 흘러야 하는지 가장 잘 이해하느냐의 문제입니다.
우리가 당연하게 여기지만 실제로는 그렇지 않은 모델 아키텍처의 다른 측면은 무엇일까요?
단순히 레이어를 더 쌓는 것보다 내부 정보 흐름을 넓히는 것이 더 나은 성능을 가져온다면, 오늘날 우리가 재검토해야 할 근본적인 가정은 무엇일까요? 아마도 많을 것입니다.
이것이 당신에게 의미하는 바는 무엇일까요?
기술 분야에 종사한다면 이러한 기술들이 빠르게 확산될 것으로 예상됩니다. 2026년 중반까지 다른 연구소들도 유사한 제약 조건 아키텍처를 실험할 것이며, 연말에는 대규모 언어 모델 학습의 표준 방식으로 자리 잡을 가능성이 높습니다.
AI에 투자하는 기업에게는 효율성이 이제 성능만큼이나 중요해졌습니다. 그리고 이러한 도구를 매일 사용하는 모든 사용자에게는 더욱 안정적이고 효율적인 모델이 곧 제공될 것이며, 이는 더욱 신뢰할 수 있는 서비스와 잠재적으로 훨씬 저렴한 서비스를 의미합니다.
2026년은 AI가 과장에서 실용주의로 전환되는 해로 자리매김하고 있으며, DeepSeek은 이러한 대안적 경로의 일부를 제시했습니다.
DeepSeek은 매년 1월이면 AI 산업의 방향을 완전히 새롭게 정의할 강력한 무기를 꺼낼 준비를 하는 듯합니다.
아무도 공개적으로 말하지는 않지만 모두가 생각하는 바는 다음과 같습니다. AI 분야에서 성공하려면 가장 많은 돈, 가장 많은 GPU, 가장 강력한 인프라가 필요하다는 기존의 가정이 심각한 도전을 받게 되었습니다. 딥시크가 최첨단 칩에 대한 접근성이 제한적인 상황에서도 이러한 성능을 구현해냈다면, 다른 기업들이 무제한적인 자원을 활용하여 이러한 기술을 도입했을 때 어떤 결과가 나올지 상상해 보십시오.
인공지능 군비 경쟁은 이제 훨씬 더 흥미진진해졌고, 예측 불가능성도 커졌습니다.