DeepSeek引華爾街震盪低成本訓練遭質疑

圖為中國人工智能程序DeepSeek。(Justin Sullivan/Getty Images)

【2025年01月28日訊】（記者林燕報導）中國人工智能公司DeepSeek引發華爾街震盪，外界卻發現這家杭州小型新創公司的消息是寥寥無幾。其拒絕任何國內外媒體的採訪。
週一（1月27日），中國人工智能公司「深度求索」（DeepSeek）引發華爾街AI股估值擔憂，英偉達跌近17%，市值蒸發近6000億美元為美股史上規模最大。
DeepSeek的研究人員2024年12月在公開網站alphaXiv發表了一篇論文稱，他們即將在1月10日推出的DeepSeek-V3模型在多項數據上超越國內外一眾大模型產品，但他們使用的是英偉達（Nvidia）的非高端H800芯片訓練，且訓練成本僅557萬美元。
隨後，他們在1月20日又發布推理模型DeepSeek-R1，稱性能比肩OpenAI o1正式版。
在經過一週的瘋傳和發酵後，DeepSeek登上蘋果美國應用商店下載排行榜榜首。這讓外界對英偉達最快最強芯片的必要性和競爭力，以及對科技公司天價投資AI模型和數據中心產生了質疑。
週一，除了芯片製造商，數據中心服務商和為AI基建提供電力的核電概念股也普遍重挫，因為人們擔心DeepSeek的出現會導致未來AI基建設施的支出、所需芯片數量和能源需求都會低於預期。
DeepSeek週一稍晚稱，因遭遇「大規模惡意攻擊」而限制海外用戶註冊。
陸媒宣稱「偷襲珍珠港」 DeepSeek謝絕所有採訪
大陸媒體高調宣傳週一的華爾街震盪，稱DeepSeek上演了一場「偷襲珍珠港」戲碼。
這家位於杭州市拱墅區環城北路169號匯金國際大廈西1幢1201室的神祕公司拒絕任何媒體探訪。
陸媒《21世紀經濟報導》說，「在這突然爆紅之際，DeepSeek卻選擇了「深潛」，不想與外部有任何形式的交流互動。」
有投資人向《21世紀經濟報導》記者透露，「找他們的人踏破門檻了，」「最近幾波我們去約都沒約上」。
DeepSeek的「官方交流98群」公告上說，「暫不對外進行項目合作，不提供私有化部署及相關支持服務；DeepSeek將集中研發精力奉上更強的模型，盡情（敬請）期待！」
根據中共官媒新華社報導，就在DeepSeek-R1發布的當天，其創辦人梁文鋒參加了由中共國務院總理李強主持的一場企業家和專家閉門座談會。
梁文鋒出席會議可能表明，DeepSeek的成功對於北京認為克服華盛頓的出口管制、實現人工智能等戰略產業的自給自足的政策目標至關重要。
這場會議作為當天的重要活動，在中共喉舌中央電視台的《新聞聯播》節目播出。
2024年12月，DeepSeek在公開網站alphaXiv發表了一篇論文稱，他們即將在2025年1月10日推出的DeepSeek-V3模型在多項數據上超越國內外一眾大模型產品，但他們使用的是英偉達（Nvidia）的非高端H800芯片訓練，且訓練成本僅557萬美元。（DeepSeek論文截圖/）
引發華爾街震盪 550萬訓練成本遭質疑
根據查詢的DeepSeek發表的論文，這個被美國媒體廣為引用的550萬美元訓練成本實際上是DeepSeek-V3，而不是R1，而且即便如此，它也只是V3實際訓練成本的一小部分。
「上述成本僅包括DeepSeek-V3的正式訓練，並不包括與架構、演算法或數據方面的先前研究和實驗相關的所有其它成本。」論文寫道。
DeepSeek發表的原始報告中有詳細解釋這筆成本的計算。「在預訓練階段，每兆個token上訓練DeepSeek-V3僅需要180K H800 GPU小時，也就是說，在我們擁有2048個H800 GPU的叢集上需要3.7天。因此，我們的預訓練階段在不到兩個月的時間內完成，耗費2664K GPU小時。加上上下文長度擴充所需的119K GPU小時和後製訓練所需的5K GPU小時，DeepSeek-V3的完整訓練僅需2.788M GPU小時。假設H800 GPU的租賃價格為每GPU小時2美元，我們的總訓練成本僅為557.6萬美元。」
伯恩斯坦研究公司美國半導體和半導體資本設備董事總經理、高級分析師斯泰西·拉斯貢（Stacy Rasgon）在一份報告中更直言，DeepSeek的訓練成本的數字具有很大的誤導性。
「DeepSeek 真的『以五百多萬美元創立了OpenAI』嗎？當然不是。」他質疑到。
他解釋說，DeepSeek-V3是一個「混合專家」模型，「透過一系列優化和巧妙的技術，可以提供與其他大型基礎模型相似或更好的性能，但只需要一小部分計算資源來訓練」。
拉斯貢表示，這種類型的模型旨在「顯著降低訓練和運行成本，因為在任意時刻，只有一部分參數集處於活動狀態」。
值得注意的是，DeepSeek沒有公布其R1模型的成本。如果說DeepSeek R1比肩OpenAI o1，R1的成本數據更關鍵。
「DeepSeek的R1論文沒有量化開發R1模型所需的額外資源」，拉斯貢寫道，「大概這些資源（耗費）也相當可觀。」
全球諮詢公司DGA Group的合伙人保羅·特裡奧洛（Paul Triolo）在Substack上撰文說，「OpenAI的o1的訓練成本肯定遠超過GPT-4，同樣，（DeepSeek）R1的訓練成本也肯定高於V3。從o3到o4/o5或從R1到R2/R3，訓練計算只會增加。」
美國資本公司Archerman Capital也質疑了550萬美元的成本宣傳。他們的報告指出，有人稱，DeepSeek的訓練成本是550萬美元，是Meta的十分之一，OpenAI的廿分之一，好像比後兩者厲害10倍、20倍。但是，Meta和OpenAI花的錢多是因為前沿探路，探路就意味著就會有浪費，而後發追趕是站在別人的肩膀上，當然可以避開很多浪費。
「打個不恰當的比方，創新藥的研發需要十年幾十億美元，而仿製藥的研發一定會更快更省，另外成本的統計口徑也沒有統一的標準，可以有很大的差別。」報告寫道。
到截稿前，DeepSeek沒有回應的置評請求。
責任編輯：葉紫微#

Post Views: 7,410

What's Hot

知情者曝湖南母女遭老師霸凌的經歷

蘇寧易購賤賣12家家樂福中國子公司

墨西哥將對中國汽車徵50%關稅

DeepSeek引華爾街震盪低成本訓練遭質疑

不愧是总加速师！尼泊尔总理刚见习近平国内秒爆示威被迫下台

习近平能活到150岁吗？大谈器官移植后普丁还说了一段话报告还原央视封杀令

王友群：中共大阅兵难掩军队大危机

中共9.3阅兵曝机密：981工程与活摘器官

王赫：中共「九三阅兵」令美中脱钩加速

【新闻大破解】阅兵曝中共「器官外交」黑幕

Leave A Reply Cancel Reply

知情者曝湖南母女遭老師霸凌的經歷

蘇寧易購賤賣12家家樂福中國子公司

墨西哥將對中國汽車徵50%關稅

美政府警告：太陽能公路設施或藏間諜裝置

Our Picks

美政府警告：太陽能公路設施或藏間諜裝置

中共設黃岩島保護區或推升南海緊張局勢

中共火箭軍倒查9年 190家供應商與專家遭處罰

Subscribe to Updates

What's Hot

DeepSeek引華爾街震盪 低成本訓練遭質疑

Related Posts