有码无码一二三区,男女一边摸一边做爽爽,国产日本精品久久久久久久久电影,久久99精品福利久久久久

首頁 快訊文章正文

華爾街深度研究:DeepSeek是AI末日嗎?

快訊 2025年01月30日 02:45 17 admin

專題:DeepSeek為何能震動全球AI圈

  來源:華爾街見聞

  春節(jié)期間,DeepSeek新一代開源模型以驚人的低成本和高性能引發(fā)熱議,在全球投資界引發(fā)劇震。

  市場上甚至出現(xiàn)了DeepSeek“僅用500萬美元就復制OpenAI”的說法,認為這將給整個AI基礎設施產(chǎn)業(yè)帶來“末日”。

  對此,華爾街知名投行伯恩斯坦在詳細研究DeepSeek技術文檔后發(fā)布報告稱,這種市場恐慌情緒明顯過度,DeepSeek用“500萬美元復制OpenAI”是市場誤讀。

  另外,該行認為,雖然DeepSeek的效率提升顯著,但從技術角度看,并非奇跡。而且,即便DeepSeek確實實現(xiàn)了10倍的效率提升,這也僅相當于當前AI模型每年的成本增長幅度。

  該行還表示,目前AI計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對AI板塊保持樂觀。

  “500萬美元復制OpenAI”是誤讀

  對于“500萬美元復制OpenAI”的說法,伯恩斯坦認為,實際上是對DeepSeek V3模型訓練成本的片面解讀,簡單將GPU租用成本計算等同于了總投入:

這500萬美元僅僅是基于每GPU小時2美元的租賃價格估算的V3模型訓練成本,并未包括前期研發(fā)投入、數(shù)據(jù)成本以及其他相關費用。

  技術創(chuàng)新:效率大幅提升但非顛覆性突破

  接著,伯恩斯坦在報告中詳細分析了DeepSeek發(fā)布的兩大模型V3、R1詳細技術特點。

 ?。?)V3模型的效率革命

  該行表示,V3模型采用專家混合架構,用2048塊NVIDIA H800 GPU、約270萬GPU小時就達到了可與主流大模型媲美的性能。

  具體而言,V3模型采用了混合專家(MoE)架構,這一架構本身就旨在降低訓練和運行成本。在此基礎上,V3還結合了多頭潛在注意力(MHLA)技術,顯著降低了緩存大小和內(nèi)存使用。

  同時,F(xiàn)P8混合精度訓練的運用進一步優(yōu)化了性能表現(xiàn)。這些技術的綜合運用,使得V3模型在訓練時僅需同等規(guī)模開源模型約9%的算力,便能達到甚至超越其性能。

  例如,V3預訓練僅需約270萬GPU小時,而同樣規(guī)模的開源LLaMA模型則需要約3000萬GPU小時。

華爾街深度研究:DeepSeek是AI末日嗎?

  談及V3模型帶來的效率提升,伯恩斯坦認為,與業(yè)界3-7倍的常見效率提升相比并非顛覆性突破:

MoE架構的重點是顯著降低訓練和運行的成本,因為在任何一次只有一部分參數(shù)集是活動的(例如,當訓練V3時,只有671B個參數(shù)中的37B為任何一個令牌更新,而密集模型中所有參數(shù)都被更新)。

對其他MoE比較的調(diào)查表明,典型的效率是3-7倍,而類似大小的密度模型具有類似的性能;

V3看起來甚至比這個更好(10倍以上),可能考慮到該公司在模型中帶來的其他一些創(chuàng)新,但認為這是完全革命性的想法似乎有點夸張,并且不值得在過去幾天里席卷twitter世界的歇斯底里。

  (2)R1模型的推理能力與“蒸餾”策略

  DeepSeek的R1模型則在V3的基礎上,通過強化學習(RL)等創(chuàng)新技術,顯著提升了推理能力,使其能夠與OpenAI的o1模型相媲美。

華爾街深度研究:DeepSeek是AI末日嗎?

  值得一提的是,DeepSeek還采用了“模型蒸餾”策略,利用R1模型作為“教師”,生成數(shù)據(jù)來微調(diào)更小的模型,這些小模型在性能上可以與OpenAI的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為AI技術的普及提供了新的思路。

  對AI板塊保持樂觀

  伯恩斯坦認為,即便DeepSeek確實實現(xiàn)了10倍的效率提升,這也僅相當于當前AI模型每年的成本增長幅度。

  事實上,在“模型規(guī)模定律”不斷推動成本上升的背景下,像MoE、模型蒸餾、混合精度計算等創(chuàng)新對AI發(fā)展至關重要。

  根據(jù)杰文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認為,目前AI計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。

  基于以上分析,伯恩斯坦對AI板塊保持樂觀。

標簽: 華爾街 末日 深度

上海衡基裕網(wǎng)絡科技有限公司,網(wǎng)絡熱門最火問答,網(wǎng)絡技術服務,技術服務,技術開發(fā),技術交流www.eg6iowq.cn 備案號:滬ICP備2023039794號 內(nèi)容僅供參考 本站內(nèi)容均來源于網(wǎng)絡,如有侵權,請聯(lián)系我們刪除QQ:597817868