有码无码一二三区,男女一边摸一边做爽爽,国产日本精品久久久久久久久电影,久久99精品福利久久久久

首頁 快訊文章正文

突然宣布!暫停DeepSeek API服務(wù)

快訊 2025年03月01日 22:30 18 admin

專題:DeepSeek為何能震動全球AI圈

突然宣布!暫停DeepSeek API服務(wù)

  【導(dǎo)讀】DeepSeek一天能賺多少錢?官方突然揭秘!潞晨科技暫停DeepSeek API服務(wù)

  中國基金報記者 泰勒

  大家好,一起關(guān)注一下關(guān)于DeepSeek的最新消息!

  DeepSeek首次披露:理論成本利潤率545%

  當(dāng)市場以為DeepSeek的開源周內(nèi)容發(fā)布完畢之后,3月1日,DeepSeek宣布了“One More Thing”,突然揭秘V3/R1推理系統(tǒng),公開了大規(guī)模部署成本和收益。

突然宣布!暫停DeepSeek API服務(wù)

  根據(jù)《DeepSeek-V3/R1推理系統(tǒng)概覽》的文章,假定GPU租賃成本為2美元/小時,總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入為562027美元/天,成本利潤率為545%。

  據(jù)官方披露,DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。

  為了實現(xiàn)這兩個目標(biāo),DeepSeek使用大規(guī)模跨節(jié)點專家并行(Expert Parallelism / EP)。首先EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。其次EP使得專家分散在不同的GPU上,每個 GPU 只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。

  但EP同時也增加了系統(tǒng)的復(fù)雜性。復(fù)雜性主要體現(xiàn)在兩個方面:

  EP引入跨節(jié)點的傳輸。為了優(yōu)化吞吐,需要設(shè)計合適的計算流程使得傳輸和計算可以同步進(jìn)行。

  EP涉及多個節(jié)點,因此天然需要Data Parallelism(DP),不同的DP之間需要進(jìn)行負(fù)載均衡。

  因此,DeepSeek介紹了如何使用EP增大batch size,如何隱藏傳輸?shù)暮臅r,如何進(jìn)行負(fù)載均衡。

  大規(guī)??绻?jié)點專家并行(Expert Parallelism / EP)

  由于DeepSeek-V3/R1的專家數(shù)量眾多,并且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了必須采用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現(xiàn)更大的吞吐、更低的延時。需要大規(guī)??绻?jié)點專家并行(Expert Parallelism / EP)。

  采用多機(jī)多卡間的專家并行策略來達(dá)到以下目的:

  Prefill:路由專家EP32、MLA和共享專家DP32,一個部署單元是4節(jié)點,32個冗余路由專家,每張卡9個路由專家和1個共享專家。

  Decode:路由專家EP144、MLA和共享專家DP144,一個部署單元是18 節(jié)點,32個冗余路由專家,每張卡2個路由專家和1個共享專家。

  計算通信重疊

  多機(jī)多卡的專家并行會引入比較大的通信開銷,所以使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。

  對于prefill階段,兩個batch的計算和通信交錯進(jìn)行,一個batch在進(jìn)行計算的時候可以去掩蓋另一個batch的通信開銷;

突然宣布!暫停DeepSeek API服務(wù)

  對于decode階段,不同階段的執(zhí)行時間有所差別,所以把a(bǔ)ttention部分拆成了兩個stage,共計5個stage的流水線來實現(xiàn)計算和通信的重疊。

突然宣布!暫停DeepSeek API服務(wù)

  盡可能地負(fù)載均衡

  由于采用了很大規(guī)模的并行(包括數(shù)據(jù)并行和專家并行),如果某個GPU的計算或通信負(fù)載過重,將成為性能瓶頸,拖慢整個系統(tǒng);同時其他GPU因為等待而空轉(zhuǎn),造成整體利用率下降。因此需要盡可能地為每個GPU分配均衡的計算負(fù)載、通信負(fù)載。

PrefillLoadBalancer

核心問題:不同數(shù)據(jù)并行(DP)實例上的請求個數(shù)、長度不同,導(dǎo)致core-attention計算量、dispatch發(fā)送量也不同。

優(yōu)化目標(biāo):各GPU的計算量盡量相同(core-attention計算負(fù)載均衡)、輸入的token數(shù)量也盡量相同(dispatch發(fā)送量負(fù)載均衡),避免部分GPU處理時間過長。

DecodeLoadBalancer

核心問題:不同數(shù)據(jù)并行(DP)實例上的請求數(shù)量、長度不同,導(dǎo)致core-attention計算量(與KVCache占用量相關(guān))、dispatch發(fā)送量不同。

優(yōu)化目標(biāo):各GPU的KVCache占用量盡量相同(core-attention計算負(fù)載均衡)、請求數(shù)量盡量相同(dispatch發(fā)送量負(fù)載均衡)。

Expert-ParallelLoadBalancer

核心問題:對于給定MoE模型,存在一些天然的高負(fù)載專家(expert),導(dǎo)致不同GPU的專家計算負(fù)載不均衡。

優(yōu)化目標(biāo):每個GPU上的專家計算量均衡(即最小化所有GPU的dispatch接收量的最大值)。

突然宣布!暫停DeepSeek API服務(wù)

  線上系統(tǒng)的實際統(tǒng)計數(shù)據(jù)

  DeepSeekV3和R1的所有服務(wù)均使用H800GPU,使用和訓(xùn)練一致的精度,即矩陣計算和dispatch傳輸采用和訓(xùn)練一致的FP8格式,core-attention計算和combine傳輸采用和訓(xùn)練一致的BF16,最大程度保證了服務(wù)效果。

  另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此實現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時候,用所有節(jié)點部署推理服務(wù)。晚上負(fù)荷低的時候,減少推理節(jié)點,以用來做研究和訓(xùn)練。在最近的24小時里(北京時間2025/02/27 12:00至2025/02/28 12:00),DeepSeek-V3和R1推理服務(wù)占用節(jié)點總和,峰值占用為278個節(jié)點,平均占用226.75個節(jié)點(每個節(jié)點為8個H800GPU)。假定GPU租賃成本為2美金/小時,總成本為87072美元/天。

突然宣布!暫停DeepSeek API服務(wù)

  在24小時統(tǒng)計時段內(nèi),DeepSeek-V3和R1:

  輸入token總數(shù)為608B,其中342Btokens(56.3%)命中KVCache硬盤緩存。

  輸出token總數(shù)為168B。平均輸出速率為20~22tps,平均每輸出一個token的KVCache長度是4989。

  平均每臺H800的吞吐量為:對于prefill任務(wù),輸入吞吐約73.7ktokens/s(含緩存命中);對于decode任務(wù),輸出吞吐約14.8ktokens/s。

  以上統(tǒng)計包括了網(wǎng)頁、APP和API的所有負(fù)載。如果所有tokens全部按照DeepSeek-R1的定價計算,理論上一天的總收入為562027美元,成本利潤率為545%。當(dāng)然實際上沒有這么多收入,因為V3的定價更低,同時收費服務(wù)只占了一部分,另外夜間還會有折扣。

突然宣布!暫停DeepSeek API服務(wù)

  有網(wǎng)友將DeepSeek與OpenAI進(jìn)行對比,表示:“‘成本利潤率545%’,等一下,所以你是說我被OpenAI搶劫了?”

突然宣布!暫停DeepSeek API服務(wù)

  潞晨科技暫停DeepSeek API服務(wù)

  就在DeepSeek披露大規(guī)模部署成本和收益之后,潞晨科技突然宣布:“尊敬的用戶,潞晨云將在一周后停止提供DeepSeek API服務(wù),請盡快用完您的余額。如果沒用完,我們?nèi)~退款?!?/p>

突然宣布!暫停DeepSeek API服務(wù)

  此前2月4日晚間,華為計算微信公眾號發(fā)文表示,DeepSeek-R1系列模型的開源,因其出色的性能和低廉的開發(fā)成本,已引發(fā)全球的熱切討論和關(guān)注。潞晨科技攜手昇騰,聯(lián)合發(fā)布基于昇騰算力的DeepSeek-R1系列推理API,及云鏡像服務(wù)。

  但近期潞晨科技CEO尤洋指出,滿血版DeepSeek-R1每百萬token(輸出)定價16元,如果每日輸出1000億token,一個月算下來接入方企業(yè)可獲得4800萬元收入。據(jù)他測算,完成1000億token的輸出,需要約4000臺搭載H800的機(jī)器,以目前H800的市價或者折舊來計算,每月僅機(jī)器成本就達(dá)4.5億元,因此企業(yè)方可能面臨每月4億元的虧損,“用戶越多,服務(wù)成本越高,虧損越多”。

突然宣布!暫停DeepSeek API服務(wù)

  3月1日下午4點,潞晨科技CEO尤洋發(fā)文回應(yīng)DeepSeek公布的理論成本利潤率。

突然宣布!暫停DeepSeek API服務(wù)

  公開資料顯示,潞晨科技是一家致力于“解放AI生產(chǎn)力”的全球性企業(yè),團(tuán)隊核心成員來自美國加州大學(xué)伯克利分校,斯坦福大學(xué),清華大學(xué),北京大學(xué)等國內(nèi)外知名高校。主營業(yè)務(wù)包括分布式軟件系統(tǒng),大規(guī)模人工智能平臺,以及企業(yè)級云計算解決方案。公司旨在打造一個開源低成本AI大模型開發(fā)系統(tǒng)Colossal-AI,作為深度學(xué)習(xí)框架的內(nèi)核,幫助企業(yè)最大化人工智能訓(xùn)練效率的同時最小化人工智能的訓(xùn)練成本。

  校對:紀(jì)元

  編輯:嘉穎

  審核:許聞

標(biāo)簽: 暫停 DeepSeek 宣布

上海衡基裕網(wǎng)絡(luò)科技有限公司,網(wǎng)絡(luò)熱門最火問答,網(wǎng)絡(luò)技術(shù)服務(wù),技術(shù)服務(wù),技術(shù)開發(fā),技術(shù)交流www.eg6iowq.cn 備案號:滬ICP備2023039794號 內(nèi)容僅供參考 本站內(nèi)容均來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我們刪除QQ:597817868