黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

初創(chuàng)公司Taalas押注極端專用化:3000萬美元造AI芯片 性能碾壓GPU

   時(shí)間:2026-02-22 04:16 來源:快訊作者:唐云澤

在AI芯片領(lǐng)域,一場顛覆性的變革正在悄然發(fā)生。一家名為Taalas的初創(chuàng)公司,以一種近乎“激進(jìn)”的方式,將專用化芯片設(shè)計(jì)推向了新的高度。該公司推出的首款推理芯片HC1,將meta的Llama 3.1 8B大語言模型幾乎完整地“刻入”了硅片,實(shí)現(xiàn)了單用戶場景下高達(dá)17,000 tokens/s的輸出速度,這一性能是當(dāng)前市場上最快競品Cerebras的近9倍,更是Nvidia Blackwell架構(gòu)GPU的近50倍。與此同時(shí),HC1的構(gòu)建成本僅為同等GPU方案的二十分之一,功耗更是低了一個(gè)數(shù)量級(jí)。

HC1的突破性設(shè)計(jì),源于其對(duì)傳統(tǒng)GPU架構(gòu)的徹底顛覆。在GPU中,計(jì)算單元與存儲(chǔ)單元是分離的,模型參數(shù)存儲(chǔ)在HBM中,計(jì)算核心每次運(yùn)算都需要從HBM搬運(yùn)數(shù)據(jù),這一過程不僅消耗大量能量,還增加了時(shí)間成本。而Taalas則采用了全面專用化、存算合一的設(shè)計(jì)思路,通過Mask ROM工藝將模型權(quán)重直接編碼在芯片的金屬互連層中,與計(jì)算邏輯共存于同一塊硅片上,從而徹底消除了數(shù)據(jù)搬運(yùn)的瓶頸。

這種設(shè)計(jì)雖然帶來了極高的性能提升,但也意味著芯片的靈活性幾乎為零。HC1只能運(yùn)行Llama 3.1 8B模型,若要更換模型,則需重新設(shè)計(jì)并制造芯片。這種極端專用化的策略,無疑是對(duì)AI芯片行業(yè)傳統(tǒng)設(shè)計(jì)思路的一次大膽挑戰(zhàn)。然而,Taalas的CEO Ljubisa Bajic卻對(duì)此充滿信心。他認(rèn)為,隨著AI模型的成熟和穩(wěn)定,總有一些模型會(huì)在實(shí)際業(yè)務(wù)中被長期使用,對(duì)于這些模型,專用化芯片將具有無可比擬的優(yōu)勢。

Bajic的信心并非空穴來風(fēng)。HC1基于臺(tái)積電N6工藝制造,芯片面積815 mm2,單顆芯片即可容納完整的8B參數(shù)模型。其功耗約250W,10塊HC1板卡裝進(jìn)一臺(tái)服務(wù)器總功耗約2.5 kW,可在標(biāo)準(zhǔn)風(fēng)冷機(jī)架中運(yùn)行,這與動(dòng)輒數(shù)十千瓦、必須依賴液冷的GPU服務(wù)器形成了鮮明對(duì)比。Taalas還借鑒了結(jié)構(gòu)化ASIC的設(shè)計(jì)思路,通過固化門陣列和硬化IP模塊,只修改互連層來適配不同模型,從而大大縮短了芯片定制周期。據(jù)Bajic透露,從拿到一個(gè)新模型到生成RTL,大約只需要一周的工程工作量,整個(gè)從模型到芯片的周期目標(biāo)為兩個(gè)月。

這種快速周轉(zhuǎn)的能力,使得Taalas能夠在模型被驗(yàn)證有效且用戶粘性足夠高時(shí),迅速為其制造專用硅片,以遠(yuǎn)低于GPU的成本和功耗提供推理服務(wù)。然而,這種模式也要求客戶對(duì)某個(gè)特定模型做出至少一年的承諾。對(duì)于這一要求,Bajic認(rèn)為,雖然會(huì)有很多人不愿意,但總會(huì)有一些人愿意為了性能和成本的優(yōu)勢而接受。

除了Llama 3.1 8B模型外,Taalas還展示了其對(duì)更大模型的支持能力。據(jù)模擬數(shù)據(jù)顯示,671B參數(shù)的DeepSeek R1模型需要大約30顆HC1芯片協(xié)同工作,每顆芯片承載約20B參數(shù)。這套30芯片系統(tǒng)在DeepSeek R1上可以達(dá)到約12,000 tokens/s/user的輸出速度,而當(dāng)前GPU的最優(yōu)水平大約在200 tokens/s/user。同時(shí),推理成本約7.6美分/百萬token,不到GPU吞吐優(yōu)化方案的一半。

然而,這些數(shù)字目前還停留在模擬階段。實(shí)際多芯片系統(tǒng)面臨的互聯(lián)、同步、良率等工程挑戰(zhàn)不容小覷。HC1使用了自定義的3-bit基礎(chǔ)數(shù)據(jù)類型進(jìn)行激進(jìn)量化,這可能會(huì)帶來相對(duì)于標(biāo)準(zhǔn)量化模型的質(zhì)量損失。對(duì)此,Taalas并未回避,并表示其第二代硅平臺(tái)HC2將采用標(biāo)準(zhǔn)4-bit浮點(diǎn)格式以改善這一問題。

在商業(yè)模式上,Taalas仍在摸索之中。公司副總裁Paresh Kharya透露了幾種可能的方向:自建基礎(chǔ)設(shè)施運(yùn)行開源模型并提供API推理服務(wù);直接向客戶出售芯片;或者與模型開發(fā)者合作,為他們的模型定制專用芯片供其自有推理基礎(chǔ)設(shè)施使用。哪種模式最終能跑通,將取決于市場對(duì)這種極端專用化方案的接受程度。

盡管面臨諸多挑戰(zhàn)和不確定性,但Taalas的方案無疑觸及了一個(gè)被主流路線忽略的設(shè)計(jì)空間。通過將權(quán)重以Mask ROM形式與計(jì)算邏輯同層集成,Taalas從根本上消除了存算分離帶來的帶寬墻問題。雖然這種設(shè)計(jì)以靈活性的徹底喪失為代價(jià),但在允許這種剛性的應(yīng)用場景中,其換來的性能和成本優(yōu)勢卻是實(shí)打?qū)嵉摹S步泳€芯片還帶來了軟件棧的極度簡化,進(jìn)一步降低了系統(tǒng)的復(fù)雜性和成本。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群