11月5日報道,近日,騰訊微信AI團隊發(fā)布的一篇論文在海外AI圈引發(fā)廣泛關(guān)注。論文提出了一種名為“連續(xù)自回歸語言模型(CALM)”的新穎架構(gòu)。與傳統(tǒng)Transformer相比,CALM直接將訓(xùn)練大模型所用的計算量減少了44%,推理時的計算量也減少了34%。
CALM的核心邏輯是,將連續(xù)的K個token壓縮成一個語義向量,并在生成時直接預(yù)測“下一個向量”而非“下一個token”。假設(shè)K=4,那么原本需要逐步生成4次的內(nèi)容,現(xiàn)在只需1步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。
這項研究的相關(guān)討論在社交媒體平臺X的閱讀量累計已經(jīng)超過100萬次,在評論區(qū)引起熱議。
提示詞分享網(wǎng)站godofprompt.ai的聯(lián)合創(chuàng)始人Robert Youssef認為,CALM或許就是AI領(lǐng)域下一次大的范式轉(zhuǎn)變,徹底顛覆了所有大語言模型賴以構(gòu)建的“下一個token預(yù)測”范式,讓大模型不再逐字思考,而是以想法為單位進行思考,簡直不可思議。這一方法如果能成功擴展,那么現(xiàn)有的LLM都將過時。

還有多位網(wǎng)友認為CALM提出的概念值得探討,但關(guān)鍵是需要在更大規(guī)模的Scaling過程中獲得驗證。

然而,也有人質(zhì)疑CALM的前景。這位網(wǎng)友稱,CALM只是楊立昆的一個老舊想法,訓(xùn)練不穩(wěn)定,基礎(chǔ)很薄弱,且無法擴展,是一種“有缺陷的方案”。

CALM論文的作者均在微信AI團隊任職,第一作者邵晨澤曾在中科院計算所智能信息處理實驗室完成博士學(xué)業(yè)。這篇論文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清華大學(xué)求真學(xué)院的在讀學(xué)生。為方便后續(xù)研究,研究使用的預(yù)訓(xùn)練Autoencoder以及CALM的檢查點均可供下載。