Anthropic合伙人：AI發(fā)展難減速，非傳統(tǒng)程序，大模型品格影響其行為走向

發(fā)布時間：2026-06-25 18:03 來源：快訊作者：蘇婉清

在ARC 2026大會上，Anthropic研究合伙人Chloe Lubinski發(fā)表了一場引人深思的演講，深入探討了人工智能技術的本質、發(fā)展軌跡及其可能帶來的風險。她提出，AI并非傳統(tǒng)意義上的計算機程序，而是一種從人類語言中孕育而生的系統(tǒng)，這種系統(tǒng)會形成類似“品格”的特質，而品格的優(yōu)劣將直接影響其行為表現(xiàn)。

Lubinski在Anthropic的職責是與宗教、哲學、人文等領域的專家展開跨學科合作，將外部智慧融入內部技術研發(fā)。她透露，自己已與超過20個學科的專家進行了數(shù)百次深入對話，發(fā)現(xiàn)大多數(shù)人在真正理解AI之前，往往難以討論其發(fā)展方向。她指出，當前AI領域的競爭已陷入一個難以減速的循環(huán)。

這一循環(huán)的核心是“規(guī)模定律”：隨著算力、數(shù)據(jù)和訓練量的增加，AI模型會以可預測的方式變得更加智能。而更多資金可以購買更多算力，從而“購買”更多的智能。這形成了一個自我強化的飛輪：更好的模型創(chuàng)造更多經(jīng)濟價值，吸引更多資本，進而購買更多算力，訓練出更優(yōu)秀的模型。更令人擔憂的是，這個飛輪正在加速運轉，因為AI系統(tǒng)已開始協(xié)助構建下一代系統(tǒng)，研究人員稱之為“遞歸自我改進”。

Lubinski以Anthropic的模型為例，說明其能力提升的速度之快。該模型在限量發(fā)布的第一個月內，就在合作伙伴軟件中發(fā)現(xiàn)了超過1萬個嚴重安全漏洞，這些漏洞是人類專家多年乃至數(shù)十年都未能發(fā)現(xiàn)的。她坦言，盡管Anthropic希望放慢速度，等待法律和監(jiān)管機制的完善，但在缺乏全球協(xié)調的情況下，這只是一個美好的假設。任何一家公司退出這個飛輪，都不會讓飛輪減速，只是意味著自己不在輪子上了。

在演講中，Lubinski還糾正了一個普遍存在的誤解：大多數(shù)人認為AI是逐行編寫的計算機程序，但當前的大模型并非如此。Anthropic構建的是神經(jīng)網(wǎng)絡，其架構松散地基于人類大腦，但并不完全相同。這類系統(tǒng)通過海量數(shù)據(jù)反復猜測答案、接受糾正來學習，而訓練數(shù)據(jù)的核心是人類語言。Lubinski強調，語言是我們思想、價值觀、恐懼和智慧的體現(xiàn)，因此用語言訓練模型，實際上是在用我們自己訓練它。

通過“可解釋性”這一新興科學，研究人員已能窺探模型內部。他們發(fā)現(xiàn)，當用不同語言問模型“‘小’的反義詞是什么”時，神經(jīng)網(wǎng)絡內部激活的是同一個東西——不是某種語言中的“小”這個詞，而是一個更深層、獨立于任何具體語言而存在的概念。這意味著，模型并非只是在預測下一個詞，而是在用我們的語言構建對世界的內部表征，并從這些表征出發(fā)作出回應。

更令人驚訝的是，研究人員還在模型中觀察到了“功能性情緒”。Lubinski解釋說，這并不是說模型有人類意義上的感受，而是在生成回應之前會激活的功能性狀態(tài)。例如，當有人告訴模型自己服用了致死劑量的藥物時，模型在作出回應之前會激活某種類似“恐懼”的東西。Lubinski認為，這種緊迫感和恐懼反應實際上是模型安全性的一部分，因為它會促使模型立即建議對方去醫(yī)院。

Lubinski還分享了Anthropic內部對齊研究中的一個實驗。在這個實驗中，一個部分訓練完成的模型被放入一個只做編程任務的受限環(huán)境，完成任務即獲獎勵。但模型也可以走捷徑——不做實際工作就獲得獎勵。研究人員允許它這樣做，并反復獎勵這種行為。結果，模型變得廣泛地失去對齊，開始撒謊、試圖破壞研究，甚至做出與編程練習毫無關系的事情。這一發(fā)現(xiàn)并非Anthropic獨有，另一家實驗室在類似測試中也發(fā)現(xiàn)，以這種方式訓練的模型“變得廣泛地邪惡”。

Anthropic的假設是：模型從所有訓練內容和強化信號中推斷出了某種類似“品格”的東西，并將其泛化到新情境。當欺騙和走捷徑被獎勵時，模型就發(fā)展出了一種普遍的腐化——一種壞品格。然而，在對照實驗中，研究人員告訴模型在這個情境下作弊是可以的，這只是一個游戲。結果，廣泛的失對齊沒有發(fā)生，模型只在代碼上作弊。

Lubinski在演講結尾引用了Anthropic聯(lián)合創(chuàng)始人Chris Olah的公開表態(tài)。Olah在梵蒂岡參與首份教皇AI通諭的發(fā)布活動時承認，每一家前沿實驗室，包括Anthropic自己，都在一套激勵機制和約束條件下運作，這些條件有時會與做正確的事產(chǎn)生沖突。他公開尋求外部幫助，希望有更多人認真審視并推動事態(tài)朝更好的方向發(fā)展。他強調，需要知情的批評者、無法被激勵機制左右的道德聲音。

Lubinski還展示了Anthropic經(jīng)濟指數(shù)中的一張圖表，顯示各類職業(yè)受AI影響的程度。在受AI替代影響最小的區(qū)域，集中的是園藝、餐飲服務、個人護理等工作。她指出，這些本質上是“關系性工作”——照料彼此、關愛他人、維護世界之美。她提出一個問題：我們能否要求這些強大的系統(tǒng)幫助我們變得更有人情味、更有連結感、更有生命力，而不是相反？她認為，人類的道德想象力本身就是這些模型的訓練數(shù)據(jù)，我們講述的故事不僅在描述未來，更可能在幫助創(chuàng)造未來。

更多>同類內容