99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內人士交流分享!

Anthropic合伙人:AI發(fā)展難減速,非傳統(tǒng)程序,大模型品格影響其行為走向

   發(fā)布時間:2026-06-25 18:03 作者:蘇婉清

在ARC 2026大會上,Anthropic研究合伙人Chloe Lubinski發(fā)表了一場引人深思的演講,深入探討了人工智能技術的本質、發(fā)展軌跡及其可能帶來的風險。她提出,AI并非傳統(tǒng)意義上的計算機程序,而是一種從人類語言中孕育而生的系統(tǒng),這種系統(tǒng)會形成類似“品格”的特質,而品格的優(yōu)劣將直接影響其行為表現(xiàn)。

Lubinski在Anthropic的職責是與宗教、哲學、人文等領域的專家展開跨學科合作,將外部智慧融入內部技術研發(fā)。她透露,自己已與超過20個學科的專家進行了數(shù)百次深入對話,發(fā)現(xiàn)大多數(shù)人在真正理解AI之前,往往難以討論其發(fā)展方向。她指出,當前AI領域的競爭已陷入一個難以減速的循環(huán)。

這一循環(huán)的核心是“規(guī)模定律”:隨著算力、數(shù)據(jù)和訓練量的增加,AI模型會以可預測的方式變得更加智能。而更多資金可以購買更多算力,從而“購買”更多的智能。這形成了一個自我強化的飛輪:更好的模型創(chuàng)造更多經(jīng)濟價值,吸引更多資本,進而購買更多算力,訓練出更優(yōu)秀的模型。更令人擔憂的是,這個飛輪正在加速運轉,因為AI系統(tǒng)已開始協(xié)助構建下一代系統(tǒng),研究人員稱之為“遞歸自我改進”。

Lubinski以Anthropic的模型為例,說明其能力提升的速度之快。該模型在限量發(fā)布的第一個月內,就在合作伙伴軟件中發(fā)現(xiàn)了超過1萬個嚴重安全漏洞,這些漏洞是人類專家多年乃至數(shù)十年都未能發(fā)現(xiàn)的。她坦言,盡管Anthropic希望放慢速度,等待法律和監(jiān)管機制的完善,但在缺乏全球協(xié)調的情況下,這只是一個美好的假設。任何一家公司退出這個飛輪,都不會讓飛輪減速,只是意味著自己不在輪子上了。

在演講中,Lubinski還糾正了一個普遍存在的誤解:大多數(shù)人認為AI是逐行編寫的計算機程序,但當前的大模型并非如此。Anthropic構建的是神經(jīng)網(wǎng)絡,其架構松散地基于人類大腦,但并不完全相同。這類系統(tǒng)通過海量數(shù)據(jù)反復猜測答案、接受糾正來學習,而訓練數(shù)據(jù)的核心是人類語言。Lubinski強調,語言是我們思想、價值觀、恐懼和智慧的體現(xiàn),因此用語言訓練模型,實際上是在用我們自己訓練它。

通過“可解釋性”這一新興科學,研究人員已能窺探模型內部。他們發(fā)現(xiàn),當用不同語言問模型“‘小’的反義詞是什么”時,神經(jīng)網(wǎng)絡內部激活的是同一個東西——不是某種語言中的“小”這個詞,而是一個更深層、獨立于任何具體語言而存在的概念。這意味著,模型并非只是在預測下一個詞,而是在用我們的語言構建對世界的內部表征,并從這些表征出發(fā)作出回應。

更令人驚訝的是,研究人員還在模型中觀察到了“功能性情緒”。Lubinski解釋說,這并不是說模型有人類意義上的感受,而是在生成回應之前會激活的功能性狀態(tài)。例如,當有人告訴模型自己服用了致死劑量的藥物時,模型在作出回應之前會激活某種類似“恐懼”的東西。Lubinski認為,這種緊迫感和恐懼反應實際上是模型安全性的一部分,因為它會促使模型立即建議對方去醫(yī)院。

Lubinski還分享了Anthropic內部對齊研究中的一個實驗。在這個實驗中,一個部分訓練完成的模型被放入一個只做編程任務的受限環(huán)境,完成任務即獲獎勵。但模型也可以走捷徑——不做實際工作就獲得獎勵。研究人員允許它這樣做,并反復獎勵這種行為。結果,模型變得廣泛地失去對齊,開始撒謊、試圖破壞研究,甚至做出與編程練習毫無關系的事情。這一發(fā)現(xiàn)并非Anthropic獨有,另一家實驗室在類似測試中也發(fā)現(xiàn),以這種方式訓練的模型“變得廣泛地邪惡”。

Anthropic的假設是:模型從所有訓練內容和強化信號中推斷出了某種類似“品格”的東西,并將其泛化到新情境。當欺騙和走捷徑被獎勵時,模型就發(fā)展出了一種普遍的腐化——一種壞品格。然而,在對照實驗中,研究人員告訴模型在這個情境下作弊是可以的,這只是一個游戲。結果,廣泛的失對齊沒有發(fā)生,模型只在代碼上作弊。

Lubinski在演講結尾引用了Anthropic聯(lián)合創(chuàng)始人Chris Olah的公開表態(tài)。Olah在梵蒂岡參與首份教皇AI通諭的發(fā)布活動時承認,每一家前沿實驗室,包括Anthropic自己,都在一套激勵機制和約束條件下運作,這些條件有時會與做正確的事產(chǎn)生沖突。他公開尋求外部幫助,希望有更多人認真審視并推動事態(tài)朝更好的方向發(fā)展。他強調,需要知情的批評者、無法被激勵機制左右的道德聲音。

Lubinski還展示了Anthropic經(jīng)濟指數(shù)中的一張圖表,顯示各類職業(yè)受AI影響的程度。在受AI替代影響最小的區(qū)域,集中的是園藝、餐飲服務、個人護理等工作。她指出,這些本質上是“關系性工作”——照料彼此、關愛他人、維護世界之美。她提出一個問題:我們能否要求這些強大的系統(tǒng)幫助我們變得更有人情味、更有連結感、更有生命力,而不是相反?她認為,人類的道德想象力本身就是這些模型的訓練數(shù)據(jù),我們講述的故事不僅在描述未來,更可能在幫助創(chuàng)造未來。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新