黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

哥大博士突破機(jī)器人交互瓶頸:唇部同步技術(shù)讓機(jī)器人臉告別“面癱” 跨11國語言

   時間:2026-02-10 09:22 來源:快訊作者:任飛揚(yáng)

在人與人的交流中,我們的目光常常聚焦于對方的眼睛,這不僅是情感傳遞的窗口,更是理解彼此意圖的重要途徑。然而,當(dāng)環(huán)境變得嘈雜,視線便不自覺地轉(zhuǎn)向嘴唇,試圖通過唇形變化捕捉言語中的微妙信息。這種自然的交流方式,卻成為當(dāng)前人形機(jī)器人研發(fā)中的一大挑戰(zhàn)——如何讓機(jī)器人的面部表情,尤其是唇部動作,更加自然流暢,成為跨越“恐怖谷效應(yīng)”的關(guān)鍵。

哥倫比亞大學(xué)博士胡宇航創(chuàng)立的首形科技,正致力于破解這一難題。這家初創(chuàng)公司不走尋常路,將研發(fā)重心放在賦予機(jī)器人面部情緒表達(dá)能力上,而非追求運(yùn)動或操作能力的極致。這一策略成效顯著,不僅贏得了多輪融資,更在社交媒體和市場上引發(fā)廣泛關(guān)注。近日,胡宇航團(tuán)隊(duì)的研究成果登上《科學(xué)·機(jī)器人學(xué)》封面,展示了其研發(fā)的Emo面部機(jī)器人如何實(shí)現(xiàn)與語音、歌曲同步的唇部運(yùn)動,標(biāo)志著人臉機(jī)器人領(lǐng)域的一大突破。

胡宇航指出,嘴唇是面部動作最豐富的部位,其運(yùn)動復(fù)雜性遠(yuǎn)超想象。不同于眉毛等單一方向運(yùn)動的面部特征,嘴唇由多個肌肉群驅(qū)動,運(yùn)動過程中頻繁接觸與分離,對時間精度極為敏感,同時承載語言、情感與社交信號。這使得嘴唇運(yùn)動的建模成為一項(xiàng)高維、非線性、強(qiáng)閉環(huán)的生成式形變問題,挑戰(zhàn)重重。

面對如此復(fù)雜的任務(wù),如何客觀衡量機(jī)器人嘴唇運(yùn)動的“真實(shí)性”成為關(guān)鍵。胡宇航團(tuán)隊(duì)提出創(chuàng)新方法,利用合成參考視頻作為理想同步基準(zhǔn),在VAE編碼器的潛空間中計(jì)算機(jī)器人嘴唇運(yùn)動與參考視頻之間的距離,從而刻畫整體嘴型動態(tài)與時序結(jié)構(gòu)的偏差。這一方法避免了依賴易受噪聲干擾的二維關(guān)鍵點(diǎn),為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀度量標(biāo)準(zhǔn)。

傳統(tǒng)機(jī)器人嘴唇同步方法主要依賴手工預(yù)定義的運(yùn)動規(guī)則和固定的音素-視位映射表,存在明顯局限。同一音素的發(fā)聲速度因說話人、場景或情緒而異,多語言、歌唱或方言等場景下基于音素設(shè)計(jì)規(guī)則需投入巨大手工工作量,且機(jī)器人硬件升級時所有動作幾乎需重新編排。這種方法隱含音素與嘴型穩(wěn)定一對一映射的假設(shè),與真實(shí)人類發(fā)音機(jī)制不符,導(dǎo)致生成嘴型序列“正確但僵硬”。

相比之下,數(shù)據(jù)驅(qū)動方法能夠從真實(shí)人類與機(jī)器人發(fā)音數(shù)據(jù)中學(xué)習(xí)復(fù)雜統(tǒng)計(jì)規(guī)律與隱含約束,突破規(guī)則方法在泛化性、可擴(kuò)展性和自然性上的瓶頸。胡宇航團(tuán)隊(duì)設(shè)計(jì)的兩階段“自監(jiān)督學(xué)習(xí)系統(tǒng)”正是這一思路的體現(xiàn):第一階段機(jī)器人“照鏡子”建立自我模型,明確自身硬件與軟體結(jié)構(gòu)下可實(shí)現(xiàn)的運(yùn)動;第二階段觀看人類視頻學(xué)習(xí)嘴唇運(yùn)動規(guī)律,并通過自我模型將這些規(guī)律投射到自身可執(zhí)行的動作空間中。

實(shí)驗(yàn)結(jié)果顯示,該系統(tǒng)能在11種語言中實(shí)現(xiàn)自然的嘴唇同步,包括英語、法語、日語、韓語等。這一“跨語言”能力源于系統(tǒng)學(xué)習(xí)的是人類發(fā)音過程中更底層的肌肉運(yùn)動模式,而非具體語言或音素。在兩階段自監(jiān)督框架下,模型捕捉聲音節(jié)奏與嘴唇動作之間跨越語言邊界的共性規(guī)律,如張合節(jié)律、閉合-釋放結(jié)構(gòu)等,從而適應(yīng)多種語言、語速和說話風(fēng)格。

盡管成果顯著,系統(tǒng)仍面臨技術(shù)挑戰(zhàn),尤其是硬輔音(如/b/、/p/、/m/、/w/)的處理。這些音素發(fā)音速度快,涉及多重約束條件,如/b/、/p/、/m/需在極短時間內(nèi)完成“閉合—保持—釋放”動作,/w/則要求雙唇閉攏、前突形成圓形,同時配合口腔形狀連續(xù)變化。模型需在毫秒級時間精度下協(xié)調(diào)多個高度耦合的自由度,應(yīng)對軟體接觸、非線性阻尼等物理因素,難度極高。

當(dāng)前方法在極端語音場景下表現(xiàn)欠佳,如語速極快、多人同時說話、歌唱顫音等。胡宇航認(rèn)為,這反映了方法的本質(zhì)邊界,即模型主要學(xué)習(xí)典型對話語境下聲學(xué)時序與嘴唇運(yùn)動之間的關(guān)系。然而,這些失效案例也為未來研究指明了方向,隨著訓(xùn)練數(shù)據(jù)豐富和模型能力提升,邊界場景處理能力有望逐步改善。

當(dāng)被問及技術(shù)是否會從唇部動作擴(kuò)展到整個面部表情系統(tǒng)時,胡宇航給出肯定回答。他表示,團(tuán)隊(duì)最終目標(biāo)是實(shí)現(xiàn)完整的類人交互,協(xié)調(diào)唇部動作與眼神、眉毛等其他面部要素,形成統(tǒng)一而細(xì)膩的情感表達(dá)。這不僅是技術(shù)上的自然延伸,更是對人機(jī)交互本質(zhì)的深度探索。當(dāng)機(jī)器人能夠用整張臉來表達(dá)和理解情緒時,它與人類的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

 
 
更多>同類內(nèi)容
推薦圖文
優(yōu)推信息:借百度推廣與內(nèi)容運(yùn)營 助力品牌筑牢長遠(yuǎn)發(fā)展根基 字節(jié)Seedance 2.0:一分鐘成片,AI視頻創(chuàng)作迎變革還是迎挑戰(zhàn)?
優(yōu)推信息:以專業(yè)策略與數(shù)據(jù)賦能 解鎖百度推廣軟文高質(zhì)量運(yùn)營之道 優(yōu)推信息:以百度推廣為刃,借內(nèi)容運(yùn)營為盾,深度滲透用戶決策全鏈路
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群