阿里ATH創(chuàng)新事業(yè)部近日宣布,其最新研發(fā)的視頻生成與編輯模型HappyHorse 1.0(中文名:快樂小馬)正式啟動灰度測試。創(chuàng)作者可通過阿里云百煉平臺和HappyHorse官網(wǎng)注冊使用,普通用戶則能在千問App中體驗(yàn)這一新工具。
在盲測平臺Arena.ai的評測中,HappyHorse 1.0在文生視頻、圖生視頻和視頻編輯三個榜單中均位列第二,緊隨近期備受關(guān)注的字節(jié)Seedance 2.0之后。為了解其實(shí)際表現(xiàn),記者進(jìn)行了多維度測試。
HappyHorse 1.0的操作十分簡便,用戶只需輸入文字描述,即可生成3至15秒的視頻,視頻中可實(shí)現(xiàn)多鏡頭切換和連貫劇情。官網(wǎng)信息顯示,該模型最高支持1080p分辨率,最多可同時生成4個視頻。價格方面,生成720p和1080p視頻的刊例價分別為每秒0.9元和1.6元,Pro套餐包月價格疊加限時折扣后為每秒0.44元和0.78元。
目前,HappyHorse 1.0已集成到阿里旗下多款產(chǎn)品中,包括阿里悟空、MuleRun和JVS Claw等Agent平臺。千問App預(yù)告,近期將推出“測一測”視頻玩法,用戶可測出自己在短劇宇宙中的本名角色,并通過HappyHorse 1.0生成本人“出演”的角色短劇片段。
在測試過程中,HappyHorse 1.0展現(xiàn)了指令遵循和生成速度方面的優(yōu)勢,但也暴露出畫面物理準(zhǔn)確性、音畫同步等方面的不足。具體而言,其生成速度較快,一段視頻約需2至5分鐘;指令遵循能力強(qiáng),能準(zhǔn)確理解并執(zhí)行復(fù)雜的提示詞要求;圖生視頻中,多元素參考還原度較高。然而,音畫同步仍有提升空間,尤其在樂器演奏等復(fù)雜場景中,手部動作與音頻節(jié)奏存在錯位;長敘事視頻中易出現(xiàn)物理bug,如無外力物體自移動;畫面中文字渲染常出現(xiàn)亂碼或錯誤。
在文生視頻能力測試中,HappyHorse 1.0的表現(xiàn)可圈可點(diǎn)。例如,在生成街頭音樂表演視頻時,模型雖能準(zhǔn)確呈現(xiàn)人像、鏡頭運(yùn)動和畫面燈光等元素,但吉他手演奏與音樂節(jié)奏不同步,尤其在快速掃弦和重拍落點(diǎn)上,手部動作與音頻音符錯位,影響了真實(shí)感。在模擬海邊懸崖場景時,模型成功還原了波濤洶涌的效果,海浪與巖石的撞擊、海面泡沫均符合物理規(guī)律,但近景畫面中水滴滑落速度偏慢,略顯不自然。在處理長達(dá)800詞的復(fù)雜提示詞時,模型雖能準(zhǔn)確呈現(xiàn)畫面元素,但開頭出現(xiàn)車門無故關(guān)閉的物理bug,最后一個鏡頭中主角變化也顯示出一致性方面的不足。
在圖生視頻測試中,HappyHorse 1.0支持最多9張圖片參考。測試中,模型成功生成了OpenAI聯(lián)合創(chuàng)始人薩姆·奧爾特曼喝咖啡的畫面,人物與真人照片相似度達(dá)八成,且樣貌未隨光線和背景變化而改變。在生成馬斯克與奧爾特曼“對簿公堂”畫面時,模型雖能呈現(xiàn)二人爭論場景,但人物表情與參考圖偏差明顯,且初期版本中“馬斯克”說中文,細(xì)化要求后才改為英語。在生成離職畫面時,模型準(zhǔn)確呈現(xiàn)了上傳的所有參考元素,但出現(xiàn)紙箱自動合上、門自動打開等物理bug。
多位參與測試的業(yè)內(nèi)人士對HappyHorse 1.0的表現(xiàn)進(jìn)行了評價。出海一站式AI電商營銷平臺麥斯國際的技術(shù)合伙人李明認(rèn)為,3至15秒的生成長度、較快的生成速度和支持1080p是該模型的亮點(diǎn),但在生成結(jié)果一致性和語音內(nèi)容機(jī)械感方面仍有提升空間。他指出,字幕渲染是當(dāng)前AI視頻生成模型的通病,業(yè)內(nèi)通常借助后期工具補(bǔ)充,音畫同步效果則可通過提示詞工程優(yōu)化。AI視頻創(chuàng)作平臺FLOVA相關(guān)團(tuán)隊(duì)認(rèn)為,HappyHorse 1.0在真實(shí)感和敘事能力上表現(xiàn)不錯,尤其適合敘事性內(nèi)容和紀(jì)錄片風(fēng)格題材,其焦段運(yùn)用接近實(shí)拍,鏡頭運(yùn)動自然,減輕了視頻的“AI感”。















