谷歌I/O大會推出Gemini Omni：多模態輸入輸出，開啟AI視頻創作新紀元

發布時間：2026-05-21 09:01 來源：快訊作者：陸辰風

在近日舉辦的谷歌I/O開發者大會上，一款名為Gemini Omni的全新AI產品正式亮相，引發了科技界的廣泛關注。這款產品以其突破性的多模態輸入輸出能力，重新定義了視頻創作的邊界，為用戶帶來了前所未有的創作體驗。

與谷歌此前推出的文本轉視頻工具Veo不同，Gemini Omni不僅支持文本輸入，還能接受圖片和現有視頻作為創作素材。這一多模態特性使其能夠處理和理解各種類型的輸入，從而生成連貫、高質量的視頻內容。無論是通過文字描述場景，還是上傳圖片或視頻片段，用戶都能輕松利用Omni創造出令人驚嘆的視覺作品。

Gemini Omni的核心優勢在于其強大的視頻編輯能力。用戶在使用Omni生成視頻后，可以通過簡單的文字提示對視頻進行精細修改，甚至可以添加額外的媒體素材。更令人驚嘆的是，用戶還能上傳自己拍攝的視頻，對其中的單獨元素進行更改或替換。這種前所未有的視頻編輯方式，無疑為創作者提供了更大的靈活性和創作空間。

然而，隨著視頻編輯能力的增強，內容真實性的問題也日益凸顯。為了應對這一挑戰，谷歌為Omni內置了SynthID水印機制。所有由Omni生成或編輯過的視頻內容都會自動添加該水印，幫助用戶識別內容是否經過AI處理。這一舉措不僅有助于維護內容的真實性，也是谷歌應對深度偽造等濫用風險的重要手段。

在訪問方式上，Gemini Omni同樣展現出了其多樣化的特點。它是全新改版的Gemini應用中的一項核心功能，用戶只需簡單操作即可將內置模板添加到相冊中。用戶還可以創建與自己外貌和聲音相似的自定義數字形象，并將其融入視頻創作中，為作品增添更多個性化元素。

從即日起，部分付費訂閱用戶將能夠在Google Flow和YouTube Shorts上率先體驗Gemini Omni的強大功能。未來幾周內，谷歌還將通過API向開發者和企業客戶開放Omni，支持他們進行定制化集成應用，進一步拓展其應用場景和商業價值。

據了解，Gemini Omni將分為Flash和Pro兩個版本推出。其中，Flash版本將率先上線，為用戶提供基礎但強大的視頻創作和編輯能力。而性能更為強大的Omni Pro版本則正在研發中，預計將在未來推出，為用戶帶來更加卓越的視頻創作體驗。

對于Gemini Omni與Veo的區別，谷歌方面表示，Veo主要專注于文本轉視頻功能，而Omni則是一個真正的多模態系統，支持更多形式的輸入來生成視頻，并具備強大的視頻編輯能力。這使得Omni在功能上更加全面，適用場景也更廣。

對于普通用戶如何使用Gemini Omni以及是否需要付費的問題，谷歌也給出了明確答復。用戶可以通過全新改版的Gemini應用體驗Omni功能，部分功能還將在Google Flow和YouTube Shorts上開放給付費訂閱用戶。同時，開發者和企業客戶也可以通過API進行定制集成，滿足不同場景下的需求。

更多>同類內容