在近日舉辦的谷歌I/O開發者大會上,一款名為Gemini Omni的全新AI產品正式亮相,引發了科技界的廣泛關注。這款產品以其突破性的多模態輸入輸出能力,重新定義了視頻創作的邊界,為用戶帶來了前所未有的創作體驗。
與谷歌此前推出的文本轉視頻工具Veo不同,Gemini Omni不僅支持文本輸入,還能接受圖片和現有視頻作為創作素材。這一多模態特性使其能夠處理和理解各種類型的輸入,從而生成連貫、高質量的視頻內容。無論是通過文字描述場景,還是上傳圖片或視頻片段,用戶都能輕松利用Omni創造出令人驚嘆的視覺作品。
Gemini Omni的核心優勢在于其強大的視頻編輯能力。用戶在使用Omni生成視頻后,可以通過簡單的文字提示對視頻進行精細修改,甚至可以添加額外的媒體素材。更令人驚嘆的是,用戶還能上傳自己拍攝的視頻,對其中的單獨元素進行更改或替換。這種前所未有的視頻編輯方式,無疑為創作者提供了更大的靈活性和創作空間。
然而,隨著視頻編輯能力的增強,內容真實性的問題也日益凸顯。為了應對這一挑戰,谷歌為Omni內置了SynthID水印機制。所有由Omni生成或編輯過的視頻內容都會自動添加該水印,幫助用戶識別內容是否經過AI處理。這一舉措不僅有助于維護內容的真實性,也是谷歌應對深度偽造等濫用風險的重要手段。
在訪問方式上,Gemini Omni同樣展現出了其多樣化的特點。它是全新改版的Gemini應用中的一項核心功能,用戶只需簡單操作即可將內置模板添加到相冊中。用戶還可以創建與自己外貌和聲音相似的自定義數字形象,并將其融入視頻創作中,為作品增添更多個性化元素。
從即日起,部分付費訂閱用戶將能夠在Google Flow和YouTube Shorts上率先體驗Gemini Omni的強大功能。未來幾周內,谷歌還將通過API向開發者和企業客戶開放Omni,支持他們進行定制化集成應用,進一步拓展其應用場景和商業價值。
據了解,Gemini Omni將分為Flash和Pro兩個版本推出。其中,Flash版本將率先上線,為用戶提供基礎但強大的視頻創作和編輯能力。而性能更為強大的Omni Pro版本則正在研發中,預計將在未來推出,為用戶帶來更加卓越的視頻創作體驗。
對于Gemini Omni與Veo的區別,谷歌方面表示,Veo主要專注于文本轉視頻功能,而Omni則是一個真正的多模態系統,支持更多形式的輸入來生成視頻,并具備強大的視頻編輯能力。這使得Omni在功能上更加全面,適用場景也更廣。
對于普通用戶如何使用Gemini Omni以及是否需要付費的問題,谷歌也給出了明確答復。用戶可以通過全新改版的Gemini應用體驗Omni功能,部分功能還將在Google Flow和YouTube Shorts上開放給付費訂閱用戶。同時,開發者和企業客戶也可以通過API進行定制集成,滿足不同場景下的需求。














