新闻正文
2026年5月22日,谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni,同步上线首款子模型Gemini Omni Flash,率先登陆Gemini应用、Google Flow及YouTube Shorts平台。该模型核心亮点在于打通了多模态输入与生成链路,可接受图文音视频混合指令,输出符合现实物理规律的高质感视频内容。 此前谷歌旗下的Nano Banana工具已凭借Gemini的图像生成与编辑能力服务数百万用户,实现老照片修复、草图设计落地等功能。而Gemini Omni在此基础上进一步升级,将多模态推理能力融入生成环节,用户可通过自然语言完成递进式视频编辑,修改过程中场景记忆、角色特征、物理规律均能保持连贯。 Gemini Omni具备精准的物理认知能力,能准确模拟重力、动能、流体力学等自然规律,同时可调用谷歌积累的历史、科学、文化知识库,实现创意内容与知识的深度融合。目前该模型仅开放视频生成与编辑功能,后续将逐步拓展至图像、音频等更多输出模态。