返回资讯列表
Gemini OmniGoogle DeepMind多模态AI

谷歌推出多模态生成模型Gemini Omni

来源:blog.google

AI 快读

导语

2026年5月22日谷歌DeepMind新出了个叫Gemini Omni的多模态AI模型,先上线了子模型Gemini Omni Flash,能在Gemini应用、Google Flow和YouTube Shorts用。它能认图文音视频各种输入,做高清视频,还能用日常说话的方式一步步改视频。

新闻正文

2026年5月22日,谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni,同步上线首款子模型Gemini Omni Flash,率先登陆Gemini应用、Google Flow及YouTube Shorts平台。该模型核心亮点在于打通了多模态输入与生成链路,可接受图文音视频混合指令,输出符合现实物理规律的高质感视频内容。 此前谷歌旗下的Nano Banana工具已凭借Gemini的图像生成与编辑能力服务数百万用户,实现老照片修复、草图设计落地等功能。而Gemini Omni在此基础上进一步升级,将多模态推理能力融入生成环节,用户可通过自然语言完成递进式视频编辑,修改过程中场景记忆、角色特征、物理规律均能保持连贯。 Gemini Omni具备精准的物理认知能力,能准确模拟重力、动能、流体力学等自然规律,同时可调用谷歌积累的历史、科学、文化知识库,实现创意内容与知识的深度融合。目前该模型仅开放视频生成与编辑功能,后续将逐步拓展至图像、音频等更多输出模态。

关键信息

  • Gemini Omni是谷歌首款将多模态推理能力与生成能力深度融合的模型,打破了此前AI视频生成仅能单模态输入、编辑逻辑割裂的局限,可实现基于场景记忆、物理规律的连贯创作。
  • 首发的Gemini Omni Flash率先落地视频生成与编辑场景,后续将逐步拓展至图像、音频等输出模态,构建覆盖全模态内容创作的AI工具矩阵。
  • 该模型具备精准的物理规律认知与跨领域知识调用能力,不仅能生成逼真视觉内容,还能将复杂知识转化为可视化讲解内容,兼顾创作性与实用性。

对你的影响

这件事意味着什么

普通人可借助Gemini Omni Flash在YouTube Shorts等平台零门槛创作个性化视频,无需专业剪辑技能,仅用自然语言就能实现场景转换、特效添加、知识可视化等效果;日常视频创作成本大幅降低,也为普通用户打造爆款短视频提供了新工具。

返回资讯列表