Gemini OmniGoogle DeepMind多模态AI

谷歌推出多模态生成模型Gemini Omni

2026年5月22日来源：blog.google

AI 快读

导语

2026年5月22日谷歌DeepMind新出了个叫Gemini Omni的多模态AI模型，先上线了子模型Gemini Omni Flash，能在Gemini应用、Google Flow和YouTube Shorts用。它能认图文音视频各种输入，做高清视频，还能用日常说话的方式一步步改视频。

新闻正文

2026年5月22日，谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni，同步上线首款子模型Gemini Omni Flash，率先登陆Gemini应用、Google Flow及YouTube Shorts平台。该模型核心亮点在于打通了多模态输入与生成链路，可接受图文音视频混合指令，输出符合现实物理规律的高质感视频内容。此前谷歌旗下的Nano Banana工具已凭借Gemini的图像生成与编辑能力服务数百万用户，实现老照片修复、草图设计落地等功能。而Gemini Omni在此基础上进一步升级，将多模态推理能力融入生成环节，用户可通过自然语言完成递进式视频编辑，修改过程中场景记忆、角色特征、物理规律均能保持连贯。 Gemini Omni具备精准的物理认知能力，能准确模拟重力、动能、流体力学等自然规律，同时可调用谷歌积累的历史、科学、文化知识库，实现创意内容与知识的深度融合。目前该模型仅开放视频生成与编辑功能，后续将逐步拓展至图像、音频等更多输出模态。

关键信息

Gemini Omni是谷歌首款将多模态推理能力与生成能力深度融合的模型，打破了此前AI视频生成仅能单模态输入、编辑逻辑割裂的局限，可实现基于场景记忆、物理规律的连贯创作。
首发的Gemini Omni Flash率先落地视频生成与编辑场景，后续将逐步拓展至图像、音频等输出模态，构建覆盖全模态内容创作的AI工具矩阵。
该模型具备精准的物理规律认知与跨领域知识调用能力，不仅能生成逼真视觉内容，还能将复杂知识转化为可视化讲解内容，兼顾创作性与实用性。

对你的影响

这件事意味着什么

普通人可借助Gemini Omni Flash在YouTube Shorts等平台零门槛创作个性化视频，无需专业剪辑技能，仅用自然语言就能实现场景转换、特效添加、知识可视化等效果；日常视频创作成本大幅降低，也为普通用户打造爆款短视频提供了新工具。

阅读原文

返回资讯列表