Genie 3的推出是AI发展史上的重要里程碑,它为中国AI大模型企业指明了方向,带来了机遇与挑战。
2025年8月5日,Google DeepMind宣布推出Genie 3,这是一个通用世界模型,能够根据文本提示生成各种可互动的3D环境。该模型在720p分辨率下以24帧/秒实时生成环境,用户可以像玩游戏一样自由移动,并且场景在几分钟内保持一致。此举标志着DeepMind在世界模型领域的又一次重要跃进,距上一代Genie 2发布仅一年多时间。
我们梳理了目前Google官方报告和参与内测的用户的反馈,以及Genie3背后团队的深度访谈,为大家提供核心信息的汇总,更好地了解这个模型。
十年磨一剑,世界模型迎来“ChatGPT时刻”?
在Google DeepMind,我们已超过十年时间在模拟环境领域进行开创性研究,从训练智能体到掌握实时策略游戏,再到为开放式学习和机器人技术开发模拟环境。这项工作促使我们开发了世界模型,即能够利用其对世界的理解来模拟世界某些方面的AI系统,使智能体能够预测环境将如何演变以及其行为将如何影响环境。
世界模型也是通往通用人工智能(AGI)道路上的关键里程碑,因为它们使得在丰富的模拟环境中对人工智能代理进行无限课程训练成为可能。 去年,我们推出了首个基础世界模型Genie 1和Genie 2,它们能够为代理生成新环境。我们还继续通过我们的模型Veo 2和Veo 3推动视频生成技术的最前沿,这些模型展现出对直观物理学的深刻理解。
这些模型标志着在模拟世界不同能力方面的进展。Genie 3是我们首个允许实时交互的世界模型,同时与Genie 2相比,它还提高了连贯性和真实性。
官方对Genie 3的能力做了简洁描述:
1. 该模型能够从任意文本提示生成可互动世界:实时输出720p、24fps的动态环境,且场景在长达一分钟的交互中保持物理一致;用户还可以通过追加提示改变天气或加入人物。
2. 模拟世界物理属性:该模型能呈现水、光线等自然现象,以及复杂的环境交互。
3. 模拟自然世界:能生成丰富的生态系统,涵盖动物行为与复杂植物。
4. 模拟动画与虚构场景:能激发想象力,生成奇幻场景与富有表现力的动画角色。
5. 探索特定地点与历史场景:能突破地理与时间限制,呈现特定地点与过往时代。
实时交互+长时程一致性,Genie 3如何实现?
Genie 3实现高度可控性与实时交互,离不开重大技术突破。在逐帧自回归生成过程中,模型需纳入随时间累积的历史轨迹——例如,当用户一分钟后重返某地时,模型需调用一分钟前的相关信息。为实现实时交互,系统需每秒多次响应新输入并完成计算。
AI生成的世界要具备沉浸感,必须在长时间内保持物理一致性。但自回归生成环境比生成完整视频更具技术挑战,因为误差会随时间累积。尽管如此,Genie 3生成的环境仍能在数分钟内保持稳定,视觉记忆可追溯至一分钟前。
Genie 3的一致性是一种自然涌现的能力。NeRFs和高斯溅射等方法也能生成可导航的一致性3D环境,但依赖明确的3D模型;而Genie 3生成的世界更动态丰富,因为它基于世界描述和用户行为逐帧创建。
除导航输入外,Genie 3还支持更灵活的文本交互——即“可提示的世界事件”。
这类事件能改变生成的世界(如调整天气、引入新物体或角色),超越单纯的导航控制,丰富交互体验。
这一能力还能扩展“反事实场景”(即“如果……会怎样”)的范围,帮助智能体通过经验学习应对突发情况。
推动具身智能体研究
为了测试Genie 3创建的世界对未来智能体训练的兼容性,我们为最近版本的SIMA智能体生成了世界,这是我们用于3D虚拟环境的通用智能体。在每个世界中,我们指示智能体追求一组不同的目标,它通过向Genie 3发送导航动作来试图实现这些目标。像任何其他环境一样,Genie 3并不了解智能体的目标,而是根据智能体的动作来模拟未来。
由于Genie 3能够保持一致性,现在可以执行更长的动作序列,从而实现更复杂的目标。我们预计这项技术将在我们迈向通用人工智能(AGI)的过程中发挥关键作用,并且智能体将在世界上扮演更重要的角色。
局限性与风险
尽管Genie 3拓展了世界模型所能实现的范围,但有必要承认其当前局限性:
1. 有限的行动空间:尽管可提示的世界事件允许进行广泛的环境干预,但这些干预并非一定由代理自身执行。代理可直接执行的行动范围目前仍受限制。
2. 其他代理的交互与模拟:在共享环境中准确模拟多个独立代理之间的复杂交互,仍然是持续的研究挑战。
3. 真实世界位置的准确表示:Genie 3目前无法以完美的地理精度模拟真实世界位置。
4. 文本渲染:只有当输入的世界描述中提供清晰易读的文本时,才会生成。
5. 交互时长有限:该模型目前仅支持几分钟的连续交互,而非长时间。
我们相信,基础技术从一开始就需要对责任有深刻的承诺。Genie 3中的技术创新,特别是其开放式和实时能力,为安全和责任带来了新的挑战。为了在最大化益处的同时应对这些独特风险,我们与负责任发展与创新团队紧密合作。
在Google DeepMind,我们致力于以既能增强人类创造力又能限制非预期影响的方式开发我们一流的模型。随着我们继续探索Genie的潜在应用,我们宣布将Genie 3作为一项有限的研究预览发布,向一小部分学者和创作者提供早期访问权限。 这种做法使我们能够在探索这一新领域的过程中收集至关重要的反馈和跨学科视角,并继续加深我们对风险及其适当缓解措施的理解。我们期待与社区进一步合作,以负责任的方式开发这项技术。
我们相信Genie 3是世界模型的一个重要时刻,它将开始对人工智能研究和生成式媒体等多个领域产生影响。为此,我们正在探索如何在将来让更多测试者能够使用Genie 3。
对中国AI大模型企业的启示
Genie 3的推出,无疑为全球AI发展树立了新的标杆,也为中国AI大模型企业带来了诸多启示。
1. 技术创新是核心驱动力
谷歌DeepMind在世界模型领域长达十年的深耕,才孕育出Genie 3这样的突破性成果。中国AI企业应意识到,大模型的发展不是一蹴而就的,需要持续投入大量资源进行基础研究和技术创新。以字节跳动为例,其在云雀模型的研发过程中,不断探索新型架构和训练算法,在自然语言处理的多个任务上取得了优异成绩。技术创新不仅体现在模型架构和算法上,还包括对多模态融合、强化学习等技术的深入探索,以提升模型的综合能力。
2. 重视应用场景拓展
Genie 3在教育、培训、机器人训练等多领域展现出巨大潜力,这表明AI大模型的价值最终要通过实际应用来体现。中国企业应积极挖掘大模型在不同行业的应用场景,如医疗领域的辅助诊断、金融领域的风险评估、工业领域的智能制造等。例如,百度的文心一言在智能客服、智能写作等场景得到广泛应用,通过与各行业的深度融合,为企业和用户创造实际价值。
3. 关注模型的伦理与安全问题
随着AI技术的广泛应用,伦理与安全问题日益凸显。Genie 3在发布时就强调了对责任的承诺,并通过有限研究预览来管理风险。中国AI企业在发展大模型时,也应建立完善的伦理审查机制,确保模型的开发和应用符合道德规范和法律法规。例如,在数据采集和使用过程中,要充分保护用户隐私;在模型决策过程中,要避免产生偏见和歧视。
4. 加强国际合作与交流
AI是全球性的技术革命,国际合作与交流至关重要。中国AI企业应积极参与国际AI社区,与全球顶尖机构和企业共同推动技术进步。一方面,可以学习借鉴国际先进经验和技术,提升自身实力;另一方面,也可以通过合作,共同应对AI发展带来的全球性挑战,如数据安全、伦理规范等问题。
Genie 3的推出是AI发展史上的重要里程碑,它为中国AI大模型企业指明了方向,带来了机遇与挑战。中国企业应在技术创新、应用拓展、伦理安全和国际合作等方面积极探索,不断提升自身竞争力,在全球AI浪潮中占据一席之地。
蚂蚁配资-配资专业网上配资开户-配资投资-免息配资平台提示:文章来自网络,不代表本站观点。