Google I/O 2025:AI在技术生态系统中的核心地位

Google I/O 2025:AI在技术生态系统中的核心地位

TLDR : Google在Google I/O 2025宣布了其Gemini 2.5、Veo 3和Imagen 4 AI模型的更新,以及搜索引擎的新AI Mode。改进包括Gemini 2.5的增强推理模式、AI Mode在美国的部署,以及Project Starline演变为Google Beam实现更真实的3D对话。

不出所料,AI主导了Google I/O 2025的公告:更新了Gemini 2.5、Veo 3和Imagen 4模型,搜索引擎的AI Mode... Google将AI和Gemini置于其产品的核心。

Gemini 2.5系列

Gemini 2.5 Pro在今年三月推出,现在配备了一种称为Deep Think的增强推理模式。此模式允许模型在数学或编程等复杂任务中投入更多的计算周期,并在提出答案之前探索多个假设。
Google 2.5 Flash在四月揭晓,是一种混合推理模型,允许开发人员激活或关闭思考模式,旨在在成本、性能和延迟之间提供最佳平衡。Google宣布在推理、代码管理、多模式处理和广泛上下文理解方面进行了改进,并根据其内部评估减少了20%到30%的令牌消耗。
这两个模型都具有新功能:通过API提供的原生音频输出,可实现更自然的对话体验,先进的安全措施以及Project Mariner AI代理计算机使用能力。

AI Mode的部署

在I/O 2024大会上展示的AI Overviews最近得到了升级,Google宣布在美国部署AI Mode,用于需要深入探索、比较和细致推理的问题。
AI Mode由优化的Gemini 2.5模型提供支持,能够访问实时源和信息,依赖于“query fan-out”或查询分发技术。AI同时在与所提出问题相关的不同主题上启动多次搜索,使用多种数据源,然后汇总这些搜索结果以提供带有超链接的结构化回答到引用的网页。如果用户愿意,可以通过后续查询来细化搜索。

Project Starline演变为Google Beam

Google Beam利用先进技术,如光场显示、通过六个摄像机进行的体积捕捉、空间音频和AI实时处理,创建与对话者的3D表示。这种方法允许更真实的对话,以每秒60帧的速度渲染,并提高了头部运动的精确性,无需使用头盔或眼镜等可穿戴设备。最初,该技术局限于大型原型,但现已缩小以融入更紧凑的系统,这些系统是与HP合作开发的。
Google还将实时语音翻译功能集成到Meet中,实现流畅的多语言对话,同时保持用户的声音、语气和表达。

Pour mieux comprendre

Google Beam使用的光场显示技术是什么,它对虚拟现实和增强现实有什么影响?

光场显示是一种捕捉和显示所有方向光线的技术,可以在无需特殊眼镜的情况下再现真实的3D图像。这可能通过提供更沉浸和自然的体验来彻底改变虚拟现实和增强现实应用。

Google的AI Mode的“query fan-out”技术如何影响用户数据隐私?

“query fan-out”技术涉及向不同来源发送多个查询,这可能由于与潜在敏感数据的接触点增加而带来数据隐私挑战。监管机构可能需要进行审计以确保符合隐私标准。