谷歌I/O开发者大会集合贴：足足喊了120次AI 实时交互、视频模型登场|桔子视觉

从北京时间周三凌晨1点开始，谷歌在山景城总部附近的海岸线圆形剧场，召开了长达两个小时的年度I/O开发者大会Keynote演讲。

　　与预期一致，谷歌的这场发布会基本都是在谈AI、AI、AI、AI和AI。根据发布会最后的官方统计，整场Keynote的演讲稿里总共提了120次AI。而且这只统计了讲稿，实际上的数量还会更多一些。

　　在一大堆更新和新发布的功能中，也有许多具有记忆点的产品。例如从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

　　另外以上下文窗口“长”闻名的Gemini 1.5 Pro大模型，在今年晚些时候将会把100万Tokens的窗口，进一步扩大至200万Tokens，拓展同步处理多模态信息的边界。而对于一些需要快速响应的场景，谷歌也推出了Gemini 1.5 Flash模型。今年2月刚刚问世的Gemma开源模型，也将在下个月迎来参数量更大的Gemma 2。在多模态领域，谷歌也发布了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。而多模态Gemini Nano模型也将在今年晚些时候登陆Pixel手机，这是在本地运行的机载模型。

　　值得一提的是，谷歌的发布会上也有一些与昨日OpenAI发布会“雷同”的地方——实时AI助手。从今年夏天开始，Gemini也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，叫做Gems，能够与整套“谷歌全家桶”联动。

　　硬件方面，谷歌宣布了第六代TPU芯片Trillium，并透露能够在明年初用上英伟达最新的Blackwell架构GPU。另外，液冷、光缆等中国股民可能会感兴趣的题材也在发布会上出现。

　　----全场发布会回顾----

　　发布会开始，Alphabet&谷歌CEO桑达尔·皮查伊登上舞台。

　　皮查伊表示，现在已经有超过150万开发者正在使用谷歌的人工智能Gemini，今天将展示一系列有关搜索、图片、工作套件、安卓系统等等与人工智能有关的案例。

　　皮查伊宣布，能够总结谷歌搜索引擎结果的“AI概览”（AI Overviews）功能，将于本周在美国推出。

　　基于Gemini支持，谷歌图片（Google Photos）将支持用户存储图片的AI搜索，例如“告诉我，我的车牌号码是多少？”——这个名为Ask Photos的功能将于今年夏天推出。

　　皮查伊宣布，最新版本的Gemini 1.5 Pro（在多项核心功能方面均较最初发布版本有所提高）现在向全球所有开发者开放。从今天开始，支持100万tokens上下文窗口的Gemini 1.5 Pro将在Gemini Advanced功能下向用户开放，支持35种语言。

　　谷歌同时面向开发者推出支持200万tokens的Gemini 1.5 Pro模型的预览，并表示最终的目标将是“无限上下文”。

　　谷歌AI业务总负责人、DeepMind的首席执行官杰米斯·哈萨比斯登台，宣布推出Gemini 1.5 Flash大模型。这个模型兼具速度与效率，和多模态推理能力，以及长达100万tokens的上下文窗口。开发者将能够申请体验200万tokens的上下文窗口的Gemini 1.5 Flash。

　　谷歌展示“未来的人工智能助手”——名为“Astra”的项目。哈萨比斯表示，这样的AI助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西，这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导，以及自然、无延迟地进行交流。在演示视频中，谷歌的AI助手能够通过摄像头视频，识别“什么东西能发出声音”、“现在身处何地”等指令。

　　谷歌宣布了一系列与图像、音乐、视频有关的生成式AI工具。包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。

　　其中最受关注的视频生成模型Veo，能够根据文字、图片和视频的提示，生成高质量1080p视频。

　　哈萨比斯离场，皮查伊重回舞台，发布第六代TPU芯片Trillium，较上一代芯片的算力表现翻4.7倍，云用户从今年下半年开始可以用上新芯片。同时谷歌云将在2025年初，用上英伟达的最新Blackwell架构GPU。

　　皮查伊开始介绍自家的AI超级计算机，比起用户自己买相同的硬件和芯片，谷歌的架构能使得效能翻倍，其中有部分功劳来自于液冷系统。皮查伊表示，谷歌部署液冷系统的数据中心已经达到1GW，而且还在不断增长中。

　　皮查伊表示，谷歌投资了200万英里的地面和海底光纤，比第二名的云服务商翻了十倍。

　　液冷、光缆，应该都是股民们会感兴趣的东西。

　　谷歌搜索业务负责人Liz Reid开始具体介绍AI Overviews功能。Reid表示，在进行搜索时，搜素引擎具备多步骤推理的能力，例如寻找一个瑜伽教室，同时展示新手优惠报价，和距离特定位置的步行时间。这个AI搜索引擎助手，还能介绍食谱、安排行程，以及接受视频形式的提问（例如视频中的相机怎么使用）。

　　在办公套件Workspace方面，谷歌将逐步推出总结、邮件Q&A，以及智能回复等功能。

　　谷歌Gemini总经理Sissie Hsiao介绍了Gemini App的更新。与周一的OpenAI一样，从今年夏天开始，Gemini也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互功能。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，叫做Gems。这个AI助手的亮点，将是能与“谷歌全家桶”进行交互。