11月2日,Sundar Pichai 在财报会议上说:「前沿模型的进一步发展现在需要更多时间」「不会带来立竿见影的突破」。我当时想,谷歌大概又是正常迭代吧。16天后,Gemini 3 发布。1501 Elo,首个突破 1500 大关,多项基准测试登顶。我错了。这个「沉睡的巨人」,不是在追赶,而是在重新定义游戏规则。

🎢 过山车般的一周

从「正常迭代」到「全场震惊」

让我们先回顾一下这戏剧性的时间线:

日期 事件 外界反应
11月2日 Pichai 财报会议:「不会带来立竿见影的突破」 预期降低,正常迭代
11月18日 Gemini 3 发布:1501 Elo 登顶 全场震惊,超出预期
11月24日 Alphabet 市值逼近 4 万亿美元 资本市场疯狂追捧

Salesforce CEO Marc Benioff 在 X 平台上说:「我用了两小时 Gemini 3,我不回去了。进步太疯狂了——推理、速度、图像、视频……一切更敏锐、更快。感觉世界又一次改变了。」

要知道,他用了 ChatGPT 将近三年。三年的「朝夕相伴」,竟抵不过 Gemini 3 上手两小时。

Alphabet 市值变化:从 2 万亿到接近 4 万亿
Alphabet 市值变化 - 一年内几乎翻倍,从约 2 万亿到接近 4 万亿美元

📱 我的 AI 使用演变:从好奇到依赖

三年,从「听说过」到「离不开」

回顾我自己的 AI 使用历程,恍如隔世:

  • 2022年:第一次听说 GPT,觉得「挺有意思」,但没当回事
  • 2023年:偶尔尝试 ChatGPT,问问问题,写写文案,觉得「还行」
  • 2024年:开始大幅使用,学习 Spring Boot、写 React 项目,AI 成了我的学习伙伴
  • 2025年像浏览器一样,时刻在用。它什么都懂,像一个无所不知的助手
我的 AI 使用演变时间线:2022-2025
我的 AI 使用演变 - 从好奇到依赖,三年完成认知革命

这种演变不是我一个人的经历。全球数亿用户都在经历同样的转变:从「AI 是工具」到「AI 是伙伴」

认知的根本转变

以前,我认为 AI 最有用的就是对话——问问题、写代码、改 Bug、解释概念。文字是 AI 的主战场,图片和视频只是「锦上添花」。

Gemini 3 彻底改变了我的认知。

图片不再是「附属品」,而是真正的生产力工具。流程图、架构图、信息图表、概念可视化——这些以前需要专业设计软件和大量时间的工作,现在只需要一段详细的描述。

🎨 多模态革命:当图片成为生产力工具

Nano Banana Pro:中文终于不乱码了!

说到图片生成,必须聊聊 Nano Banana Pro

以前用其他图片生成工具,最大的痛点是什么?中文支持。生成的图片里,中文要么是乱码,要么根本不显示,要么字体丑到没法用。

Nano Banana Pro 完全不一样。中文支持堪称完美

Nano Banana Pro 生成的中文信息图示例
Nano Banana Pro 生成的信息图 - 中文渲染完美,细节丰富

我的使用方式是这样的:

  1. 详细描述需求:告诉 Gemini 我想要什么样的图(内容、风格、用途)
  2. 让 AI 思考:Gemini 会根据内容思考如何用图片最好地展示
  3. 生成详细 Prompt:Gemini 输出一个优化过的、详细的图片生成提示词
  4. 发送给 Nano Banana Pro:得到高质量的图片

这个流程太丝滑了。图片已经和文字一样强大——不用去设计复杂的流程图、架构图、思维导图,AI 全都能搞定。

Veo:视频创作的新纪元

如果说 Nano Banana Pro 让图片成为生产力工具,那么 Veo 正在为视频创作开启新的可能。

我在哔哩哔哩上发现了一个宝藏 UP 主 Aismr_,他用 Veo 制作的视频质量令人惊叹。比如这个:

【如果去徒步旅行,你会带哪一个压缩帐篷胶囊呢?ASMR】

视频的质感、光影、细节,完全不像是 AI 生成的。这让我意识到:视频创作的门槛正在被彻底打破

Veo 生成的概念视频 - AI 驱动的视觉创作
Veo 生成的自然场景 - 用于放松和激发灵感

当然,我也承认:视频目前还没有完全达到「生产力工具」的程度。它更多用于娱乐、放松、激发灵感。但进步的速度太快了,谁知道一年后会是什么样?

从「看见」到「理解」:视觉推理的飞跃

Gemini 3 Pro 最让我震撼的,是它在视觉推理上的突破。

谷歌用了一个很精准的词来描述这种进步:从「看见」到「理解」

  • 文档理解:不只是 OCR 识别文字,而是理解表格、图表、数学公式之间的关系
  • 空间理解:估计人体姿态、分析动作轨迹、理解三维世界
  • 屏幕理解:看懂手机电脑屏幕正在发生什么,可以自动化操作
  • 视频理解:不只是「看到发生了什么」,还能理解「为什么发生」
Gemini 3 Pro 视觉理解能力:文档、空间、屏幕、视频
Gemini 3 Pro 视觉理解能力 - 从识别到推理的质变

如果说 GPT-4 开启了「语言智能」时代,那么 Gemini 3 Pro 正在开启「视觉与行动智能」时代。AI 不再只会说话,而是开始理解世界。

🔥 谷歌的惊人逆袭:全栈 AI 的力量

数据说话:首个突破 1500 Elo

先看硬数据。Gemini 3 Pro 在多项基准测试中的表现:

基准测试 Gemini 3 Pro GPT-5.1 Claude Opus 4.5
LMArena Elo 1501 1456 1448
GPQA Diamond 91.9% 89.2% 88.5%
SWE-bench Verified 76.2% 77.9% 80.9%
Humanity's Last Exam 37.5% 35.2% 33.8%

1501 Elo,这是什么概念?这是 LMArena 历史上第一个突破 1500 大关的模型。此前,Gemini 2.5 Pro 以 1380-1443 的分数领跑了超过半年。

Gemini 3 Pro vs GPT-5.1 vs Claude Opus 4.5 基准测试对比
基准测试对比 - Gemini 3 Pro 在多项指标上领先

全栈 AI:谷歌的护城河

Gemini 3 的成功不是偶然。它背后是谷歌十年磨一剑的「全栈 AI」战略

什么是全栈 AI?简单说,就是从芯片到模型到产品,全部自己做

谷歌全栈 AI 架构:芯片 → 基础设施 → 模型 → 产品 → 用户
谷歌全栈 AI 架构 - 垂直整合的竞争优势
  • 芯片层:TPU Ironwood(第7代),推理成本比 GPU 低 30%-40%
  • 基础设施层:AI Hypercomputer,单个 superpod 容纳 9,216 颗 TPU
  • 模型层:Gemini 3、Nano Banana Pro、Veo,全球顶尖研究团队
  • 产品层:搜索、YouTube、Android、Gmail,触达数十亿用户
  • 数据层:每月处理超过 1.3 千万亿(quadrillion)tokens

这套垂直整合的体系,形成了一个正向飞轮:用户使用产品 → 产生数据 → 数据训练模型 → 模型改进产品 → 吸引更多用户。

没想到这么大的公司能这么快

说实话,这是我最惊讶的地方。

谷歌是什么体量的公司?全球员工超过 18 万人,年营收超过 3000 亿美元。这么庞大的组织,通常意味着决策缓慢、创新乏力、官僚主义。

但 Gemini 3 的发布打破了这个刻板印象。从 Gemini 2.5 Pro 到 Gemini 3,不到一年时间,性能提升巨大。这不是「大公司病」,这是「大公司优势」——资源、人才、数据、基础设施,全部到位。

"我觉得更让人意外的是,Google 居然花了这么久才超越 OpenAI。"
—— Geoffrey Hinton(AI 教父)

辛顿的这句话很有意思。他的意思是:以谷歌的实力,超越 OpenAI 本来就是应该的。真正让人惊讶的,是为什么等了这么久。

市值的疯狂增长

资本市场的反应最能说明问题。

  • 2024年底:Alphabet 市值约 2 万亿美元
  • 2025年9月:首次突破 3 万亿美元
  • 2025年11月:逼近 4 万亿美元

一年内几乎翻倍。这种增速,在万亿市值级别的公司中极为罕见。

更有意思的是,巴菲特的伯克希尔·哈撒韦在 11 月披露,持有价值约 43 亿美元的 Alphabet 股份。「股神」的押注,是对谷歌 AI 战略的最好背书。

 大公司病的反思:谷歌 vs 苹果

同样是巨头,差距这么大

说到大公司,不得不聊聊苹果。

作为一个苹果用户,我对 Apple Intelligence 的表现非常失望

谷歌 vs 苹果:AI 战略对比
谷歌 vs 苹果 - 同样是巨头,AI 战略差距明显
维度 谷歌 苹果
旗舰 AI 产品 Gemini 3(1501 Elo 登顶) Apple Intelligence(功能延迟到 2026)
AI 芯片 TPU v7(业界领先) 依赖通用芯片
迭代速度 快速(16天从「正常迭代」到登顶) 缓慢(Siri 多年未大幅改进)
市场反应 市值一年翻倍 AI 相关股价平平

苹果的「大公司病」

根据 Bloomberg 的报道,苹果在 AI 上的落后有几个关键原因:

  • 过度谨慎:2016 年微软 Tay 的种族歧视事件后,苹果变得极度小心
  • 「Not invented here」心态:不愿意与外部开发者和学术界合作
  • 人才流失:无法吸引顶级 AI 研究人才
  • 战略摇摆:Apple Intelligence 宣布过早,实际产品没准备好

苹果高管 Greg Joswiak 的话很能说明问题:

"Look, we don't wanna disappoint customers. We never do. But it would've been more disappointing to ship something that didn't hit our quality standard."

这话听起来很有道理,但问题是:谷歌也没有牺牲质量,却能快速迭代。苹果的「质量标准」,更像是决策缓慢的借口。

为什么谷歌能做到?

我思考了很久,觉得有几个关键因素:

  1. 研究基因:谷歌从 Google Brain 到 DeepMind,一直有强大的研究文化
  2. 危机意识:ChatGPT 发布后,谷歌内部拉响「Code Red」,全公司动员
  3. 领导力:Sundar Pichai 虽然低调,但在关键时刻能做出果断决策
  4. 全栈优势:自研芯片 + 海量数据 + 顶级人才 + 全球产品,形成闭环

谷歌证明了:大公司不一定有大公司病。关键是有没有正确的战略和执行力。

💭 我的思考:AI 格局的未来

Gemini 3 超过了我对 GPT-5 的期待

说实话,在 Gemini 3 发布之前,我一直在等 GPT-5。

我期待的是:更强的推理、更好的多模态、更长的上下文、更低的成本。结果 GPT-5 发布后,感觉只是「正常升级」,没有那种「哇塞」的感觉。

Gemini 3 给了我这种感觉

尤其是多模态能力——图片生成、视频理解、视觉推理——这些才是我期待的「下一代 AI」应该有的样子。

三巨头的竞争格局

现在的 AI 格局,基本是三巨头主导:

2025 年 AI 格局:谷歌、OpenAI、Anthropic 三足鼎立
2025 年 AI 格局 - 三巨头各有优势
  • 谷歌:全栈优势,芯片+模型+产品+数据闭环
  • OpenAI:用户规模优势,8亿+ ChatGPT 用户
  • Anthropic:编程能力优势,Claude 在代码领域领先

每家都有自己的护城河,但谷歌的护城河可能是最深的——因为它从底层芯片到顶层产品,全部自己控制。

对普通用户的影响

作为普通用户,这场竞争对我们意味着什么?

好消息

  • AI 能力会越来越强
  • 价格会越来越低(竞争带来降价)
  • 选择会越来越多

需要思考的

  • 不要「绑定」在单一平台上,保持灵活性
  • 关注能力而非品牌,哪个好用就用哪个
  • 持续学习,跟上 AI 的进化速度

结语:这才刚刚开始

回到开头 Sundar Pichai 的那句话:「前沿模型的进一步发展现在需要更多时间」。

现在看来,这句话可能是战略性的谦虚,也可能是真心的感慨。AI 的发展确实越来越难,但每一次突破都令人惊叹。

Gemini 3 不是终点,只是新的起点。谷歌的觉醒,意味着 AI 竞争进入了新阶段。OpenAI 需要回应,Anthropic 需要追赶,而我们这些用户,将享受到这场竞争带来的所有红利。

"沉睡的巨人已经完全醒来。这不是在追赶,而是在重新定义游戏规则。"

三年前,我第一次听说 GPT。三年后,AI 已经像浏览器一样融入我的生活。

再过三年,会是什么样?我不知道,但我很期待。