11月2日,Sundar Pichai 在财报会议上说:「前沿模型的进一步发展现在需要更多时间」「不会带来立竿见影的突破」。我当时想,谷歌大概又是正常迭代吧。16天后,Gemini 3 发布。1501 Elo,首个突破 1500 大关,多项基准测试登顶。我错了。这个「沉睡的巨人」,不是在追赶,而是在重新定义游戏规则。
🎢 过山车般的一周
从「正常迭代」到「全场震惊」
让我们先回顾一下这戏剧性的时间线:
| 日期 | 事件 | 外界反应 |
|---|---|---|
| 11月2日 | Pichai 财报会议:「不会带来立竿见影的突破」 | 预期降低,正常迭代 |
| 11月18日 | Gemini 3 发布:1501 Elo 登顶 | 全场震惊,超出预期 |
| 11月24日 | Alphabet 市值逼近 4 万亿美元 | 资本市场疯狂追捧 |
Salesforce CEO Marc Benioff 在 X 平台上说:「我用了两小时 Gemini 3,我不回去了。进步太疯狂了——推理、速度、图像、视频……一切更敏锐、更快。感觉世界又一次改变了。」
要知道,他用了 ChatGPT 将近三年。三年的「朝夕相伴」,竟抵不过 Gemini 3 上手两小时。
📱 我的 AI 使用演变:从好奇到依赖
三年,从「听说过」到「离不开」
回顾我自己的 AI 使用历程,恍如隔世:
- 2022年:第一次听说 GPT,觉得「挺有意思」,但没当回事
- 2023年:偶尔尝试 ChatGPT,问问问题,写写文案,觉得「还行」
- 2024年:开始大幅使用,学习 Spring Boot、写 React 项目,AI 成了我的学习伙伴
- 2025年:像浏览器一样,时刻在用。它什么都懂,像一个无所不知的助手
这种演变不是我一个人的经历。全球数亿用户都在经历同样的转变:从「AI 是工具」到「AI 是伙伴」。
认知的根本转变
以前,我认为 AI 最有用的就是对话——问问题、写代码、改 Bug、解释概念。文字是 AI 的主战场,图片和视频只是「锦上添花」。
Gemini 3 彻底改变了我的认知。
图片不再是「附属品」,而是真正的生产力工具。流程图、架构图、信息图表、概念可视化——这些以前需要专业设计软件和大量时间的工作,现在只需要一段详细的描述。
🎨 多模态革命:当图片成为生产力工具
Nano Banana Pro:中文终于不乱码了!
说到图片生成,必须聊聊 Nano Banana Pro。
以前用其他图片生成工具,最大的痛点是什么?中文支持。生成的图片里,中文要么是乱码,要么根本不显示,要么字体丑到没法用。
Nano Banana Pro 完全不一样。中文支持堪称完美。
我的使用方式是这样的:
- 详细描述需求:告诉 Gemini 我想要什么样的图(内容、风格、用途)
- 让 AI 思考:Gemini 会根据内容思考如何用图片最好地展示
- 生成详细 Prompt:Gemini 输出一个优化过的、详细的图片生成提示词
- 发送给 Nano Banana Pro:得到高质量的图片
这个流程太丝滑了。图片已经和文字一样强大——不用去设计复杂的流程图、架构图、思维导图,AI 全都能搞定。
Veo:视频创作的新纪元
如果说 Nano Banana Pro 让图片成为生产力工具,那么 Veo 正在为视频创作开启新的可能。
我在哔哩哔哩上发现了一个宝藏 UP 主 Aismr_,他用 Veo 制作的视频质量令人惊叹。比如这个:
【如果去徒步旅行,你会带哪一个压缩帐篷胶囊呢?ASMR】
视频的质感、光影、细节,完全不像是 AI 生成的。这让我意识到:视频创作的门槛正在被彻底打破。
当然,我也承认:视频目前还没有完全达到「生产力工具」的程度。它更多用于娱乐、放松、激发灵感。但进步的速度太快了,谁知道一年后会是什么样?
从「看见」到「理解」:视觉推理的飞跃
Gemini 3 Pro 最让我震撼的,是它在视觉推理上的突破。
谷歌用了一个很精准的词来描述这种进步:从「看见」到「理解」。
- 文档理解:不只是 OCR 识别文字,而是理解表格、图表、数学公式之间的关系
- 空间理解:估计人体姿态、分析动作轨迹、理解三维世界
- 屏幕理解:看懂手机电脑屏幕正在发生什么,可以自动化操作
- 视频理解:不只是「看到发生了什么」,还能理解「为什么发生」
如果说 GPT-4 开启了「语言智能」时代,那么 Gemini 3 Pro 正在开启「视觉与行动智能」时代。AI 不再只会说话,而是开始理解世界。
🔥 谷歌的惊人逆袭:全栈 AI 的力量
数据说话:首个突破 1500 Elo
先看硬数据。Gemini 3 Pro 在多项基准测试中的表现:
| 基准测试 | Gemini 3 Pro | GPT-5.1 | Claude Opus 4.5 |
|---|---|---|---|
| LMArena Elo | 1501 ⭐ | 1456 | 1448 |
| GPQA Diamond | 91.9% | 89.2% | 88.5% |
| SWE-bench Verified | 76.2% | 77.9% | 80.9% |
| Humanity's Last Exam | 37.5% | 35.2% | 33.8% |
1501 Elo,这是什么概念?这是 LMArena 历史上第一个突破 1500 大关的模型。此前,Gemini 2.5 Pro 以 1380-1443 的分数领跑了超过半年。
全栈 AI:谷歌的护城河
Gemini 3 的成功不是偶然。它背后是谷歌十年磨一剑的「全栈 AI」战略。
什么是全栈 AI?简单说,就是从芯片到模型到产品,全部自己做:
- 芯片层:TPU Ironwood(第7代),推理成本比 GPU 低 30%-40%
- 基础设施层:AI Hypercomputer,单个 superpod 容纳 9,216 颗 TPU
- 模型层:Gemini 3、Nano Banana Pro、Veo,全球顶尖研究团队
- 产品层:搜索、YouTube、Android、Gmail,触达数十亿用户
- 数据层:每月处理超过 1.3 千万亿(quadrillion)tokens
这套垂直整合的体系,形成了一个正向飞轮:用户使用产品 → 产生数据 → 数据训练模型 → 模型改进产品 → 吸引更多用户。
没想到这么大的公司能这么快
说实话,这是我最惊讶的地方。
谷歌是什么体量的公司?全球员工超过 18 万人,年营收超过 3000 亿美元。这么庞大的组织,通常意味着决策缓慢、创新乏力、官僚主义。
但 Gemini 3 的发布打破了这个刻板印象。从 Gemini 2.5 Pro 到 Gemini 3,不到一年时间,性能提升巨大。这不是「大公司病」,这是「大公司优势」——资源、人才、数据、基础设施,全部到位。
"我觉得更让人意外的是,Google 居然花了这么久才超越 OpenAI。"
—— Geoffrey Hinton(AI 教父)
辛顿的这句话很有意思。他的意思是:以谷歌的实力,超越 OpenAI 本来就是应该的。真正让人惊讶的,是为什么等了这么久。
市值的疯狂增长
资本市场的反应最能说明问题。
- 2024年底:Alphabet 市值约 2 万亿美元
- 2025年9月:首次突破 3 万亿美元
- 2025年11月:逼近 4 万亿美元
一年内几乎翻倍。这种增速,在万亿市值级别的公司中极为罕见。
更有意思的是,巴菲特的伯克希尔·哈撒韦在 11 月披露,持有价值约 43 亿美元的 Alphabet 股份。「股神」的押注,是对谷歌 AI 战略的最好背书。
大公司病的反思:谷歌 vs 苹果
同样是巨头,差距这么大
说到大公司,不得不聊聊苹果。
作为一个苹果用户,我对 Apple Intelligence 的表现非常失望。
| 维度 | 谷歌 | 苹果 |
|---|---|---|
| 旗舰 AI 产品 | Gemini 3(1501 Elo 登顶) | Apple Intelligence(功能延迟到 2026) |
| AI 芯片 | TPU v7(业界领先) | 依赖通用芯片 |
| 迭代速度 | 快速(16天从「正常迭代」到登顶) | 缓慢(Siri 多年未大幅改进) |
| 市场反应 | 市值一年翻倍 | AI 相关股价平平 |
苹果的「大公司病」
根据 Bloomberg 的报道,苹果在 AI 上的落后有几个关键原因:
- 过度谨慎:2016 年微软 Tay 的种族歧视事件后,苹果变得极度小心
- 「Not invented here」心态:不愿意与外部开发者和学术界合作
- 人才流失:无法吸引顶级 AI 研究人才
- 战略摇摆:Apple Intelligence 宣布过早,实际产品没准备好
苹果高管 Greg Joswiak 的话很能说明问题:
"Look, we don't wanna disappoint customers. We never do. But it would've been more disappointing to ship something that didn't hit our quality standard."
这话听起来很有道理,但问题是:谷歌也没有牺牲质量,却能快速迭代。苹果的「质量标准」,更像是决策缓慢的借口。
为什么谷歌能做到?
我思考了很久,觉得有几个关键因素:
- 研究基因:谷歌从 Google Brain 到 DeepMind,一直有强大的研究文化
- 危机意识:ChatGPT 发布后,谷歌内部拉响「Code Red」,全公司动员
- 领导力:Sundar Pichai 虽然低调,但在关键时刻能做出果断决策
- 全栈优势:自研芯片 + 海量数据 + 顶级人才 + 全球产品,形成闭环
谷歌证明了:大公司不一定有大公司病。关键是有没有正确的战略和执行力。
💭 我的思考:AI 格局的未来
Gemini 3 超过了我对 GPT-5 的期待
说实话,在 Gemini 3 发布之前,我一直在等 GPT-5。
我期待的是:更强的推理、更好的多模态、更长的上下文、更低的成本。结果 GPT-5 发布后,感觉只是「正常升级」,没有那种「哇塞」的感觉。
Gemini 3 给了我这种感觉。
尤其是多模态能力——图片生成、视频理解、视觉推理——这些才是我期待的「下一代 AI」应该有的样子。
三巨头的竞争格局
现在的 AI 格局,基本是三巨头主导:
- 谷歌:全栈优势,芯片+模型+产品+数据闭环
- OpenAI:用户规模优势,8亿+ ChatGPT 用户
- Anthropic:编程能力优势,Claude 在代码领域领先
每家都有自己的护城河,但谷歌的护城河可能是最深的——因为它从底层芯片到顶层产品,全部自己控制。
对普通用户的影响
作为普通用户,这场竞争对我们意味着什么?
好消息:
- AI 能力会越来越强
- 价格会越来越低(竞争带来降价)
- 选择会越来越多
需要思考的:
- 不要「绑定」在单一平台上,保持灵活性
- 关注能力而非品牌,哪个好用就用哪个
- 持续学习,跟上 AI 的进化速度
结语:这才刚刚开始
回到开头 Sundar Pichai 的那句话:「前沿模型的进一步发展现在需要更多时间」。
现在看来,这句话可能是战略性的谦虚,也可能是真心的感慨。AI 的发展确实越来越难,但每一次突破都令人惊叹。
Gemini 3 不是终点,只是新的起点。谷歌的觉醒,意味着 AI 竞争进入了新阶段。OpenAI 需要回应,Anthropic 需要追赶,而我们这些用户,将享受到这场竞争带来的所有红利。
"沉睡的巨人已经完全醒来。这不是在追赶,而是在重新定义游戏规则。"
三年前,我第一次听说 GPT。三年后,AI 已经像浏览器一样融入我的生活。
再过三年,会是什么样?我不知道,但我很期待。

读者评论
分享你的想法,与作者和其他读者交流
发表评论