本文来自微信公众号: APPSO ,作者:祝大家新年快乐的,原文标题:《刚刚,Gemini 3.1 Pro 发布!清华姚顺宇站台宣传,Karpathy:应用商店的时代结束了》
刚在印度AI峰会上经历了最尴尬的一幕,Google CEO Sundar Pichai转头就在今天凌晨官宣了最新模型Gemini 3.1 Pro。

时机选得,相当精准(doge)。
OpenAI CEO和Anthropic CEO在合影时拒绝握手,而是高举拳头。
虽然距离上周Gemini 3 Deep Think的更新没几天,但3.1 Pro的定位,Google说得很清楚——专为那些「一个简单答案远远不够」的任务而设计,是解决复杂问题的基础底座。
按惯例,0.1的版本号更新通常意味着小修小补,然而,在测试模型解决全新逻辑模式能力的ARC-AGI-2基准上,3.1 Pro拿下77.1%,是上代3 Pro(31.1%)的两倍多,同时压过了Anthropic的Opus 4.6(68.8%)和OpenAI的GPT-5.2(52.9%)。

其它方面,科学知识测试GPQA Diamond拿了94.3%,智能体类基准MCP Atlas和BrowseComp分别拿下69.2%和85.9%。

编程能力方面,竞争性编程基准LiveCodeBench Pro的Elo评分达到2887,超过3 Pro的2439和GPT-5.2的2393。SWE-Bench Verified上,3.1 Pro拿了80.6%,和Opus 4.6的80.8%基本打平。
当然,3.1 Pro也不是处处碾压。
多模态基准MMMU Pro上,上代3 Pro反而略胜(81.0%vs 80.5%);启用工具支持的Humanity's Last Exam里,Opus 4.6以53.1%拿了第一。外界长期批评Google工具使用效率不如对手,这次还是没能完全堵上嘴。
第三方知名分析机构Artificial Analysis则给出了相当实在的评价。

3.1 Pro在他们的智能指数里排名第一,比Opus 4.6高4分;整个测试跑下来总计使用约5700万tokens,完成测试的成本不到Opus 4.6的一半。能打又省钱,这个组合还是很香的。
Google DeepMind首席科学家Jeff Dean也转发了一个是用3.1 Pro模拟城市规划、设计全新城市的应用,从零生成可交互的规划界面demo。

Google官方博客则展示了几个更日常的方向。代码动画方面,3.1 Pro可以直接根据文字提示生成动态SVG,因为是纯代码生成而非像素,任意缩放都不失真,文件体积也远小于传统视频。
复杂系统方面,模型直接接入公开遥测数据流,搭出了一个实时追踪国际空间站轨道的航天仪表盘。

更有意思的是两个创意类demo。
一个是3D椋鸟群模拟,不只是生成视觉代码,还支持用手势操控鸟群,并配有随鸟群动态变化的生成音乐;
另一个是把《呼啸山庄》的文学氛围转化成一个现代个人网站,模型没有简单概括情节,而是分析了小说的整体基调,设计出了贴合主人公气质的界面风格。
此外,网友们也贡献了不少精彩的案例。有人让3.1 Pro生成一个「鬼怪猎人穿越鬼屋」的动态SVG循环动画,结果直接看呆,评价是「Google这次是认真的」。

还有网友认为让它生成种子破土、根系延伸、茎秆冒出、叶片展开、直到长成完整大树的交互动画,每个生长阶段的过渡都顺滑自然,说这是见过最好的同类效果。
去年从Anthropic转投Google DeepMind的清华物理系特奖得主姚顺宇也站台宣传:「Gemini不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」

当然,这些demo加在一起说的是同一件事:模型能做的事,已经从单纯的回答问题延伸到完成一整套专业或创意工作流了。
价格方面,API按分级付费,整体和上代3 Pro保持一致,但跟Anthropic Opus系列比还是相对便宜的。
20万tokens以内,输入2美元/每百万tokens,输出12美元;超过20万tokens,输入涨到4美元,输出18美元。搜索功能每月前5000次免费,之后每1000次查询收费14美元。

现在,开发者可以在AI Studio、Gemini API、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio;企业用户在Vertex AI和Gemini Enterprise;普通用户在Gemini应用和NotebookLM都能用,后者仅限Pro和Ultra订阅。
值得注意的是,3.1 Pro目前只是预览版,Google大概率是要继续打磨好智能体工作流再推正式版,向外界展示出一副还没使全力的姿态。
至于这种能力渗透到个人层面会发生什么,这让我联想到了OpenAI联创Andrej Karpathy刚刚发布的推文:
他想用8周时间把静息心率从50降到45,计划是设定Zone 2有氧总时长目标,配合每周一次HIIT。为了追踪进展,他花了1小时用vibe coding做了一个专属仪表盘。

上下滑动查看更多内容
过程比想象中麻烦,Claude需要对Woodway跑步机的云API进行逆向工程,提取原始数据,处理筛选,搭出Web前端界面,中间还有公制英制单位混用、日历日期对不上这些bug需要手动发现并要求修复。
Karpathy的感叹很直接,两年前这事得花10小时,现在1小时。但他更在意的是:这本来应该只需要1分钟。
他的判断是,应用商店模式正在过时。
300行代码、LLM几秒生成的专属工具,没必要变成一个正经App让你去搜索下载。他同时也点了行业的问题:99%的产品仍然没有AI原生的CLI,还在维护给人看的前端界面,而不是直接提供便于Agent调用的API。
Woodway跑步机本质上就是个传感器,结果还得让LLM去逆向工程它,完全没必要。
把Jeff Dean的城市规划demo和Karpathy的跑步仪表盘放在一起看,其实是同一件事的两面。当普通人花1小时就能为自己做一个高度定制的专属工具,由AI原生传感器和执行器构成、LLM负责编排、即兴生成高度定制专属应用的时代,就已经近在眼前了。
附官方博客:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
