前沿科技

继手机之后,字节AI眼镜或将跟上

如果说2024年是大模型之战,那么在2025年末,中国AI战场已演变为一场大厂的流量入口之争。 在阿里发布千问APP、夸克AI眼镜之后,字节与中兴联合发布了“豆包AI助手”手机nubia M153,激起了千层浪。 《科创板日报》记者还获悉,字节的AI眼镜研发正在推进中,或有望在明年发布。谈及字节AI眼镜的发布计划,有供应链人士对《科创板日报》记者如此评价:“大模型是底座,产业链到位了。”但记者询问字节方面,没有得到回应。 除了阿里、字节外,百度也以AI眼镜杀入战场。显然,大厂们都希望尽快补齐AI领域的软硬件生态,以抢占触达用户的“物理入口”。 ▍从手机到眼镜:互联网巨头打响AI硬件“入口”争夺战 当前,大厂之间的AI之争已经从大模型参数,发展到了AI的软硬件应用。通过推动自身大模型在智能终端的落地,争夺下一代硬件入口。 “ 入口是关键的护城河,也是收费站,可谓兵家必争之地。谁掌握了分发权,谁的话语权就大。所以,互联网公司想做硬件,而硬件公司想做爆款APP 。”某手机厂商的影像负责人如是说。 “苹果模式是大家都希望的,但也并非一蹴而就。而 AI操作系统让大家看到了替代安卓的可能性,甚至有可能再此基础上收‘AI费’,所以AI能力强的公司一定会心动 。”上述负责人称。 其中,AI眼镜被认为是手机之后的下一代关键终端,不仅有创业公司开启百镜大战,更得到了互联网大厂的青睐。 不过,由于技术限制,AI眼镜短期内不能脱离手机来使用。大多数操作均需要通过手机来辅助完成。因此,以手机、AI眼镜形成智能体落地硬件的闭环,是字节更大的野心。 在实测中,搭载豆包助手的手机可以帮用户挂机打游戏,甚至通过调用第三方应用打开智能汽车的车门等。 这类由智能体来调用终端各类应用的畅想,正是各大终端厂商正在探索的方向。苹果在2024年就计划让新版本的Siri将能够通过语音控制单独应用内的所有功能。 在国内,荣耀YOYO、小米小爱等手机助手也都演示过“一句话点买外卖”等功能。 阿里则发力千问助手在AI眼镜的落地。最新发布的夸克AI眼镜,成为首款搭载阿里千问助手的智能硬件,可以通过语音控制来完成在夸克眼镜上的各种操作。 一位业内专家表示,在AI与终端结合的后手机时代,有一种可能是,未来手机这类终端,只负责显示像素和发出声音,AI负责产生内容、工具和应用从人找应用到AI推服务的精准适配,催生AI驱动的“服务直达”新时代。 手机将成为AI能力的聚合体,不需要按钮、屏幕、语音、触控,AI根据意图和场景,实时生成界面和操作方式,催生AI懂你服务新格局。 另有业内分析认为,字节豆包与中兴在手机上的合作,类似于华为智选车的模式。华为不仅提供智能驾驶、智能座舱等核心技术,还深度介入产品定义等,与车企形成紧密绑定。 “这代表一种趋势。”一位ICT业内人士评价道,“AI能力偏弱的企业沦为基础硬件代工厂,灵魂只能交给AI能力突出的企业,车、手机这两种主流终端市场或都将如此发展。” ▍AI颠覆智能终端,仍需过“微信关” 一名消费电子分析师对记者表示,“豆包AI助手”从场景、技术来看,相比之前新鲜的内容并不多,只是借助字节的大模型,在语义识别方面效果更好。如今AI发展的问题主要在于硬件、App和大模型厂商都在抢话语权,互相没有完全打通配合。 就在“豆包AI助手”手机nubia M153发售后不久,用户发现其微信、农业银行、建设银行等App出现了风控措施。 多位用户反馈,在nubia M153上使用豆包手机助手操作手机功能时,如果涉及操作微信,会出现微信异常退出,甚至无法登录的情况。为此,字节豆包后续下线了手机助手操作微信的能力。 《科创板日报》从一名nubia M153用户了解到,此前被禁止登录的微信账号已经解封,重新登录后则提示“豆包操作手机属于实验室功能,先不支持微信的操作。” 第三方APP对外部应用的调取和数据抓取有明确禁止规定。美团在知识产权声明中强调,不得通过技术手段扫描、探测、抓取美团平台内容。淘宝平台服务协议显示,禁止存在可能破坏、篡改、删除、影响淘宝平台任何系统正常运行或未经授权获取淘宝平台及其他用户的数据、个人资料的病毒、木马、爬虫等恶意软件、程序代码。 在这些APP中,微信对于智能体的调用监管尤为严格。微信《软件许可及服务协议》对此明确规定:不允许用户使用未经授权的三方工具/服务进行自动化操作,违反用户协议,微信有权限制账号。 这也导致 主流手机厂商的AI助手都曾推出针对微信的调用功能,但后续被终止了。 比如,荣耀YOYO去年推出过帮助用户查找微信、支付宝中的自动续费服务,并可帮助用户询关闭续费,但后续该微信功能被取消。 vivo和OPPO今年都在AI助手中加入记忆功能,用于自动总结屏幕内容。比如,OPPO在ColorOS 16中推出了“AI一键闪记”,能够总结图文、视频内容,还能记取餐码、记账。但进入10月底,用户发现微信已从“一键记账”的支持列表中消失,只剩下支付宝和云闪付。 OPPO官方客服对此回复称,由于微信应用限制,自动记账相关功能暂不支持使用。如果要记录微信支出,需要手动记录账单。 一名消费电子领域的专家表示,硬件厂商在探索AI助手时都会面临着与豆包助手同样的问题。一是让AI随时操作频幕和应用,可能会涉及用户隐私。二是来自APP应用生态的反弹。 正如移动互联网时代的应用市场分发涉及利益分配,AI时代的智能体分发同样敏感,涉及到手机厂商、应用厂商之间的博弈。 “在AI与手机的融合,以及智能体相关的问题,互联网应用厂商愿意做的就做,一些不愿意做的就留给时间。”一名手机厂商的AI专家表示。“ 目前出于商业考虑,他们不允许手机厂商调用其APP 。” “ 微信一直比较封闭,AI手机本质上就是争夺流量入口的,相当于动了超级APP的蛋糕,他们肯定要抵制的 。”另一厂商的相关人士也对《科创板日报》记者表示。 有业内分析认为,豆包此次试水, 对于理清用户接受度的边界和商业规则的模糊地带,有极大帮助。相当于主动当了一回“压力测试员” ,也利于后续其他厂商的跟进,从而推动智能体在端侧的落地。 ▍缺乏硬件基因的互联网大厂能成功吗? 除了应用生态外,缺乏硬件基因的互联网企业想要试水智能终端,仍存在较大的研发难度。 全球互联网巨头谷歌早在2017年就收购了HTC的部分手机业务,并推出了多代Pixel手机,但销量上持续疲弱,在手机市场较为边缘化。 字节跳动则于2017年收购锤子科技的坚果手机团队,成立新石实验室。之后推出了坚果Pro3、坚果R2等产品。但最终在2021年年初,原锤科团队组建的新石实验室并入教育硬件团队,不再研发坚果手机。 字节此次重入手机市场,是否能够坚持长期主义,有待时间观察。 多名数码领域的人士在采访中,对于缺乏硬件研发能力的互联网企业,入局智能硬件产品,并不十分看好。“当较大的研发投入在短期难以得到回报时,这些厂商未必能够坚持迭代超过三代。” 不过,也有专家认为互联网厂商杀入硬件终端,具备各自独特的优势。 工信部信息通信经济专家委员会委员盘和林表示,字节具备自带的用户流量。“坐拥自媒体社交平台,字节不缺用户,甚至还能用字节的用户给硬件企业赋能。” 对于阿里入局AI眼镜,盘和林认为,和字节不同,阿里在B端具有稳定客户。通过AI眼镜,阿里也可以成为平台上电商商家的供货商,在硬件销售上和供应链整合上都有一定优势。 百度的优势,则在于搜索。“AI眼镜的一大重要功能,就是在办公的时候用AI眼镜进行信息搜索,不需要在搜索网站上手动输入,用语音即可。百度凭借搜索能力,在信息和AI整合方面,比其他家更强。”
2小时前
3

AI把音综的事全干了

“等我哪天研究出了时光机,就回到千禧年发表这首歌,机械降神。” 在《美猴亡》的评论区,有网友如是感慨。以前穿越是背诗词和记化学物理公式,让尚处于蒙昧的NPC们虎躯一震,但那好歹是人类自己的智慧结晶。现在穿越者已经瞧上AI了,要把赛博资产也据为己有。 也不能怪人太贪心,AI整的有些玩意是不错啊。《大东北是我的家乡》改成R&B版之后,立马靓丽不少。土地还是那东北,味道却有点西海岸,不中不洋的小味儿挺挠人。《千年等一回》改成电音版后,感觉青白二蛇都戴上了朋克眼镜,随时可以发出镭射光击毁雷峰塔。法海当主持那庙,也不是金山寺,而是DJ Remix。带劲的feel,下田犁二亩地不是问题。 曾几何时,音综苦苦求索的“乐坛新声音”,居然就是那AI歌手“大头针”、“卷笔刀”。由于唱得太好,不少听众直接表示,哪怕是AI我也爱了。评论区更是各种捏脸,“我心里大头针长这样。”一个声音融合了张杰、汪峰、刘宇宁的AI,被群众捏出来的脸却融合了宋威龙、陈星旭、张凌赫。以融合对融合,以AI对AI,真是人类达不到的至臻至美。 从演唱到编曲,从作曲到填词,2025年,华语乐坛的主题词是AI。速度之快,远超预估。毕竟一年前,硬糖君还在听AI贾斯汀·比伯唱《欧若拉》,一年后已经反复欣赏大头针的《很爱很爱你》了。触屏手机开始流行的时候,没人为砖头诺基亚流一滴眼泪。 新声音,似是故人来 “我们要为乐坛寻找新生代和新声音”,过去音综总是那么信誓旦旦充满使命感。殊不知,在CD和古早选秀时代的公司和节目组,已经把这片区域的自然嗓音完成了穷举式的挖掘开发。后来的综艺再怎么努力,也只是宛宛类卿。 今天的听众模仿大橘给“华语乐坛”写信,语气应该是荒诞的。“大头针类张杰、赵传、曾一鸣、汪峰、杨培安、林俊杰、阿杜、李圣杰、张信哲、张学友、薛之谦,AI类卿更胜卿。苦思已排,汝可安心!” 大头针和卷笔刀,满足了听众对完美嗓音的想象。大头针一首《很爱很爱你》唱得撕心裂肺,和原唱刘若英的温柔缱绻相比多了几分不安和撕扯,更适合当下人们需要宣泄的情绪。其基础声音像李代沫和金润吉,但太多音徘徊在强混和假音之间,已非肉嗓所能企及。 另一首《泪海》,也是出圈神曲。人们在其中反复咂摸到底是谁的声音,却发现找不到答案。“这个海可太张杰了”、“汪峰做梦都想唱成这样”、“像曾一鸣的声线”。有故人之姿正因为人家是故人之子,可以想象“大头针”初期被喂了太多乐坛经典声音。 不过,虽然声音有辨识度且唱法全面,但“大头针”的问题是局限在“女歌男唱”。火的《泪海》《出卖》《星语心愿》《七月七日晴》《你看你看月亮的脸》都是原唱为女歌手,男歌手的歌反而不出彩。之前很少有男歌手能唱女歌手的原key,除了林俊杰起高了的那版《煎熬》。而AI恰可以全程高音唱原key,这就让听感十分震撼。 AI歌手像是一台设定好的发声机器,如同玩游戏开挂。大头针能连续高音不停,且在各个音阶之间丝滑爬升转换,甚至毫无来由地“旱地拔葱”突起高音。听众清楚地知道,真人歌手受限于肺容量和肉嗓,不可能完成如此质量。 但AI歌手的弱点也在于太完美,不少人批评大头针听多了审美疲劳。这一点,不爱飙高音的“卷笔刀”就做了很好的补位,他以一首《黄昏》引爆短视频,是在周传雄声线基础上的极致温柔。声音丝滑没有半分凝滞,像是刚做完雾化吃了二斤枇杷膏就来录制。 当然,尽管现在AI歌手连换气声都做得天衣无缝,但在人类幽微情感的表达上还是有所欠缺。AI编曲的R&B版《第一次》,着急忙慌卖弄性感像是“今夜第一次”,少了年轻光良那种情窦初开唯唯诺诺的“人生第一次”的羞涩。 于是,人们又纷纷在老歌里找到人类尚可一战的证据。“张学友为人类扳回一城”、“王力宏为人类扳回一城”、“邰正宵为人类扳回一城”。 新编曲,算法征服耳朵? 听完大头针,再重新夸真人歌手的心态与出去偷吃的男人类似。“繁华只觉秋雅好,平淡方知冬梅香。”被外面的风花雪月弄萎了,只好重拾家中贤妻的好,实则是一种矫正性的心理安慰。家里家外红旗不倒,AI真人彩旗飘飘,各种心态的杂糅谁能说出个三七分成? 阿多诺与霍克海默曾经担忧不已的文化标准化、伪个性化的问题,在AI编曲领域展现得淋漓尽致。音综这些年的创新,基本停留在改编老歌环节。要么破坏原节奏,要么莫名其妙把两首歌串烧在一起,呈现效果大多不理想。而AI用强大的算法摸清了人们喜欢的编曲形式,输出的全新编曲充满创意动感。 电音版《千年等一回》,被网友誉为赛博电鳗。Daft punk风味,让高胜美整个唱法变时尚。“许仕林你爹妈怎么认识的?”“搁西湖livehouse认识的。”听完像打了把《赤影战士》版的“新白”,像素化的白素贞和小青拿炮把法海轰趴下了。 City pop版的《迷迭香》更被网友指路“音综可以直接拿去用了,只是没人唱得好”。这个版本的前奏编曲,拿去配《东京爱情故事》一点问题没有!场景设定是情场浪子开了一瓶香槟,热烈而不失礼貌地询问对方“愿意现在和我共舞一曲吗?” 《花田错》被编曲成了《花田起义》,拿听歌识曲一听搜出来是《浏阳河》。这种“情歌红唱”的编曲方法,也让不少流行歌的听感焕然一新。原版:男女主在花田里因为感情缠绵无法自拔。AI版:两个师团在花田里发生遭遇战阵地反复易主。有种“我就犯了错咋滴吧,不服试试我的意大利炮”的豪横。 就连90年代神曲《梦里水乡》也难逃一劫,被爆改成了艾米·怀恩豪斯风格。如果说江珊的演唱,是一个精神净土般的原版水乡。那么AI版就是水乡被商业开发,岸边好多酒吧,有直男在墙上乱涂乱画写“26岁女房客”的续集。岸边的玲珑少年没了踪影,取而代之的是腰肢丰腴的驻唱歌手。 正如R&B版的《大东北是我的家乡》一样,AI编曲特点是在原曲的基础上多了经济上行期的热情奔放,具有火力全开的动感和生命力。现阶段的AI编曲让无数老歌重获新生,把80、90后吃过的细糠重新做一遍喂给00后,是将几代人的音乐财富转化为数字养料。关键这些细糠还添加了科技狠活儿,能不让人上头吗? 真正的问题在于,把老歌全部翻新一遍是没有意义的。AI只是通过炒陈饭反复向我们论证,过去的饭是真香。至于这里面的个性和创新实在寥寥,无非是一通看似洋气的爆改,把所有歌曲都弄成新不新旧不旧的赛博蒸汽感,电子掺迷幻,红牛兑劲酒。偶尔来一口提神醒脑,贪杯反而伤身。 新形式,AI判词赛红楼 音乐的视觉呈现,一直是音综痛点。站桩唱歌虽然保持了音乐的纯粹,但观众会觉得舞台空旷没看点。弄唱跳或者繁复舞台设计,当然也有人跳出来指责破坏了音乐的主体地位。 这个问题也被AI解决了,不用太复杂让“本尊”上就行。在B站,人们用AI为《西游记》人物写专属主题曲,白骨精的《不再三》、孙悟空的《美猴亡》、银角大王的《装装样》堪称AI判词。这种AI作词作曲并利用原角色形象进行演唱的形式,让受众有了更强沉浸感。就像影视解说改成第一人称,用AI模拟主角音色进行讲解一样,带来的变革不言而喻。 “他们杀死了美猴王,用庙堂、用跪拜、用牌坊。如今我端坐在这莲台之上,却再也不知何站是故乡。他们说这就是成长,可这成长为何像投降?”完全可以设想:音综里一个相貌端正的青年在播完被社会毒打的VCR后,站在台上唱这首歌时台下评委和观众的热泪盈眶。这绝对是一个理想主义者社会化后不甘平庸的好故事,但AI杀死了比赛让孙悟空自己来讲。 在超越人声极限、编曲的思维局限后,AI已经可以用极其普惠的方式实现全民作曲。有网友表示自己用suno制作的音乐改了谱子后被汽水签约了,还有专门的中介收费帮你改AI作曲的歌。 而不少疑似AI生成的口水歌,如“连不上我WiFi,找不到我乖乖”更是把原创圈祸害得不行。令人啼笑皆非的是,还有人用AI写了“连不上我频道,收不到我信号”。结果第一首AI歌作者和第二首AI歌作者打起来了,前者说要告后者侵权。搞笑程度不亚于AI《大东北是我的家乡》找袁娅维要版权费(并未发生),而忘了自己的AI里喂了袁娅维的声音。 AI的鲶鱼效应还在继续,至少很多音乐人找到了新赛道——挑战大头针。最热情参赛者是曾一鸣,《美猴亡》也唱《泪海》也唱,哪里有AI那里就有曾老师。实话,自从有了大头针打样,曾老师的唱功和细节都有了质的飞跃。虽然肉嗓不能像AI那样无限高音,但一些细节处理完全可以为人所用。 而且看似挑战AI,实则是在探索如何用人声去呈现AI唱法,唱得越像说明人声没输。但这种逼近也是AI对歌手的一种驯服,唱得越像AI越赢。 硬糖君还学得一种捧杀方法,在挑战AI的歌手的视频下留言“全网最接近大头针高音的就你一个”。在这样的鼓励下,博主天天挑战AI高音。再过一周去看,发声方式不合理的直接练哑了。AI有风险,模仿需谨慎。 如何看待AI浪潮下的华语乐坛创作?是积极迎战还是绥靖保守。硬糖君这里有一计可使音综幽而复明,那就是做个《挑战大头针》节目,让歌手组团对抗AI。戏剧张力拉满,还有点人类无望对抗人工智能的BE美。
1天前
16

谷歌、OpenAI拉响“红色警报”

作为AI赛道的两大重磅玩家,OpenAI与谷歌近日的“角色互换”引发了全球科技圈和资本市场的重大关注。 本周,ChatGPT开发商OpenAI的首席执行官Sam Altman拉响“红色警报”,此前该公司主要竞争对手谷歌高调发布了Gemini 3大模型并迎来如潮好评。 这一事态发展颇具戏剧性,因为就在三年前,面对ChatGPT横空出世,谷歌也曾发布过“红色警报”。短短三年时间,“红色警报”发布方悄然互换,不禁让人感慨:AI行业无永恒领跑者,攻守态势转瞬即变。 面对最新的事态发展, AI赛道另一核心玩家Anthropic的首席执行官Dario Amodei日前对其两大竞争对手OpenAI和谷歌进行了一番揶揄,并“炫耀”了自身优势 。 Amodei周三在一场活动上表示, 他的公司认为没有必要宣布这种紧急情况(即发布“红色警报”) 。 “我们如今所处的位置占据着些许优势,这让我们完全可以专注于稳步发展,并持续迭代我们的模型,”Amodei表示。他补充道,Anthropic从未发布过任何“红色警报”。 Amodei表示,Anthropic之所以可能感受到的压力稍小一些,部分原因在于公司产品更多面向企业客户,而非普通消费者。“我们一直在不断优化模型,使其更贴合企业的实际需求。”他称。 他指出,为企业构建模型与打造面向消费者的模型有着本质区别。 “你关注的重点完全不同,”他说。“你更少地关注用户粘性,而更多地关注编码、高智力活动和科研能力。” 尽管Anthropic已在企业级编程领域抢占一席之地,但Amodei透露,公司正计划将业务拓展至金融、生物医药、零售以及能源等更多领域。 Anthropic上个月发布了Claude Opus 4.5,并称这是该公司迄今为止最先进的AI模型。它改进了生成计算机代码和工作文档方面的功能。 不过,Anthropic仍面临着激烈的竞争。谷歌、OpenAI等一众科技巨头均推出了面向办公场景和企业级的产品。众所周知,谷歌是全球顶尖的科技公司之一;而OpenAI手握的资源也比Anthropic更充裕。 质疑烧钱式竞争 即便如此, Amodei仍对谷歌、OpenAI和Meta等公司的烧钱式竞争策略提出了质疑 ——这些公司正不惜重金争夺AI赛道的头把交椅。 “(AI技术的)经济价值将以多快的速度增长存在不确定性,因此,当前行业正面临真正的两难困境,”他称。 他还表示,Anthropic正“尽最大努力,以负责任的态度稳步推进业务”。 “有些玩家完全抱着‘YOLO’(You Only Live Once,意为‘只活一次,放手一搏’)的心态,在竞争中用力过猛,”他表示。
1天前
2

世界太小,不够世界模型们用了

世界模型,已经像这个世界一样混乱了。 OpenAI指着Sora生成的视频说,这就是“世界模拟器”;杨立昆(Yann LeCun)指着Sora,说它是像素幻觉,真正的世界模型应该是“预测未来的抽象大脑”;谷歌DeepMind称,Genie3就是一个“可交互的通用世界模型”;而李飞飞说,“空间智能”才是正解。 现实世界是唯一的、客观的,但AI圈里似乎人人都在制造属于自己的“世界模型”。 尽管定义南辕北辙,但这群吵得不可开交的大佬们,在一个基本判断上达成了共识:大语言模型早晚到头,世界模型才是通往AGI的必经之路。 大语言模型在GPT-3.5之后经历了参数的膨胀,而世界模型在技术路线收敛之前,就先经历了概念的通货膨胀。 世界模型是个筐,啥都往里装 “世界模型”的混乱,根源在于它是一种目的,指的是让AI具备理解外部世界规律,预测世界变化的能力,而非具体的技术路径。 最先混乱的就是概念。 关于世界模型的思想,最早可追溯至1943年认知科学家Kenneth Craik提出的“心智模型(Mental Model)”,即大脑通过构建外部世界的微缩模型来进行预测,换句话说,我们脑中有一个心智模型,不仅能处理当前看到的信息,还能预测“如果我这样做,世界会变成什么样子”。 虽然该理论在20世纪90年代就被引入强化学习了,但真正让它在现代AI领域拥有姓名的,是Jürgen Schmidhuber等人在2018年发表的奠基性论文《Recurrent World Models Facilitate Policy Evolution》。这篇论文首次系统定义了神经网络世界模型的框架,那时它还是一个由视觉组件(VAE)、记忆组件(RNN)和控制器构成的具体架构,在简陋的赛车游戏和二维类射击游戏里训练。 七年过去,随着大语言模型的爆发,对通用人工智能的渴望让这一概念在近两年像“线面”一样繁殖了。 Yann LeCun在2022年提出了以世界模型为核心的“自主智能”,强调通过模块化设计和自监督学习获取抽象表征,并在2023年、2024年先后推出了I-JEPA、V-JEPA预测模型。 李飞飞在2024年提出了“空间智能”理念,创办World Labs,又新发布了Marble,主张世界模型必须具备生成可交互3D环境的物理一致性能力,“对我来说,空间智能是创造、推理、互动、理解深刻的空间世界的能力,无论是二维、三维还是四维,包括动态和所有这些。” 甚至连OpenAI前首席科学家Ilya Sutskever提到的“压缩即智能”,本质上也是认为只要能无损地压缩预测下一个token(无论是文本还是像素),模型内部就构建了一个关于世界的映射。 一个抽象的概念,衍生出了更多抽象的概念。 若剥离这些定义上的争论,从技术方向来看,当前世界模型主要分为两大流派,分别对应了两种截然不同的世界观:表征派(Representation)与生成派(Generation)。 Yann LeCun就是“表征派”,这是一条不产生画面的极简主义路线。 类比人脑中的心智模型(Mental Model),我们对世界的预测和行动,往往是一种直觉,不是物理公式或者具体的画面。基于此,LeCun的世界模型是一个深藏在系统后端的“大脑”,它只在表征处理后的潜在空间里运作,预测的是“抽象状态”。 在这篇推文中,LeCun明确定义了一个世界模型需要同时输入四个变量,对先前世界状态的预估s(t),对当前的观察x(t),当前的动作a(t),一个潜在变量z(t),结合四个变量来预测下一时刻的世界状态s(t+1)。 这个定义有两个关键点,一是世界模型预测下一刻的“状态”而不是画面,二是能针对连续的动作交互进行因果推断。 比如一辆车开过来,它不会在脑海里画出车牌号和反光,只会计算出“障碍物靠近”这一状态。这种模型不为了给人看,只为了给机器做决策,它追求的是逻辑上的因果推演,而非视觉上的逼真。LeCun提出的I-JEPA(联合嵌入预测架构)和V-JEPA,都摒弃了生成式AI“预测每一个像素”的做法,毕竟现实世界充满了不可预测的噪音(比如树叶的纹理),AI不应该浪费算力去生成这些细节。 第二大流派则是目前声量最大的“生成派”,和Yann LeCun最核心的区别就在于,他们要重建、模拟视觉世界。 这一派常常引用一句来自物理学家Richard Feynman的名言:“What I cannot create,I do not understand.——我若无法创造,便不能理解。”也就是说,只要模型能生成对的世界,就证明它懂了世界的物理规律。 2024年初,OpenAI在介绍Sora时就提到,它是一个世界模拟器。OpenAI认为,只要数据量足够大,模型就能通过预测下一帧像素,涌现出对物理规律的理解。通过学习数十亿的视频片段,它记住了“人走路时腿会交替”、“玻璃杯掉落会破碎”的概率分布。 Sora作为世界模型的争议很大,最直接的一点就是它无法回应LeCun对于动作与世界状态的因果律——如果模型只能像放电影一样生成视频,而不能回答“如果我踢了这个球,它会怎么飞”这样的动作交互,那么它可能只是记住了“球飞行的轨迹概率”,而不是理解了“力学定律”。 那么,如果这个视频生成能够根据用户的动作输入,实时预测下一帧呢? 于是,生成派衍生出了更进一步的形态:互动式生成视频(Interactive Generative Video),例如Genie3。 和Sora不一样,IGV的区别在于实时性、可交互性,也就是有了动作(Action)。谷歌DeepMind发布的Genie 3,将其明确定位为「通用目的世界模型」。它允许用户进入场景并与之互动,支持生成720p分辨率、24fps帧率的实时画面。用户可以自由导航,比如以第一人称视角驾驶或探索复杂地形。这意味着模型不仅理解画面,还理解了动作与环境变化的因果关系,尽管目前这个动作仅限于方向按键的上下左右。 最后,则是李飞飞所主张的“3D空间智能(Spatial Intelligence)”,以World Labs发布的Marble为最新代表。 如果说前两者是在处理视频流,那么Marble则是试图从底层构建一个持久的、可下载的3D环境。 这条路线的技术底座更接近于“3D高斯泼溅(3D Gaussian Splatting)”。它不依赖传统的网格建模,而是将世界表征为成千上万个漂浮在空间中的彩色模糊小斑点(高斯体)。通过这些微粒的聚合,模型能渲染出精美的三维画面,并允许用户通过提示词生成、利用内置编辑器自由改造,支持一键导出到Unity等引擎中。 尽管Marble现在离李飞飞所提到的空间智能还很远,但可以看出她认为达到空间智能的第一步,先要建立一个高精度的物理准确的3D空间。我们可以总结一下,区别于Sora,Marble生成的是一个符合物理规律的3D世界,区别于Genie3,Marble不是实时生成的世界,但它的精度和还原度更高。 但这些路线的成果,都没有达到各自所期待的世界模型的模样,甚至彼此间吵得不可开交,也都有一批拥护者,而这也导致“世界模型”的概念外延被无限扩大。 如今,凡是涉及环境理解与模拟的上下游工程,不管是具身智能、自动驾驶、游戏视频等结构化的垂直领域,还是生成式视频、多模态模型、视频理解、3D模型等技术,甚至做视觉信息压缩的DeepSeek OCR,全都主动或者被动地和世界模型挂上了钩。 世界模型越来越像一个筐,啥都能往里装了。 有泡沫也有野心,世界模型是一种“反LLM中心”叙事 如果仅仅是技术路线的不同,不足以解释为何“世界模型”会在今年会井喷。热潮背后,交织着资本的焦虑、技术的瓶颈以及对AGI的渴望。 我们必须先承认,这里面有巨大的泡沫成分。 在创投圈,叙事往往比代码更值钱。当“大语言模型”的竞争格局已定,OpenAI、Google等瓜分了基础模型的天下,后来者和垂直应用开发者急需一个新故事来打动投资人。 “视频生成模型”听起来就是一个工具软件,天花板有限;但一旦改名叫“世界模型”,瞬间就上升到了AGI的高度。 这也是当下AI时代一个有趣的现象:科研人员大规模下场创办公司,学术与商业发生了重叠。 在纯粹的科研世界里,所有的创新都必须建立在严谨的公理之上。如果你要解决一个问题(如实现AGI),你首先必须精准地定义这个问题。然而,当Lab变成了Company,学术大佬们变成了CEO,这种原本局限在期刊里的“定义之争”,就被抛到了商业世界。 在科研中,不同路线可以共存;但在创业公司中,资源是有限的,如果A定义是对的,B公司的几十亿投入可能就打了水漂,一个定义的差异,对应的却是数以亿计的算力投入方向,上下游产业链的备货,投资人的价值重构。 而当我们抛开定义争夺和炒作,世界模型的兴起,也像是一场“反LLM中心主义”的运动。 整个AI行业对大语言模型(LLM)产生了一种集体性的技术焦虑。这种焦虑源于LLM的先天缺陷:它是“离身”(Disembodied)的。LLM是在纯文本的符号系统中训练出来的,它知道“苹果”这个词和“红色”、“甜”经常一起出现,但它从未真正“看见”过苹果,也无法理解苹果掉在地上的重力加速度,更别提随着数据规模的扩大,AI提升的边际效益正在递减。 无论是Ilya Sutskever在离职OpenAI后强调的“超越大模型”,还是李飞飞提出的“空间智能”,核心都在于一点:AI需要从学习“人类说的话”,转向学习“世界发生的事”。行业正在从单纯的文本处理,转向对物理现实的模拟与交互,因为大家都意识到,通往AGI的最后一块拼图,不在互联网的文本数据里,而在真实的物理世界中。 只是希望在世界模型真正出现之前,这个词不要先被玩坏了。
1天前
7

谷歌VS OpenAI:短短三年,“红色警报”发布方互换

中国有句俗语:“三十年河东,三十年河西”。而在当前瞬息万变的AI赛道上,河东河西的角色互换时间,似乎可以压缩到十分之一: 最新的故事,可能得从两份“红色警报”说起: 第一份“红色警报”来自三年前的一家老牌科技巨头,当时其担心一家备受瞩目的AI初创公司;而第二份本周最新发布的“红色警报”主角,则倒过来变成了后者——这家具有先发优势的AI初创公司开始惊慌失措,因为前者的产品已经取得了长足进展…… 相信许多投资者已经猜出了这两家公司的名字——没错,它们就是谷歌与OpenAI。 据业内人士透露,周一,OpenAI首席执行官奥尔特曼在公司内部的Slack备忘录中告诉员工,该公司将启动一项“红色警报”行动,公司将因此向ChatGPT投入更多资源,并推迟其他产品的发布。 该公司使用黄色、橙色和红色这三种不同的颜色代码来描述解决问题所需的不同紧急程度。 这份发给全公司员工的内部通知是迄今为止最明确的迹象,表明OpenAI正面临来自竞争对手的压力,这些竞争对手已经缩小了这家初创公司在AI竞赛中的领先优势。尤其令奥尔特曼担忧的是谷歌,这家公司上个月发布了其Gemini AI模型的新版本,在行业基准测试中表现超越了OpenAI,并使这家搜索巨头的股价飙升。 而很有意思的是,许多密切关注着AI行业的投资者可能依稀还记得,2022年12月——也就是在ChatGPT正式发布后不久,谷歌也曾在公司发布过一份类似的“红色警报”。 据当时被媒体披露的一份内部备忘录和录音显示,谷歌首席执行官皮查伊参加了多次围绕谷歌人工智能战略的会议,并指示公司内多个团队重新集中精力应对ChatGPT对其搜索引擎业务构成的威胁。据悉,谷歌的研究、信任与安全部门以及其他部门的团队当时被命令调整工作重心,以协助开发和推出人工智能原型和产品。 毫无疑问,短短三年时间,“红色警报”发布方的悄然互换清楚地表明,随着谷歌紧追不舍乃至试图弯道超车,OpenAI在AI模型领域的王座似乎正面临威胁。而当OpenAI从“颠覆者”变为“守擂者”,这场AI霸主之争或许也已正式进入了下半场…… 谷歌正迎头赶上 OpenAI目前面临的最大劲敌,无疑是谷歌的Gemini 3模型,该AI模型一经推出便广受好评。 该模型的强大功能表明谷歌在人工智能竞赛中已不再落后。不仅OpenAI感到不安,全球市值最高的企业英伟达近期也因谷歌自研芯片TPU进展的报道,而被迫为自家AI芯片辩护。 从数据来看,自8月份发布图像生成器Nano Banana以来,Gemini的用户群一直在增长。 这家搜索巨头11月宣布Gemini月活跃用户已突破6.5亿,较7月公布的4.5亿大幅增长。相比之下,OpenAI声称其周活跃用户接近8亿——尽管优势依然存在,但领先幅度正在被不断蚕食。 Salesforce首席执行官马克·贝尼奥夫近日表示,因Gemini的“惊人”进步, 他目前已放弃ChatGPT并转投Gemini 3。 “天啊,”贝尼奥夫上月在X平台写道,"我使用ChatGPT已有三年之久。但刚体验Gemini 3两小时,就再也不回头了。(Gemini 3的)这种飞跃简直疯狂——推理能力、处理速度、图像生成、视频处理……所有方面都更敏锐更迅捷。感觉世界又一次被颠覆了。" 据悉,在奥尔特曼最新发布的“红色警报”中,也特别提及了Gemini 3,尽管其暗示OpenAI即将推出的新模型在测试中仍“领先”谷歌旗舰模型,并强调将优先为ChatGPT用户启用OpenAI的Imagegen图像生成模型。 但显然,ChatGPT是否还能保住在大语言模型赛道上的优势,已面临了越来越大的业内质疑声。 近几个月来,OpenAI尤其难以平衡用户对其聊天机器人安全性的担忧与提升用户体验之间的关系。其8月份发布的GPT-5模型也并未获得部分用户的青睐——不少用户抱怨其语气冷漠,且难以回答简单的数学和地理问题。 财务处境天壤之别 从财务角度看,人工智能领域竞争的成本可谓高昂。而与OpenAI相比,谷歌正凭借其广告业务这一“现金制造机”占据绝对优势。 诚然,谷歌计划今年投入910亿至930亿美元资本支出,其中大部分用于人工智能成本。但仅上季度其营收就达1000亿美元——其中741.8亿美元来自广告业务。 同时,与OpenAI不同,谷歌能凭借其庞大规模实现全栈优势,从研发到芯片制造再到内部云平台(承载所有业务)全程掌控人工智能发展。 相比之下,OpenAI目前则尚未盈利,必须持续不断地筹集资金才能生存,这使其在财务上处于劣势,无法与谷歌和其他能够利用自身收入进行投资的科技公司相抗衡。 近几个月来,许多华尔街人士也不断对OpenAI不断攀升的人工智能支出承诺表示担忧,其未来八年支出总额至少达1.4万亿美元。OpenAI的支出也比其主要初创竞争对手Anthropic更为激进,根据OpenAI自身的财务预测,该公司需要将收入增长到约2000亿美元才能在2030年实现盈利。 在最新“红色警报”中,奥尔特曼表示,OpenAI将推迟其他项目的开发,例如广告、用于医疗和购物的AI代理,以及名为Pulse的个人助理。他鼓励团队成员进行临时调动,并表示公司将为负责改进ChatGPT的人员召开每日例会。 然而,这一转变无疑将进一步加剧业内对其盈利时间表将延后的担忧。 OpenAI虽占先机,但谷歌握有平台优势 事实上,客观来说,OpenAI过去近年也并未“虚耗”其先发优势,尤其是今年已取得若干重大突破。 近月来,OpenAI通过旗下TikTok式AI视频生成应用Sora,进军了社交媒体等领域,更主动推出自营浏览器Atlas试图直击谷歌Chrome。 在突破计算资源与能源供应瓶颈的战役中,OpenAI显然也打出了不少“王炸”。面对AI发展所需的庞大算力缺口和巨额资金投入,OpenAI主导了一系列“铁索连环”式循环融资合作模式。 微软、英伟达等美国科技巨头向OpenAI巨额注资,而OpenAI获得资金后,又将其回流用于购买巨头的芯片或云算力。这本质上是一场豪赌算力的游戏。科技巨头们通过深度绑定,试图用资金换取未来的技术垄断。尽管该公司目前仍为私营企业,但其命运已经开始与英伟达、微软和甲骨文等公司的命运息息相关。 这使得在许多人的脑海里,ChatGPT当前仍是最为与AI“紧密关联”的产品——几乎如同谷歌之于网络搜索。 这一先发优势的存在和维持,可能仍有望助推ChatGPT应用下载量与使用率,同时帮助抵御谷歌诱导用户转向Gemini或其他人工智能产品的攻势。 但在另一边,谷歌崛起的势头,显然也已不容忽视。 人类是习惯的“奴隶”,许多人早已养成每日使用谷歌产品或服务的习惯——这家科技巨头目前也正利用平台优势不断吸纳ChatGPT用户。 如今,随着OpenAI明智地开始发出“红色警报”保持警惕,人们得以见证这场人工智能竞赛的升温:曾经的落后者谷歌正逐步掌握人工智能技术,并加速前进。 对OpenAI来说,这则是一个提醒:当面临被颠覆的可能时,像谷歌这样的科技巨头们仍有强大的“底蕴”可以展开相当激烈的抗争——有时,甚至还能扭转局面。 去年五月,奥尔特曼在批评谷歌产品之前曾表示,“我尽量不会去过多思考竞争对手。”而如今看来,那样的日子或许已一去不复返……
1天前
3

日本大爷上山采蘑菇吃完差点没命,大爷:问了AI说没毒才吃的…

众所周知,我国云南有很多人都喜欢上山采蘑菇吃,觉得去山里摘回来的最天然,味道也比买来的更香,但采蘑菇最让人担心的就是误把毒蘑菇当成好蘑菇。最近日本就发生了这样一件事,一位日本大爷自己上山采蘑菇,回家后不知道能不能吃,拍照一问AI说能吃,他就安心吃了,结果却落了个中毒住院的下场。 十一月初的一个清晨,日本和歌山市的一位七十多岁的老人像往常一样早早起床带上了背包和小刀,独自开车去了奈良县下北山村的山里。他年轻时就常去那里,安静、人迹罕至,到了秋季会长出不少蘑菇。他年轻时就喜欢采蘑菇吃,但这些年山里变化大,加上年纪渐长,他也不敢太随便,但遇到看起来像平菇、香菇的还是会会采一点回去吃。 那一天他沿着山路走着,没多久就在一株倒木附近发现了一簇蘑菇。蘑菇颜色发淡,形状、菌盖大小、菌褶的样子,看上去确实像平菇。他继续往山里走,又在几处不同的地方看到了同样的蘑菇,有的长在枯木上,有的长在腐烂的树干附近,形态几乎一致。于是他就想着“这应该是可以吃的吧”,并小心地剪下来几朵,用袋子装回去了。 回到家已经下午了,他把蘑菇摊放在桌上抖去泥土,越看越觉得就是大家常吃的平菇。可毕竟不是百分之百确定,他也怕万一弄错了就完了,于是第二天一早,他就拿起电话试着打给附近的植物园、研究机构等能提供蘑菇鉴定的地方,却一直没能联系上。大爷不想浪费难得采到的蘑菇,犹豫着要不要吃。 这时他想起,电视广告、网络上都在说的AI识图,可以帮忙识别各种植物、鸟类、昆虫等。大爷平时用手机也很溜,就把采到的蘑菇摆好,一朵朵拍照上传到AI识别应用里。几秒钟后,软件跳出结果:显示为“平菇,可以食用”。 看到那行字大爷一下安心了,他把蘑菇拿到厨房,洗干净,切去根部,用小火慢慢煎得香味四溢。蘑菇煎熟后,他还是有些担心,但夹起一块尝了,觉得口感和平菇确实差不多,也没有什么异味。于是他把整盘都吃了,觉得这趟山里之行没有白费。 大约半小时后,大爷突然感到胃里翻江倒海一样开始恶心,紧接着剧烈想吐。他赶紧去了卫生间,呕吐得脸色发白,浑身冒汗。家人见情况不对,立刻拨打急救电话。送到医院时,老人已经虚弱无力,医生初步判断为食物中毒,需要马上治疗。幸运的是抢救及时,住院观察一段时间后病情稳定下来,几天后终于康复。 大爷出院后觉得就是自己吃的那些蘑菇在作祟,把之前剩下几朵没吃的蘑菇送去了医院。医院立即把这些残留的蘑菇送往县立自然博物馆以及和歌山市的卫生研究所进行检测与判定。 没过多久,结论出来了:那些蘑菇不是平菇也不是香菇,而是“月夜茸”,一种外观与平菇十分相似的毒蘑菇。月夜茸有自己的特征,比如菌褶连接柄的地方有显著的隆起带,菌肉内部有的有黑色斑点,不过也有没有黑斑的,这就增加了误判的几率。另外,它的毒素即使经过加热也不会消失,因此单靠烹饪无法去除毒性。大爷吃进去的正是这种蘑菇,所以才会中毒。 如果把采来的蘑菇送去让专业人员鉴定,也许只要几秒钟就能判断出其中的差别,可对普通人来说,就没有那么简单了。大爷一直认为自己已经足够谨慎,既没凭印象直接吃,也试图联系专业机构,最后还借助了现代技术来确认,然而却是AI给出的结论让他把剩下的警惕完全放下了。 事后,卫生部门在对媒体通报时特别提到这起案例。他们指出,大爷中毒并不是因为蘑菇有多稀罕多危险,而是因为月夜茸与常见的食用蘑菇实在太像了,而且AI识别技术在野外蘑菇鉴定方面并不可靠。 对此日本网友也是感同身受。 “蘑菇很可怕吧?根据照片的拍摄方式,有些东西也会变得难以判断。拍了各种角度的照片去Google搜索,也会出现几种候选结果吧?可是为什么没有出现‘有可能是毒蘑菇’这样的提示呢。我觉得总之关于蘑菇这方面,外行人是绝对不能随便碰的。” “蘑菇的外观会随着生长环境发生很大的变化,所以我认为要么就买市面上卖的蘑菇,要么在野外采的话也只能采每年一直在固定地点采的那种,否则就很危险。 大家熟悉的金针菇,在自然界里生长的话颜色可能是深褐色的;又有某种蘑菇,外观几乎一模一样,而明确的鉴别方法竟然是滴试剂,如果变色就说明不能吃……就是这种程度的差异。” “估计AI是只根据图片来判断的吧,但我听说光凭外观就算是专业人士也无法做出完全准确的判定。其实像采集地点、拿在手里确认等额外信息都是必要的,但AI往往会根据现有信息直接做出判断,所以轻易相信还是存在风险的。 不过让它识别路边看到的花、动物或飞机之类的还是挺有趣的。就算认错了也只是当个玩笑就算了的范围内,那就可以轻松地使用它。” 幸好大爷最终平安回家,但这件事也再次提醒了所有喜欢野外采蘑菇的人,吃进肚子里的东西绝对不能凭印象、凭运气,更不能把判断完全交给AI。 在云南这样的事也不少见,大家更要注意科技再先进,也终究只是辅助,无法替代专业人员的经验与知识。如果无法百分之百确认是食用蘑菇,就不要采、不要吃、不要卖,也不要送人。生命只有一次,谨慎一点永远不会错。
2天前
35