前沿科技

美摄诉抖音系列案件:诉讼之外的行业反思

一个程序员能闯多大的祸?字节跳动最近给我们提供了新的案例。2025年2月13日,美摄发布声明宣布,起诉字节跳动的代码抄袭系列案件,近日获得终审判决,最高人民法院判处抖音赔偿经济损失约8266.8万元。事件的源头是一名曾在美摄工作过的工程师,他在离职两年半后入职了字节跳动,并在工作期间使用了部分在美摄时编写的代码。由于该案件属于秘密诉讼,相关判决未在裁判文书网公示。不过这并不影响本案,因数千万的高额判赔、及涉及抖音这一明星公司而产生的巨大影响。即使与之前美摄所诉求的22.74亿元赔偿相比,法院判决的最终结果相差甚远。风波因何而起?美摄是一家北京的网络科技公司,创立于2014年,主要产品美摄APP是一款短视频拍摄与制作工具。2021年美摄表示,字节跳动旗下的等多款产品,对其代码存在抄袭。之后美摄在中国和美国分别对字节跳动提起诉讼。在国内,美摄公司以侵害计算机软件著作权为由,就字节的8款产品,分别向北京知识产权法院、北京市高级人民法院提起诉讼,同时也向北京市高级人民法院就抖音公司及其员工提起侵害技术秘密诉讼。这些案件最终上诉到最高人民法院,并以总计超过8000万的判赔宣告结束。程序员在不同项目使用相同的代码,对小公司和个人用户来说并不稀奇。业内常有这样的调侃:程序员的工资,一半来自于知道复制粘贴,而另一半,来自于知道在哪里复制粘贴。但在互联网大厂,代码抄袭却是明令禁止的雷区,因为声誉的影响具有溢出效应,抄袭风波对于大厂带来的伤害远远超过中小企业。而且代码相关的软件著作权与专利不同,想要实现相同的功能,其实有无数种代码完成的方式,以大厂的人才规模,并非没有解决之道,因为抄袭而被诉和损害口碑很不划算。抖音副总裁李亮在微博上也写道:“这种行为,属于严重违规,公司是明令禁止的,目前该员工也已经离职。”他还表示:“事发之后,我们针对技术人员组织了多次合规培训,还对历史代码进行了系统排查。字节是一家致力于技术创新的科技公司,我们坚决反对和禁止这种不合规的行为,因为只有创新才能带来真正的竞争力,这也是很多同事每天在做的。”李亮的态度并不难理解,因为这种事件的发生,肯定是抖音不希望看到的。首先,涉案代码仅限于音视频编辑功能,不涉及抖音最核心的推荐算法等技术。根据司法鉴定,本案中重复代码占比其实并不高,仅占抖音某一模块相关函数的0.8%,不超过美摄软件的4%。其次,在事件发生之后,抖音也很快替换了相关代码,证明这部分代码并不具有不可替代性,对抖音的影响没有那么大。要知道,抖音早已是个综合性APP,目前涵盖了视频、压缩、传输、交互、直播、网购、支付、图文、小程序等各种功能,这里面绝大多数功能,是美摄APP压根就不具备的。但从事件的影响来看,无论案件实际涉及的问题有多局部,伤害的都是抖音及其母公司字节跳动的整体技术品牌。这个道理,抖音不可能不明白,不至于故意去做风险收益明显不匹配的事。至于高薪挖人窃取商业秘密更是不合逻辑——相关程序员从美摄离职两年半后,才加入抖音。在互联网技术更新迭代如此之快的今天,真为特定技术挖人的话,不会等这么久。比较合理的解释是,相关程序员图省事直接用了之前的代码,而抖音内部管理上存在漏洞,没能自己发现,直到被美摄起诉才更新代码。2023年,字节跳动员工总数已达12万,规模之庞大在国内大厂中已仅次于阿里巴巴,而高于腾讯。而据《每日经济新闻》报道,去年前10个月,字节跳动蝉联新发岗位数量第一,其人才储备与需求都相当旺盛。而在去年,字节跳动仅在AI研发的投入就高达800亿,已逼近BAT三家AI研发之和。这种对于研发和创新大力投入的魄力,是过去字节成功的关键。在此背景下,美摄案的败诉,对抖音无疑是个重要提醒,至少在技术品牌的塑造上,研发人员的合规管理与资源投入同样重要。诉讼之外美摄与字节的法律战,目前在国内的部分算是告一段落,这一案件对中国互联网行业无疑会起到标志性的作用,背后透露的许多问题,也值得其他互联网公司借鉴。像字节这类大厂,日常项目数量多,员工规模大,本身的管理就是一项异常艰巨的挑战。同时,程序技术人员的流动率很高,在离职时没有做好相关的技术资产交接,或者没有明确的离职协议,极易发生“代码带走”的情况,进而引发一系列的技术抄袭争议。其实不止国内大厂,2022年微软和Open AI也曾因为在训练中违反开源协议未经授权使用的代码被一群程序员告上法庭,谷歌更是和甲骨文因为代码打过一场长达十年的官司。而目前,仅GitHub上的项目规模就已经超过了4亿个,其他未开源的项目数量更是数不胜数。从企业的角度,想要通过审核机制杜绝代码雷同,其实没法100%实现,只能尽力而为——对于其他公司的闭源代码,企业不掌握可供对比的样本,对于雷同代码也很难直接识破。在这个背景下,大厂除了本身加强管理审查的被动防御机制之外,更多还是要通过合规培训和管理手段提高员工的合规意识,让员工能够充分意识到代码属于公司敏感资产,不能迁徙和照抄。企业在岗前培训和离职交接中,都应该对这些敏感问题反复强调。而对于美摄而言,这次法院的判决结果,则是帮助它名利双收。8000多万的赔偿金到账后,已经与美摄在2018年获得的Pre-A 轮融资等量齐观。而从2020年获得B轮融资以来,美摄一直未能找到新的投资者,在互联网VC普遍转向AI概念的当下,这笔现金对企业发展意义非凡。至于美摄一开始的20亿天价索赔,更是远远超过了其正常营收,最终并未获法院支持。另外,通过持续的诉讼和与字节的关联,美摄的名字被更多的业内人士和公众熟知。这对于一家相对小型的公司而言,无疑是一次难得的品牌曝光机会,也会为它赢得一些潜在的客户、合作伙伴和投资者。如此看来,无论是从市场曝光、利润获取,还是品牌形象的塑造来看,这场官司对美摄公司,都算得上是一次深具战略价值的“投资”了。
3小时前
13

2025年会是人形机器人的量产元年吗?

人形机器人从概念走向现实的速度,开始陡然加快。2月11日,杭州宇树科技有限公司在其京东官方旗舰店上架了两款人形机器人产品,型号分别为Unitree H1和G1。2月12日,9.9万元起售的G1人形机器人首批销售订单就已售罄。在工厂里,人形机器人已取得不少实训成果。深圳市优必选科技股份有限公司相关负责人告诉记者,在比亚迪汽车工厂,优必选Walker S1人形机器人第一阶段实训工作已初步取得成效,效率提升了一倍,稳定性提升了30%,相关优化工作还在持续进行中,预计在2025年第二季度具备规模化交付条件。这名负责人表示,在吉利,Walker S1也已经完成了在极氪宁波工厂第二阶段的工作。基于前期Walker S1的表现,吉利集团已经安排Walker S1在领克进行第三阶段实训工作,主要进行充电枪的插拔测试和物料搬运实训;在富士康,Walker S1亦已经完成第一阶段物流场景的搬运任务,第二阶段会在物流场景覆盖更多的区域,进行相关任务的测试。从2013年美国波士顿动力公司首款人形机器人Atlas亮相至今,人形机器人产业已经走过了十余年的发展历程。从Atlas后空翻的炫技时代到Walker S精准抓取汽车线束的实用时期,人形机器人产业终于迎来商业化前夜的重要时点。人形机器人在商业化之前的最后一个挑战,就是量产。批量生产2月6日,特斯拉在其公司官网上更新了多个与人形机器人相关的岗位招聘信息,岗位类型涵盖工程师、流程主管、生产经理等多个方向,职位名称后都标注了“Tesla Bot”的信息。这些岗位的工作地点位于特斯拉在美国加州的弗里蒙特工厂,该工厂是特斯拉最大的制造基地之一。2024年,特斯拉在弗里蒙特工厂投入了多台其自研自产的Optimus机器人,主要负责搬运和电芯分类、车身焊接和零件安装等任务。“特斯拉正在大规模制造人形双足机器人,以自动执行制造/物流中重复而枯燥的任务。”特斯拉在上述岗位的招聘信息详情页中写着这样一句话。此前,特斯拉首席执行官埃隆·马斯克已明确提出了Optimus人形机器人的量产目标:计划于2025年生产1万台,在2026年下半年开始向特斯拉以外的公司交付Optimus机器人。“我认为Optimus有潜力带来超过10万亿美元收入的机会。”美东时间2025年1月29日,在特斯拉2024年第四季度的财报电话会上,马斯克如是预估了人形机器人的商业化潜力。在这场电话会上,马斯克对推动Optimus量产表现出了超乎预期的迫切和乐观:“这是一个指数级的增长过程,从没有人使用人形机器人,到这些机器人像潮水一样涌现。我们永远都会处在‘我们做不够’的状态。即使价格很高,需求也不会是问题。”马斯克同时强调,目前特斯拉设计的生产线每月大约生产1000台Optimus机器人,下一条生产线的目标是每月1万台,而再下一条生产线的目标则是每月10万台。在国内,多家人形机器人企业陆续官宣了各自的量产消息。2025年1月17日,乐聚机器人技术有限公司在北汽越野车公司举行了乐聚第100台全尺寸人形机器人交付仪式。该公司表示,乐聚人形机器人已迈入批量交付新阶段。2025年1月6日,智元机器人量产的第1000台通用具身机器人正式下线,其中,双足人形机器人累计产量达到731台。“优必选工业人形机器人Walker S已收到车厂超过500台的意向订单,目前正处于产业化落地的关键阶段,预计在今年第二季度具备规模化交付条件。”2025年1月10日,上述优必选相关负责人告诉记者。此前,优必选在多个知名汽车工厂开展了人形机器人实训,与东风柳汽、吉利汽车、一汽-大众青岛分公司、奥迪一汽、比亚迪、北汽新能源等多家车企,以及富士康、顺丰等知名企业展开人形机器人实训合作。2025年1月初,来自深圳众擎机器人科技有限公司的SE01机器人在街头行走测试的视频走红于短视频平台。公众惊叹于人形机器人已经能实现与人类一样的自然步态。1月22日,经济观察报记者在众擎机器人进行调研时,该公司联合创始人兼市场营销负责人姚淇元表示,众擎多款机器人计划于2025年批量交付。“在人形机器人产业,我们已经突破了‘从0到1’;‘从1到100’,有些人已经突破了,甚至开始走到‘100到1000’的阶段了。”姚淇元说。人形机器人产业从技术验证转向商业闭环所需要的关键一跃,就是量产。量产除了能印证市场已拥有足够潜力之外,对于整个行业来说,通过规模效应降低成本、优化模型与结构设计也具有重要意义。但在姚淇元看来,百台、千台级别的量产都属于小批量生产,“这样的量级对于整个供应链的打磨,还没有办法达到一个跨越式的迭代跟升级,也没有办法通过这样的量级来做颠覆性的结构化的调整。”深圳一家机器人企业的市场总监也告诉记者,根据产业演进规律,人形机器人的量产进程可划分为两个关键阶段。第一阶段,当产量达到10万台时,此时核心目标在于验证技术可行性而非成本控制,主要替代制造业中10%的长尾工况工位,其成功关键取决于硬件层面的运动控制稳定性与生产连续性保障,以及软件层面封闭场景下的特定任务执行能力。第二阶段,当产量突破100万台后,标志着大规模量产阶段的开启,此时硬件成本需降至低于单个工人的年均人力成本,软件系统需实现跨场景泛化能力的技术突破,使机器人应用场景从智能制造工厂延伸至服务业与家庭领域。马斯克在上述财报电话会上表示,当年产量达到100万台时,Optimus机器人的单价有望降至2万美元。当然,人形机器人当前所面对的市场规模并不清晰,大规模量产尚需时间。东吴证券在近日发布的一份研报中指出,由于下游客户测试和研究需求旺盛,预计伴随国内企业订单交付,2025年全年国内人形机器人销量有望接近万台。根据高工机器人产业研究所数据,2024年全球人形机器人市场规模为10.17亿美元,到2030年全球人形机器人市场规模将达到151亿美元,从2024年至2030年,全球人形机器人销量将从1.19万台增长至60.57万台。软硬件挑战有业内人士告诉记者,对于人形机器人产业链而言,想要迈向真正大规模量产的阶段,在硬件及软件端还有两大挑战亟待突破。人形机器人产业链上游的硬件壁垒主要集中在三大核心部件:驱动单元、传感系统及控制模块,其中行星滚柱丝杠的产能瓶颈较为突出。作为线性关节的核心传动部件,目前单台人形机器人需搭载10到14个行星滚柱丝杠,其价值量占关节模组的20%、整机的5%至8%。由于制造工艺涉及高精度旋风铣床及特种合金钢材料,市场份额长期被瑞士GSA、Rollvis与德国Rexroth等企业主导。“如果人形机器人要实现百万台产量,行星滚柱丝杠的需求量可能就要达到千万件级别,现在的产能情况不太够。毕竟在人形机器人应用丝杠之前,这是个小众产品和小众市场,市场规模也就几十亿元左右。”深圳一家中型机器人企业的研发人员告诉记者。根据觅途咨询数据,2023年中国丝杠市场规模仅约25.7亿元。值得注意的是,眼下多家国产厂商已开始投建行星滚柱丝杠项目。根据公开信息,2025年1月3日,杭州新剑机电传动股份有限公司举行年产100万台人形机器人行星滚柱丝杠产业化项目奠基仪式,该项目将分两期建设,总投入26亿元,其中一期投入10亿元,形成年产100万台人形机器人行星滚柱丝杠智能物联制造产线。2025年1月15日,宁波震裕科技股份有限公司披露的投资者关系活动记录表显示:公司已建成一条行星滚柱丝杆半自动产线并投入批量生产,日产能已拓展到50套,自建丝杆综合测试实验室已投入使用,可自主完成对丝杆导程精度、传动效率、万次寿命跑合等关键参数的检测及验证。为满足市场的需求,公司已开始建设第二条半自动量产线,预计2025年第一季度投入使用。基于行业客户对丝杆组件精度一致性的高要求,公司还将建设一条集加工、在线检测、装配于一体的全自动丝杆生产线,进一步提高从1-N大规模量产的一致性及稳定性。“公司比较认同机器人产业链未来是一个能够比肩新能源电动车产业链的长期赛道的观点。产业发展初期包括公司在内的相关零部件产业链厂家都是在证明自己能做及能做好的能力,产业发展中后期则需要验证公司在保证大规模生产质量一致性的前提下持续降本的生产工艺能力。”在上述调研中,震裕科技管理层人士如是强调人形机器人量产为行业带来的机遇。“人形机器人产业发展的下一步,除了需要供应链的持续打磨,在软件端,还需要算法模型的持续进步,以实现功能提升与应用场景的拓展。”姚淇元告诉记者。在姚淇元看来,人形机器人依赖于三大核心组件:大脑、小脑和本体。大脑负责高层的决策和智能处理,小脑则负责运动控制,而本体则是机器人的物理躯体,承担着具体的运动任务。2025年以来,国产大模型DeepSeek的爆火再次展现出人工智能大模型在大脑部分的应用潜力:AI大模型通过预训练和调参不断提升其泛化能力,特别是在参数达到百亿级时,机器人开始展现出复杂的思维链,实现不同任务环境与场景下的自适应能力。“小脑和本体部分仍然是当前研发的瓶颈。”姚淇元表示。姚淇元告诉记者,人形机器人小脑的技术需求集中在复杂地形下的运动能力和鲁棒性上。而现有的运动控制算法和控制系统面临着诸多挑战,尤其是在全身协同精细作业的实现方面。另一方面,仿生自然步态的速度负载、低漂移量、低噪声、低功耗以及自恢复能力,也是当前小脑技术亟待突破的关键问题。为了提高运动性能,机器人的小脑系统需要高保真的建模和仿真技术,以及多体动力学建模与在线行为控制能力,这对于实现机器人的仿生运动行为和全身协同运动的自主学习至关重要。目前,人形机器人小脑系统的研发相较于大脑要困难不少,其中核心问题便是小脑的训练数据集较为稀缺。“真实的数据对于人形机器人企业来讲很重要。如果这种实时数据的收集都需要机器人本体公司去做,现实生活中的场景这么多,一个公司就算有再强大的算力也不可能‘吞’得下去。”姚淇元说。有业内人士告诉记者,人形机器人运动控制涉及高度动态和复杂的物理环境,与大模型处理图像、文本等数据不同,机器人需要在真实世界中完成运动任务,这就要求小脑系统在训练时考虑各种不同的环境变量,如地形、障碍物、物体交互、不同的操作任务等,每个动作、每一步决策都可能产生不同的反馈,传统的模拟数据无法完全覆盖这种高维度、多样化的场景。记者在采访与调研过程中还了解到,机器人小脑的训练过程不仅仅是基于静态数据的分析,更多是依赖于机器人在实际运行过程中与环境的互动。数据的采集不仅需要在不同环境中进行,还需要捕捉到机器人的每一次细微运动及其与环境之间的反馈关系。相比于图像识别或语音处理,机器人的动作数据更加复杂,且高度依赖于具体的硬件配置、运动策略以及控制系统的调节,这使得针对运动控制系统的训练数据集更加稀缺。形态之争继续在2025年初走访深圳多家机器人企业的过程中,记者注意到,并不是所有的机器人公司都对人形机器人这一产品抱有乐观的看法。深圳一家机器臂上市企业的市场负责人告诉记者,人形机器人可能更适合家庭场景,而在工业领域则不应拘泥于人形概念;另一家主要产品为扫地机器人的企业市场负责人亦表示,其所在公司认为人形机器人产业现阶段尚不具备商业化条件,并无意于切入这一赛道。上述机器臂企业市场负责人解释其对机器人形态的理解:“四足或轮式机器人在平坦地形中的移动速度可达人形机器人的2至3倍,能耗降低50%以上,且控制算法复杂度大幅下降;非人形机器人硬件成本通常为人形机器人的1/3至1/5,在物流分拣、仓库搬运等场景中已实现规模化应用;工业场景中70%的任务可通过固定机械臂或AGV完成,人形机器人的通用性优势在高度结构化环境中难以凸显。”机器人的形态之争,本质上是技术路径选择与商业逻辑的深层博弈。姚淇元向记者表示,人形机器人的核心价值在于泛用性与环境兼容性,人形形态是实现机器人通用性的理想载体,其双足移动与多自由度手臂设计,能够覆盖制造业、服务业乃至家庭场景中绝大多数的交互需求。此外,人类社会的物理环境——从楼梯高度到工具尺寸——均以人体工学为基准构建,人形机器人天然适配现存基础设施,无需额外改造场景即可无缝接入。“机器人要更好地去适配我们所在的世界,不然它的功能就是单一的,只能把这一件事情做好,像扫地机器人一样,变成了一个工具。机器人的未来应该是通用的,可以变成不同的角色。”姚淇元说。眼下,也有业内人士提出“功能驱动形态”的折中路径,即通过标准化接口实现模块化组合,使机器人能够根据任务需求动态切换形态。例如,在工厂车间使用轮式底盘提升效率,进入家庭环境时切换为双足形态以适应楼梯与窄道。无论如何,“机器人伙伴”离人类是越来越近了。
8小时前
5

测试过微信接入的DeepSeek R1,才知道腾讯押注AI应用的野心

微信自2011年推出以来,一直以创始人张小龙的“克制”而闻名,不会为了“风口”而改变微信本身。甚至今天你刷朋友圈的体验,都与十年前朋友圈刚刚诞生时没有本质的区别。“张小龙觉得对这个功能自己最满意的地方之一,就是一经发布几乎没有改进余地而稳定运行了十年。”极客公园创始人张鹏在与张小龙对话后,这样总结微信的产品逻辑。这一点在微信成为真正意义上的“国民社交App”之后,也没有发生改变。而在DeepSeek R1发布后,这些标签就像面具一样,被微信团队自己猛然撕下:北京时间2月15日晚间,陆续有用户发现,在自己的微信搜索中,出现了整合了DeepSeek R1的“AI搜索”功能——此时距离在1月20日DeepSeek正式发布并开源R1,还不到一个月。在微信搜索界面中,就能看到AI搜索按钮|图片来源:极客公园收到本次更新的用户,在微信主页顶部的搜索栏中点进去,就能在搜索记录下方看到一个“AI搜索”的按钮,点击进去,其中就能看到这个功能提供的两个回答模型能力选项。第一个名为“快速回答”,第二个就是由开源的DeepSeek R1驱动的“深度思考”模式。共有两个模型选项,其中第二个才是由DeepSeek R1驱动的版本|图片来源:极客公园值得一提的是,虽然本次为只有部分用户收到的灰度更新,但从推送范围以及收到更新的用户分布广度来看,本次更新的推送速度相比近期微信的Callkit等同样经历过灰度的功能更新,推广速度要快许多。从最早的爆料出现,到首批收到推送的用户大规模出现,仅用了不到六个小时。彻底颠覆了过去数年微信功能更新给人“保守”的印象。本次更新并不绑定软件本身的版本号,因此无需你从App Store或其他应用商店更新微信版本,笔者自己则是在手动清除掉手机的微信后台,重新启动后,就发现了这个入口。换言之,如果你手机上的微信当前还没有收到这个更新,也不用太着急——你微信中的DeepSeek R1入口其实已经隐藏在代码之中,测试资格或许马上就到。从功能附带的开源与鸣谢声明中能看出,微信中内置的DeepSeek R1基于开源版本构建,但并未明确提及其使用的模型体积,是否是671B的“满血”R1版本。微信“AI搜索”功能的开源声明页|图片来源:极客公园众所周知,包括公众号/视频号在内的微信内容生态长期以来一直是独立于各大搜索引擎的一个“孤岛”,这个情况在ChatGPT4o等联网语言模式问世之后也没有得到改善,因此测试微信内置的R1,我最兴奋的就是它是不是终于可以在微信内容平台的海洋中,使用大模型的能力自由翱翔了?很遗憾,在目前的实际的测试中,答案是否定的。例如,我尝试将公众号的微信推文链接喂给它,它也无法检索微信平台中的相关信息,只能根据链接中相关的字段在微信公众平台之外的互联网上搜索相关的内容,甚至有些时候它都无法识别出这是一篇来自微信公众号文章的链接。当前版本的AI搜索,还不能识别微信内容的链接|图片来源:极客公园在其他涉及微信公众号相关的问题中,虽然AI搜索能够依据文章搜索以及R1的推理能力给出相对准确的回复,但其内容的来源更接近微信公众号在其他平台分发得出的结果,而非对微信内容平台自身结果的引用。针对微信平台内容的回答,更多是基于互联网现有内容整合而来|图片来源:极客公园目前来看,微信内置的R1并未针对微信平台内的内容进行检索增强生成,对输出结果进行优化。这既是当前阶段内测版本微信AI搜索的明显短板,也是短期内微信整合AI功能显而易见的重要更新方向之一。总体来讲,目前的微信AI搜索体验也非常轻量级。不仅不支持连续对话,也不支持上传各种文件内容辅助提问与搜索,甚至在你退出聊天界面后,当前的对话记忆内容也会被直接销毁,不支持保留。作为“国民应用”的微信,在DeepSeek R1正式发布并开源的不到一个月时间内,就在应用内整合了入口,这无疑是一件让人振奋的事。之所以让人振奋,是因为微信在做的事只有少数厂商能做到。在对话生成式模型拥有手机端App之后,抢占智能手机桌面的入口已经是包括ChatGPT、Perplexity等很多AI应用在做的事情,通过设置其成为默认语音助理的方式,将“入口控制权”尽可能从手机品牌那里抢夺而来。但对于微信这样相对封闭的平台来说,能依托微信现有的庞大中文内容生态,做并且能做好这件事的,目前看来似乎只有微信团队自己。从“极端保守”到如今成为率先加入DeepSeek的聊天应用。这样明显的改变,只有一种合理解释:微信团队认识到了DeepSeek R1所代表的推理模型在微信平台中应用的巨大潜力,并决定快速下场,来成为这场改变浪潮的主导者,确保微信的使用体验不落后于其他竞争者。这已经不是微信团队第一次在AI大模型领域出手,微信输入法曾在去年六月加入“一键AI问答”功能,用于让用户在微信输入法内实现语言大模型的内容回答。但彼时这个功能是基于腾讯自家的混元AI大模型实现,不能充当文本生成工具。微信输入法中现有的“问AI”功能|图片来源:极客公园从体验上来讲,微信输入法适合各种聊天中的“灵光一现”问题,微信本体的AI搜索,有很大可能将会聚焦在微信现有的内容生态,借助用户聊天内容以及微信公众号等平台,深度挖掘其中的应用场景。这样的“分布式”的AI能力体验,倒是与Apple Intelligence的产品思路有异曲同工之妙:在去年苹果发布的Apple Intelligence能力中,苹果并没有颠覆性地拿出另一个能力震惊世界的模型,而是选择借助ChatGPT这样现有的模型,将模型能力嵌入在包括笔记、照片以及输入法等手机生态的各个角落。苹果Apple Intelligence“散落”在各个应用中的AI能力|图片来源:极客公园表面上,Apple Intelligence似乎不如同期Google、OPPO这样同样在发力手机AI应用的厂商更加聪慧,但苹果实际上在做的,却是让AI尽可能“悄无声息”地加入用户生活,并借助能力给用户更多的使用场景带来改变。从这一点上来看,没有手机操作系统的腾讯,虽然在移动互联网时代错失了最重要的入口之一,但微信作为如今重要的沟通平台,却成为了“让AI真正普及”过程中不可或缺的重要一环。在中国,上至百岁老人、下至刚刚学会用智能手机的孩童,都已经对微信有了最基础的使用概念,这些功能中,同样也是最适合AI能力去进一步做“润滑”、降低AI学习成本的关键所在。对于已经走过爆发点的生成式AI来讲,如今通过探索AI应用的普及,从而让AI能力在更多用户的长期使用中“产生质变”,才是微信AI真正值得我们期待的未来。甚至当下我们就已经可以下定论:微信中的AI能力,或许不会是最让人兴奋的那个,但它却有最大的机会真正去“改变世界”。
13小时前
29

Meta准备砸钱进军人形机器人领域

知名科技记者马克·古尔曼(Mark Gurman)撰文表示,在先后进军增强现实(AR)和人工智能(AI)领域后,科技巨头Meta确定了公司的下一个大赌注:AI人形机器人。古尔曼写道,知情人士透露,Meta正在对这一类别进行大量投资,并在其硬件部门“Reality Labs”内组建一个新团队来开展这项工作。Meta计划开发自己的人形机器人硬件,初期将专注于家务。知情人士称,Meta更大的野心是为机器人制造底层人工智能、传感器和软件,以供其他公司制造和销售。Meta已开始与包括Figure AI在内的机器人公司讨论其计划。知情人士补充称,至少在最初阶段,Meta还不打算制造一款Meta品牌的机器人与特斯拉的Optimus竞争,但他可能会考虑在未来这样做。古尔曼写道,Meta周五(2月14日)向员工确认了新团队的成立,并告诉他们新团队将由Marc Whitten领导。本月早些时候,Whitten辞去了通用汽车旗下自动驾驶汽车公司Cruise的首席执行官的职务。报道称,Meta首席技术官Andrew Bosworth在备忘录中写道,“我们已经在Reality Labs和AI领域投资和构建的核心技术,对于开发机器人技术所需的进步起到了补充作用。”Meta高管认为,虽然人形机器人公司在硬件方面取得了进展,但Meta在AI以及从AR设备收集的数据,可能会加速这个新兴行业的进步。当前的人形机器人还无法做叠衣服、洗碗等家务,导致消费者兴趣不大。Bosworth写道,“我们相信,扩大我们的投资组合,押注这一领域,只会为Meta AI以及我们的混合现实和增强现实项目带来价值。”一位知情人士表示,Whitten手下今年将招聘约100名工程师。据参与项目的一位人士透露,Meta正在开发的软件、传感器和计算包,与为人形机器人提供动力所需的技术相同。Meta也将制造一些自己的硬件,并准备与现有制造商合作。其中一位透露,公司正在将其工作定位为机器人开发的首选平台,目标是让Llama软件成为全球机器人研究人员的基础。古尔曼称,Meta的目标更像是谷歌为手机行业提供安卓操作系统,高通提供芯片这样的事情。与电动汽车的自动驾驶技术相比,人形机器人的安全风险较低,但也需要大量的数据和AI处理。Meta高管认为,机器人要更具挑战性,因为每个人的家都有不同的布局,与之相比,城市街道符合一定的标准。上月,扎克伯格发帖称,他预计Meta在2025年的资本支出为600亿至650亿美元。同时公司计划“大幅”扩大人工智能团队。扎克伯格还称,“我们有资本在未来几年继续投资”。除此以外,Meta还将寻求开发机器人安全工具,解决可能存在的危险,例如人类的手被人形机器人的部件卡住这类情景。
1天前
2

在深海发现能量惊人的幽灵粒子

2023年2月13日,位于地中海海底的立方千米中微子望远镜(KM3NeT)探测到了迄今为止能量最高的中微子。这一超高能中微子事件被记录为KM3-230213A。2025年2月12日,KM3NeT合作组正式在《自然》杂志上发表了这一发现。位于深海的探测器KM3NeT是一项由21个国家的300多名科学家和工程师共同建造的大规模深海实验。它由两组深海光学传感器探测阵列组成:ARCA:位于意大利西西里岛的海岸附近的3450深处,主要用于高能天体物理研究。ORCA:位于法国沿海海域的2350深处,主要研究中微子振荡。KM3NeT在海底的艺术构想图。(图/Edward Berbee, Nikhef)这两个探测阵列都由垂直的检测线组成,这些检测线固定在海底,并按网格排列。目前,在计划安装的345条检测线中,已有约50条投入使用,每条检测线均配备18个球形光学传感器模块。当全部建成后,KM3NeT将由6000多个这样的传感器悬挂在深海中,探测范围覆盖约一立方千米的海域。图片显示研究人员正在实验室中校准一个球形光学传感器模块。(图/N Busser / CNRS)探测中微子中微子是一种质量极小、不带电荷的基本粒子。由于它们与物质的相互作用极其微弱,因此它们可以轻易穿透数千千米的海水,甚至整个地球,几乎不会留下任何痕迹。因此,中微子常被称为“幽灵粒子”。在已知的所有粒子中,也只有中微子能够抵达深海中的KM3NeT探测器。KM3NeT所处的深海环境不仅可以屏蔽普通光源,还能阻挡电子、质子等高能粒子,使望远镜能够专注于中微子探测。由于中微子几乎不与物质相互作用,因此大多数中微子都会毫无痕迹地穿过探测器。但在极罕见的情况下,中微子会直接撞击水分子,释放出能量。这种能量会激发次级粒子,而这些次级粒子在水中高速运动时,会发出蓝色切连科夫辐射,能够被KM3NeT的探测器捕捉到。当高能粒子穿过KM3NeT时,探测器会记录下蓝色闪光。科学家可以据此计算出粒子的运动速度及来源方向。(图/KM3NeT)通过分析这些蓝色闪光,并精确测定其时间,科学家可以重建中微子的初始能量及其来源方向。最高能事件2023年2月13日,位于意大利站点的KM3NeT探测到一个高能量事件。当时ARCA探测器阵列记录到一个极高能量的µ子,并计算出这个µ子的能量约高达120拍电子伏特(1 PeV=1×10¹⁵eV),这一数值远超此前的探测记录。不仅如此,该粒子的来源方向也极为特殊。通常,µ子由宇宙线撞击地球大气产生,因此大多数µ子是自上而下进入探测器的。然而,这次探测到的µ子却来自西方低角度,几乎沿地平线进入。研究人员认为,这种高能量+低角度的特征表明,该µ子并非由宇宙线产生,而是由中微子撞击深海中的原子后产生的。换句话说,这一事件的真正主角是中微子。由于中微子的能量无法直接测量,研究人员根据模型推算,该中微子的能量约为220 PeV。这个能量究竟有多大呢?它比太阳核心普通粒子的能量高100万亿倍,比医用X射线高一万亿倍,比最强放射性粒子高100亿倍。而即使是地球上最强大的粒子加速器,也无法产生能量达到该粒子万分之一的粒子。简而言之,这是一颗极端高能的宇宙来客。宇宙中的中微子中微子与物质的相互作用极其微弱,那么它们是如何被赋予如此巨大的能量的?究竟是什么样的宇宙事件能创造出这样的粒子?答案是:我们仍不知道。但我们知道,一些极端天体物理现象可能是潜在的宇宙中微子来源:超新星爆炸——当一颗恒星燃料耗尽并发生坍缩时,会释放出极高能量的中微子。伽马射线暴——由超大质量恒星爆炸或中子星碰撞引发,也可能是高能中微子的来源。此外,还有一些其他可能性:活动星系核——在某些星系的中心存在超大质量黑洞,其质量是太阳的数百万到数十亿倍。当黑洞吞噬物质时,会将粒子加速至极限速度,并在强磁场作用下喷射出高能粒子。宇宙线碰撞——爆炸性天体事件和活动星系核还会产生宇宙线(高能质子和电子)。这些宇宙线在穿越宇宙时,可能与光子发生碰撞,从而产生极高能量的中微子。追踪源头那么,如何才能找到源头?KM3NeT确定,该中微子来自南半球天空的某个特定区域。如果它源自于一场剧烈的宇宙爆炸或活动星系核,那么研究人员应该能用其他类型的望远镜追踪它的来源,尤其是射电望远镜,因为超新星遗迹和活跃星系核往往会发出射电信号。现在,研究人员正在利用澳大利亚平方千米阵探路者(ASKAP)追踪KM3NeT探测到的信号。不过,他们尚未在射电波段找到明显的候选来源。迈向宇宙极限的探索这一发现标志着人类在探索极端宇宙的未知领域迈出了重要一步。KM3NeT仍在扩建,ASKAP仍在持续观测,科学家们对宇宙极端现象的探索才刚刚开始。未来,我们或许会发现更令人震撼的天文奇观。
2天前
111

具身智能如何跨越“交互”大山?

2025年蛇年春晚,舞台上出现了一幕令人眼前一亮的场景:一群机器人带来了一场别开生面的扭秧歌表演,吸引了全球观众的目光。在张艺谋导演的《秧BOT》节目中,这些机器人身着东北特色的花棉袄,随着音乐节奏翩翩起舞,动作精准流畅,手中的手绢转得虎虎生风,与人类舞者相比也毫不逊色。这些惊艳众人的机器人,来自杭州的一家具身智能创业公司。它们的亮相,不仅向全球观众展示了中国具身智能机器人技术的飞速发展,更引发了人们对具身智能机器人产业的广泛关注与深入思考。具身智能机器人,作为人工智能与物理世界深度融合的结晶,正逐步成为未来科技发展的关键方向。清华大学全球创新学院院长、自动化系教授兼博导刘云浩在其新书《具身智能:人工智能的下一个浪潮》中,以通俗易懂的方式剖析了什么是具身智能,以及如何实现从人工智能到具身智能的跨越。如何使机器“自然地做到”小狗在草地上欢快地奔跑,小鸟在空中飞翔,这些行为都不需要动物的大脑进行复杂计算或过度努力。但要想让机器人能做到跑步、跳跃,那可就费劲了。首先,智能体需要准确地感知环境和对象的状态,这包括对象的位置、大小、形状和纹理等信息;其次,智能体需要根据感知到的信息进行运动规划,计算出如何移动自己的关节和肢体,以实现预期的动作;最后,智能体需要精确地执行这些动作,这不仅要求其对关节和肢体的控制精度,还要求其能够适应环境的变化和不确定性。你看看波士顿动力—这家公司花了数十年的时间在工程研究、机械设计、传感器集成以及算法开发上,才使得其机器人能在高度控制的实验室条件下实现类似动物包括人类的奔跑、跳跃。在我们的日常生活中,很多看似简单的任务如切菜、刮胡子、整理收纳等,人工智能都没能很好地完成,一个不小心智能体还会掉入所谓的“恐怖谷”。这个术语描述了当机器人或仿生对象接近但尚未达到与真实人类或其他生物无法区分的程度时,引起的不适感或恐惧。这是因为,日常任务虽然对人类来说轻而易举,但对机器人来说却涉及复杂的运动控制和精细的感知能力。例如,切菜不仅需要根据食物的硬度、形状和纹理调整力度和切割角度,还需要避免切到手,也不能造成不必要的浪费;刮胡子则要求机器人能够精准识别脸部轮廓,轻柔而有效地去除毛发,同时避免刮伤皮肤;整理收纳则涉及对物品的识别、分类和空间规划,需要机器人具备一定的空间智能和组织能力。这也揭示了具身智能发展过程中的重大瓶颈——如何使机器不仅能“做到”这些动作,而且能够像生物那样“自然地做到”。“具身智能”由两个词组成,一个是“具身”,一个是“智能”。我们先来说“具身”。动物尤其是人类能够做到运动控制,需要一个复杂而精细的过程,它涉及神经系统、肌肉系统以及感觉系统的协同工作。运动控制的核心在于神经系统与肌肉系统的协同作用。神经系统通过发出电信号来控制肌肉的收缩和放松,从而实现各种动作做到运动控制是由演化决定的。对于智能机器,我们希望其行动能够做到准确、迅捷、协调。可是,要让机器变得如此灵巧,又谈何容易?从维纳的控制论开始,行为主义在这一领域做了大量的工作。时至今日,从波士顿动力翻跟头的机器人到穿街走巷的无人驾驶汽车,从流水线上组装零件的机械臂到夜空中飞舞盘旋组成各种图案的无人机集群,我们已经目睹了大量灵巧的智能机器。但是我们仍然不满足,因为这种灵巧还不够“通用”,还有很多任务做得并不好,就连最普通的家务,目前也并没有哪一款智能机器能够包揽并达到商用的程度。那么,这些任务到底难在哪里呢?交互是关键。在没有外界交互的情况下,对智能机器的控制已经得到了广泛的研究并取得了显著成果。但一旦牵涉与环境的交互,机器行动的难度便急剧上升。摆在交互面前的三座大山分别是“对象”、“环境”和“动态性”。首先来看交互的对象。对象的类型无穷无尽,可能是一件衣服、一个柜子、一座山、一片海、一个人或者另一台机器。每个对象都有其独特的属性和特性,我们与它们互动时的体验和需求也截然不同。比如,雕刻木头与堆雪人所需的技巧大相径庭,抓住水杯与拿起豆腐所需的力度迥异,拧开药瓶盖与打开微波炉门的动作也各有不同。其次是交互的环境。物理世界中的交互总是发生在复杂纷繁的环境当中,充满了各种噪声和干扰。以晾衣服这一简单任务为例,我们需要在可能的风力干扰下,从一堆洗净的衣物中挑选一件并将其固定到晾衣架上。对于无人驾驶汽车而言,雨雪天气、道路障碍物等都可能对其行动造成重大影响。最后是交互的动态性。交互的过程往往充满了动态性,交互对象的变化、环境的变化等都无法在行动之初就确定下来,甚至这些动态性也会导致行动的阶段性目标发生变化,进而需要智能机器及时进行调整。不过,当我们将视角转向较为简单可控的环境,针对少数对象的交互时,现代智能机器已经展现出了卓越的成就。例如,在生产线上,焊接机器人面对的交互对象和环境在一定时期内是恒定的,因此即便需要快速完成多个焊点,这些机器人也能精准高效地完成任务。事实上,就重复性工作效率和精准度而言,机器已经超越了人类。再如,就乒乓球这项对人类运动控制能力要求极高的运动而言,在我们将交互环境限定于固定的球台一侧、将对象仅限于球拍和球之后,智能机器已经能够与人对战,展现出不俗的技艺。知者敏于行面对交互之难,到底该如何提升智能机器的行动能力呢?“头痛灸头,脚痛灸脚”历来饱受诟病。要想解决交互中的挑战,除了提升控制算法和执行器的物理性能,我们还需要聚焦于“知”的深度与广度。这里的“知”,涵盖了从感知到认知的完整过程,即我们对行动主体与客体的全面理解。该怎么提升“知”的深度与广度?还是从我们最熟悉的人类来入手进行分析。人类之所以能拥有卓越的行动能力,并非仅因肢体结构的复杂性,更在于我们拥有强大的感官和神经系统。例如,我们用刀切肉时,首先是通过视觉给出的信息将其定位到正确的位置和姿态,然后结合视觉以及握持刀柄的手传来的触觉信号来决定施加多少力度和施力的方向。而如果我们假设执行者是一个仅具备视觉传感器的智能机器,当肉里面有一块骨头时,它就很难做出快速而准确地响应了。人的手部皮肤能够感知到痛觉、温度觉、振动觉、移动性触觉、恒定性触觉等多种信息,包含17000多个触觉小体,能够实现细粒度精确的触觉感知。在这方面,当前的智能机器显然存在极大不足。因此,我们要发挥具身智能特有的优势。虽然智能机器人没有那么多神经和感官,但是它的形态和感知能力也同样不受基因限制。事实上,人短时间内不可能在脑袋后面进化出一双眼睛,但是让智能机器拥有“脑后眼”并非奇事,因此它们能在不受传统感官局限的情况下,探索一个更广阔的感知世界。例如,魔方是一种很多人喜欢的益智类玩具,但是恢复魔方对很多没有经过专门练习的人来说很不容易。就算经过一定学习,以我本人来说,也需要3分钟左右。OpenAI在2019年发布了一个用机械手解魔方的系统。研究人员为了测试机械手的极限,不仅要求其单手完成复原,还在实验中设置了多重障碍:戴上橡胶手套,部分手指被绑住,甚至还有一只长颈鹿走过来干扰。尽管面临这些挑战,系统仍然展现出了卓越的鲁棒性。图:OpenAI发布的用机械手解魔方的系统这个用来玩魔方的机械手,来自ShadowRobot的ShadowDexterousHand,它被安装在一个装备有RGB摄像头和PhaseSpace动作捕捉系统的方形笼中。其控制策略基于强化学习,以机械手的手指当前位置和魔方的状态为输入,输出机械手下一步的动作。在OpenAI公开的一个视频中,机械手在约4分钟的时间里成功还原了一个三阶魔方。魔方的状态通过三个不同角度的摄像头来估计,而机械手指尖的位置则通过3D动作捕捉系统追踪。这个系统展示了一个核心理念:尽管只有一只机械手在执行动作,但其感知能力却遍布整个空间。机器能够随时给自己选配很多强大的感官。例如在自动驾驶汽车上,最新的激光雷达已经能够实现超过百米范围的高精度三维扫描,热成像传感器也能够让机器在黑夜里发现有温度的目标。这同样带来一个新的问题,即如何使多种感官能够很好地协同工作。人类的感官融合是长久以来的进化结果,而在这方面,机器智能刚刚起步。DenseFusion采用了一个创新的异构网络架构,能分别处理RGB和深度数据。这种设计使各种数据能保留其原始结构,而不是简单地将它们融合为单一通道。在单独处理完数据后,DenseFusion首先对两种数据分别进行预处理,然后使用一个密集融合神经网络进行整合,使得模型在保持数据结构的同时,有效地利用RGB和深度数据的互补性。提出TAVI这一新框架的作者认为,仅依靠现有智能机器的触觉感知无法提供足够的线索来推理物体的空间配置,这限制了纠正错误和适应变化情况的能力。因此,他们提出可以通过使用基于视觉的奖励来优化灵巧策略,从而增强基于触觉的灵巧性。机器也不是一直都能够打“富裕仗”,在很多应用场景中,由于受到体积、成本等诸多方面的限制,智能体必须学会充分利用有限的感知数据。抓取是具身智能体一项基础而复杂的能力,它要求精准控制力度,以避免物体受损或滑落。不同的物体需要不同的抓取策略:滑溜的陶瓷杯和粗糙的橡胶球,它们的抓取方式截然不同。AnyGrasp就提出一种新的用于抓取的感知技术,让机械夹爪能够对大量堆叠的、形状不规则的、没有见过的物体进行稳定抓取操作。感知部件仅为一台普通的深度相机。得益于对大量真实世界数据的学习,机器能够主动避开障碍并且通过感知零件的质心以提高稳定性,这两项特性在人类的视觉抓取行为中是经常能够看到的。而在另一项研究中,Takahashi等人提出了一种通过图像来估计触觉特性的方法,这对于具身智能体与环境的交互至关重要。例如,如果智能体通过视觉观察到某物体表面比较滑腻,它可能会采取更紧的抓握方式以防滑脱。除了提升感知能力,如何使机器具备真正的认知能力也是目前具身智能研究的前沿,包括图灵奖得主杨立昆近期提出的关于世界模型的理论在内,大量的工作正围绕这一问题展开。智能化熵增与具身导航互联网和物联网时代,连接已经深入人们的生活,网络变得无处不在。你也许会疑惑:连接不就是交换信息吗?它如何能够影响认知甚至是推动智能发展呢?1. 连接传递认知当没有连接的时候,感知以及认知是如何达成的呢?靠的是观察和猜测。没错,人类做判断的过程本质上也是一种猜测,即根据观察到的某种信号并结合自己的认知进行猜测。很显然,感知是有盲点和误差的,认知也存在局限和错误。我们的视觉可能会被遮挡,看到的也可能不是真相。比如,同样是在昏暗中看到模糊的身影,有的人可能会因为恐惧或迷信而认为这是“鬼魂”;而另一些人则可能基于理性分析,认为这不过是光影效果或视觉错觉造成的“正常现象”。所以,假设智能机器的任务是从一堆水果当中寻找1个苹果,它必须努力克服遮挡的影响来寻找苹果的特征,然后发现了一个非常相似的目标,但这可能是一个外表非常相似的塑料苹果。智能机器将其抓起来后甚至可能发现重量也和真的苹果差不多,于是只能考虑闻闻味道或者切开再继续观察。单方面的感知或者认知总是困难重重。如果智能机器能够与所有交互对象建立连接,那么它们的行动是否将变得更加简单和直接?在这一点上,智能机器和人类相比反而更具有优势。人类主要的交流方式是语言,且不说和一块石头交流,就算是跨省的方言我们可能都听不懂,因此人类与外界的交流很多时候还要借助智能机器。而反观机器,从连接的媒介、连接的“语言”、连接的带宽等多个方面来看,都要强大很多。另外,多个智能机器之间可以比人类更充分地共享它们的认知,这样每一个机器都能够获得更多的信息,有利于规划自身的行动。这样的群体智能显然超越了个体智能。2. 连接创造认知除了传递认知,连接本身也创造了认知。连接的载体即各种信号本身就是能够被感知并且被认知的,它们携带着物理世界的印记,赋予我们丰富的信息。例如,在无线导航的研究中,我们利用无线信号的强度与距离的相关性估计距离。通常,距离的测量依赖专门的感知模块,如尺子或激光测距仪,而无线信号的距离估计能力是连接本身所固有的。更进一步,通过观察无线信号的相位变化,我们曾经提出过一种精度达到毫米级的定位技术,比同期技术的定位精度提高了40倍。无线信号的相位变化还可以用来感知高频率的振动,这对于实时监控机器设备的状态至关重要。最常见的无线信号还能够赋予机器“透视”的能力。比如,我们平时使用的Wi-Fi路由器就能够穿墙透视,让我们“看到”墙后的人。这听起来像是某种“超能力”,但实际上,通过分析Wi-Fi信号的微妙变化,科学家确实已经能够探测到墙壁另一侧人体的移动。这种连接的建立本身就是一种认知成果。它不仅代表着物理上的临近和可达性,我们还可以通过这些连接所形成的网络构建起一种拓扑图,反映实体间的相互关系和连接的复杂性。举例来说,社交网络中的六度分隔理论揭示了人类社会关系的紧密程度。它告诉我们,任何两个陌生人之间最多只隔着6个人。这个理论也反映了通过连接可以实现认知扩展。在机器的世界里,类似的原理可以应用于物联网设备,它们通过无线信号相互连接,形成一个庞大的感知网络,使得每台设备都能够感知到网络中其他设备的状态和位置。在这种方式下,连接不仅是信息传递的媒介,还是智能系统认知世界的一种方式。3. 连接影响智能分布在生物出现在地球上之前,智能如同沉睡的种子,尚未萌芽。随着时间的推移,植物和动物逐渐演化,最终,人类以独特的智慧在生命之林中脱颖而出,智能就此出现。智能的集中赋予了人类无与伦比的地位。人类不仅成为探索这个世界的主导者,更成为塑造这个世界的主要力量。随着信息技术革命尤其是人工智能的发展,智能机器诞生并开始辅助人类。互联网和物联网的普及正在改变这种不均匀的智能分布。借鉴信息论中熵的概念,我们可以把这种现象称为“智能化熵增”。如果智能与非智能界限分明,我们认为熵较低;反之,如果智能遍布世界的每个角落,我们认为智能化熵在增加。例如,一台终端设备本身运算能力可能有限,但一旦联网,它就能从云服务器获得强大的算力和知识,从而增强自身的能力。也就是说,智能化熵增降低了智能机器对自身固有感知和认知的依赖。我们还是回到具身导航的例子。一辆无人驾驶汽车利用自身携带的摄像头、激光雷达、无线模块感知周围的环境,做出加速、减速、变道、超车等行动。在传统的导航中,路径规划和行动决策依赖于提前获取的地图,通过卫星信号等方式定位,引导汽车行动,不断缩短当前位置与目的地之间的距离。汽车如果具备感知周围环境的能力,就不一定需要把自己映射到地图上才能导航。我们指路的时候,也很少直接指定几个坐标地点,更常见的方式是“往前走两个红绿灯,左转前行,看到路左边一个商场,右边的白色写字楼就是目的地”。这样的导航,完全是依赖感知进行路径引导的。我们可以证明,感知数据所构成的感知空间,也符合线性空间的基本定义。只要定义恰当的距离函数,就可以让感知空间和物理空间保持尺度不变性:物理空间远的,感知空间也远;物理空间近的,感知空间也近。如何定义恰当的范数,就完全是一个数学上的技巧了。实际上,我们都知道物理空间是三维的,而感知空间是远远高于三维的线性空间,这就让我们有很多的数学技巧可以施展,以通过优化实现感知空间和物理空间的一致性,即“感知空间—物理空间”一致性理论。我们还可以有一些其他的推论,比如:感知空间是一个完备的赋范线性空间;存在感知子空间与物理空间同构,两者存在单一映射关系;物理空间的移动,可以被该感知子空间的时间函数唯一描述;物理空间任两点之间的距离函数,等于该感知子空间像的距离函数;等等。这些推论表明,在物理空间内进行导航,等价于在感知空间内进行导航。也许有一天我们的导航完全是在感知空间内进行的,只是通过具身智能体表现为在物理空间中的移动。在实际场景中,感知空间的维度太高,计算复杂度也过高。即使是最聪明的无人驾驶汽车,我们也经常会在新闻中看到它们在路上踯躅不前。而有了车联网之后,单体智能逐渐走向群体智能,车辆之间通过连接实现了信息的共享,使行动决策变得更为简单高效。2024年1月,五部委联合发布的《关于开展智能网联汽车“车路云一体化”应用试点工作的通知》,使得这个连接的范围进一步扩展到了云端、道路单元。试着想一下,数百米外的交通事故被道路单元发现并通知给即将驶来的车辆,这是任何老司机都没办法做到的。一辆无人驾驶汽车驶进停车场后,也不必到处转悠找车位了,停车场会直接给出空位的指引,然后车子自己就倒车入库了。是不是很便利,也很自然?从另一个维度审视智能化的演进,我们不难发现,随着智能化熵的增加,智能体的边界正在逐渐消融。这种转变意味着,机器不再局限于其物理形态,而是开始将外部环境融入其智能系统的内部。这就像是将外部世界变成了智能体的延伸,将原本的外部行动转化为了内部的自然交互。先是人驾驶车辆,然后是智能机器驾驶车辆,而在未来,我们把道路及车辆的集合看作一个具身智能体,也就是由道路来开车。道路能够全面感知其上的一切情况,掌握所有车辆的实时动态,从“上帝视角”出发,进行全局的交通调控。在这样的未来,交通事故或许真的只存在于历史之中了。刘云浩著中信出版集团2025年1月
2天前
7

存储的春天在哪里?

2024年全球半导体存储行业回暖,根据世界半导体贸易统计组织预测显示,2024年半导体市场强劲增长19%,其中,存储市场预计将在2024年增长81%。DeepSeek的出现也引发的市场变化推动人工智能和半导体行业实现增长。AI市场从高价GPU和内存向定制化AI芯片和廉价内存的多元化发展,标志着AI市场的扩张。这一转变有望使AI技术更加普及、更具成本效益,扩大其应用范围和吸引力。DeepSeek 冲击导致的股价波动被视为三星电子和 SK 海力士等的买入机会。例如SK 海力士预计将从今年第二季度开始全面出货 HBM3E 12 层,从而实现差异化表现。高带宽内存技术的这一进步对于高性能计算和 AI 应用至关重要。与此同时,三星电子已准备好高效供应定制的 AI 芯片和内存,并已确保了满足客户需求所需的制造设施。同时,由于 DeepSeek 提供的优化技术,AI 模型开发成本将会降低。预计成本降低将形成良性循环,从而降低生成 AI API 价格、增加 AI 流量并促进 AI 基础设施投资。朴尚铉进一步预测,美国可能会加速其基础设施投资以应对这些发展。也有业内人士提出,受AI应用激增的推动,存储器市场的资本支出也发生显著变化。越来越多的资金流向DRAM领域,特别是HBM的生产。预计2025年,DRAM资本支出将同比增长近20%。然而,这一转变也导致对NAND生产的投资减少,可能在市场上造成潜在的供应瓶颈。尽管如此,NAND领域的盈利能力持续改善,有望在2026年重新点燃该领域的投资热情。多家存储大厂发布预增公告兆易创新2024年净利润预增576.43%:2024年,兆易创新预计实现归属于上市公司股东的净利润达10.9亿元左右,同比增长576.43%;扣除非经常性损益后的净利润约10.3亿元,同比大增3659.04%;营业收入约73.49亿元,同比增长27.57%。公告中提到,业绩增长的主要原因包括2024年行业下游市场需求回暖,客户增加备货,产品在多个领域实现收入和销量大幅增长。此外,公司持续加大研发投入和产品迭代,优化产品成本,增强产品竞争力。同时,2023年公司商誉和存货资产减值损失合计约6.1亿元,预计2024年相关资产减值损失将大幅下降。在利基型DRAM领域预计价格下行空间有限,预计供给格局改善可能出现在2025年Q2或下半年。Flash业务方面,公司NOR Flash产品全球份额第二,将继续提升市占率,特别是在端侧AI和工业、汽车市场。利基型DRAM的DDR4 8Gb产品已量产,LPDDR4预计2025年下半年贡献收入。MCU业务方面,公司预计工业领域将进一步增长,车规MCU新产品GD32A7客户反馈良好。澜起科技披露2024年度业绩预告,预计实现营业收入约36.39亿元,较上年同期增长约59.20%;归属于母公司所有者的净利润13.78亿~14.38亿元,较上年同期增长205.62%~218.93%;归属于母公司所有者的扣除非经常性损益的净利润12.24亿~12.84亿元,较上年同期增长230.82%~247.04%。尤其是,2024年第四季度,公司预计营业收入实现同比及环比增长,主要原因是DDR5内存接口芯片需求旺盛,出货量增加。公司预计2024年第四季实现营业收入约10.68亿元,其中互连类芯片产品线销售收入约9.72亿元,DDR5第三子代RCD芯片开始规模出货;归属于母公司所有者的净利润4.00亿-4.60亿元;归属于母公司所有者的扣除非经常性损益的净利润3.50亿-4.10亿元。对于业绩增长,澜起科技披露,一方面,受益于全球服务器及计算机行业需求逐步回暖,公司内存接口及模组配套芯片需求实现恢复性增长。同时,受益于DDR5下游渗透率提升且子代持续迭代,公司DDR5内存接口芯片出货量超过DDR4内存接口芯片,DDR5第二子代内存接口芯片出货量超过第一子代产品;另一方面,受益于AI产业推动,公司三款高性能运力芯片新产品开始规模出货,为公司贡献新的业绩增长点。二、存储的春天在哪里?HBM快速迭代随着英伟达和AMD等主力GPU产品的迭代,以及搭载HBM规格变化,市场已逐步由HBM3向HBM3e升级。与此同时,更新一代HBM技术也愈发受到关注。根据市场调查机构Gartner的数据,全球半导体收入预计将在2025年增长12.6%,达到7050亿美元。目前,全球HBM市场由SK海力士、三星、美光三家主导。分厂商来看,三星电子是2024年排名第一的半导体供应商,年销售额增长62.5%,超过排名第二的英特尔。由于对AI加速芯片的需求,英伟达的芯片销售额几乎翻了一番,跃居第三位。存储制造商SK海力士和美光的销售额也出现强劲增长。就美光而言,三星和SK海力士的销售额增长主要得益于存储的高平均售价,尤其是数据中心AI加速所需的高带宽存储器。Gartner表示,2024年数据中心应用芯片的销售额几乎翻了一番,达到1120亿美元。2024年非存储收入将增长6.9%,而存储收入将增长71.8%。因此,到2024年,存储在半导体总销售额中的份额将增至整个市场的25.2%,非存储占74.8%。分析师George Brocklehurst指出:“存储和AI半导体将推动近期增长,HBM预计将占据DRAM收入的越来越大份额,到2025年将达到19.2%。HBM收入预计在2025年将增长66.3%,达到198亿美元。”GLC SSD大风吹AI热潮产生了大量的数据存储和计算需求,使HBM和企业级SSD均受益。相比SLC、MLC、TLC技术,QLC 闪存有几个主要优势:容量:QLC相比主流TLC闪存,存储密度提升33%。成本:从晶圆上切割出的闪存芯片数量相同,QLC 可提供比 TLC 多约 33% 的存储容量,从而降低单位存储成本。总拥有成本:与传统 HDD 相比,基于 QLC 的 SSD 具有更低的 TCO。TCO 包括存储密度、可靠性和功耗等考虑因素。虽然 QLC 的写入性能略逊于其他技术,但其读取性能却非常强劲。许多人认为 QLC SSD 是 TLC SSD 的补充,特别适合读取密集型和混合读/写工作负载,例如人工智能、内容交付网络和机器学习中的工作负载。在AI应用方面,TrendForce指出,SSD应用于AI推理服务器,有助于在推理过程中调整和优化AI模型,尤其是通过实时更新数据来微调模型输出。AI推理主要支持检索增强生成和大型语言模型,SSD可以存储参考文档和知识库,以便RAG和LLM生成更丰富的响应。随着越来越多的生成信息以视频或图像的形式显示出来,数据存储需求也随之增加,使得大容量 SSD对于 AI 推理至关重要。Solidigm 已开发并交付了 D5-P5336 61.44TB QLC SSD 等产品,其耐用性远超传统 HDD。SK海力士2024年12月18日宣布,开发出了专为AI数据中心设计的大容量SSDPS1012。计划到 2025 年第三季度将其产品线扩大到 122TB。PS1012 采用最新的第五代 PCIe,带宽是第四代产品的两倍。这使得数据传输速度高达 32GT/s,连续读取性能达到 13GB/s,是上一代产品的两倍。三星已开始量产 1Tb QLC 第九代 V-NAND 内存,提供全系列先进 SSD 解决方案,满足 AI 时代的需求。三星还计划通过第九代 QLC 和 TLC V-NAND 技术巩固其在企业级 SSD 市场的领导地位。铠侠第八代BiCS FLASH 2Tb QLC已进入出样阶段,全新QLC产品架构允许在单个内存封装内堆叠16颗芯片,提供领先的4TB容量。在国内,大普存储是国内首家推出QLC企业级SSD的公司,先是J5000系列,后来又推出了J5060 QLC SSD系列,最高容量可达61.44TB。三、没有开春的它们近一年来,通用 NAND 价格从上涨到持平再到下跌,经历大起大落。TrendForce 数据显示,通用 NAND 价格从 2023 年 10 月开始经历 5 个月的上涨后,于 2024 年 3 月增速减缓,维持平稳状态;而后从 9 月开始转为下跌,9 月、10 月和 11 月的环比降幅分别为 11.44%、29.18% 和 29.8%。目前,通用 NAND 价格已从 8 月的 4.9 元降至11月的 2.16 元,跌幅超过 50%,是继 2015 年 8 月以来的最低价格。TrendForce预测,2024 年第四季 NAND 合约价格将下降 3%~8%,获利能力进一步减弱,此前便有业内人士分析 2025 年或许会有部分产品线从 NAND 转向 DRAM。至于NAND价格持续下跌的原因,要知道产品价格波动,主要受市场供需影响。所以,要弄清楚 NAND 芯片价格为何持续下滑,需先了解其具体应用场景。难兄难弟还有DRAM。春节假期后,消费者对 DRAM 的需求依然低迷,现货价格持续低位徘徊。不过,由于部分买家的特殊需求,DDR5 产品出现了临时价格上涨。相比之下,DDR4 产品的现货价格因 CXMT 供应充足而继续下滑,本周主流芯片的平均现货价格维持在 1.458 美元。不只是在春节期间,自去年8月起,DRAM价格进入下跌趋势,直至今年1月才出现回暖迹象。继去年9月和11月分别暴跌17%和20%之后,DRAM价格一直处于区间波动状态,预计今年第一季度的表现将更加糟糕。因此,预测显示三星电子第一季度的表现将比预期的更差。即使进入1月,受农历新年以及客户去库存的影响,贸易市场依然低迷。DRAM供应商的库存水平再次上升,达到去年第四季度13至18周的水平。分析表明,DRAM需求预计短期内不会恢复。
2天前
18

Science重磅:用AI从头设计一种功能性酶

酶作为生物催化剂,在温和的条件下能够加速生物化学反应速率,对众多领域具有重要应用价值。然而,如何按照需要设计能够催化复杂反应的酶,尤其是从头设计丝氨酸水解酶,一直是酶工程领域的重大挑战。近年来,人工智能(AI)在蛋白质设计中的应用取得了显著进展,尤其是最新的深度学习技术为从头设计复杂的功能性蛋白质提供了新的机会。今天,Science 杂志再次发布 2024 年诺贝尔化学奖得主、生物化学家和计算生物学家、华盛顿大学教授David Baker 的一项重磅成果。研究团队通过一种深度学习模型 PLACER 和一种生成式模型 RFdiffusion,成功设计了一系列具有高催化效率的丝氨酸水解酶。这些设计不仅在活性位点的几何结构上具有创新性,而且在催化效率上也显著优于以往的计算设计酶。研究团队认为,这是一种突破传统方法限制的从头设计酶的方法,这项研究不仅在酶设计领域取得了重大突破,而且为未来设计更多新型酶提供了新的思路和方法,将对生物催化、医药和工业应用产生深远影响。此外,这项研究还展示了 AI 蛋白质设计在解决复杂生物化学问题中的巨大潜力,为未来的酶工程研究提供了重要的参考。突破限制的蛋白质AI 设计方法丝氨酸水解酶是一类以丝氨酸为催化基团的酶,能够催化酯类化合物的水解反应,在工业、医药等领域有着广泛应用。然而,从头设计丝氨酸水解酶,一直是酶工程领域的重大挑战。一方面,丝氨酸水解酶的活性位点非常复杂,需要精确排列多个催化残基,包括丝氨酸、组氨酸和天冬氨酸/谷氨酸,形成特定的氢键网络,才能实现高效的催化反应。另一方面,活性位点的预组织对于酶的催化效率至关重要,但实现这种预组织非常困难,尤其是在多步反应机制中。当前的方法在评估设计预组织时存在准确性和计算成本的限制。传统酶设计方法通常基于已有的蛋白质骨架,这限制了活性位点的精确实现,导致许多设计酶的活性较低。而且目前评估设计预组织的方法在准确性或计算成本上存在局限。为了解决这些问题,David Baker 团队构建了一种用于生成蛋白质骨架的 RFdiffusion 工具。RFdiffusion 是一种基于深度学习的蛋白质设计方法,具体来说,RFdiffusion 首先会从一个完全随机的噪声状态开始,然后逐渐减少噪声,同时引导生成过程朝着目标蛋白质结构的方向发展。这个过程类似于在蛋白质结构空间中进行随机游走,但每次游走的方向都会受到目标结构的引导。通过这种方式,RFdiffusion 能够生成具有所需活性位点的蛋白质骨架,这些骨架能够支撑特定的化学反应。论文的共同作者 Ivan Anishchenko 等人,则构建了一种用于评估设计的蛋白质在反应过程中的活性位点预组织情况的 PLACER 网络。它能够根据蛋白质骨架的坐标、氨基酸残基的身份以及结合小分子的化学结构,生成结合位点的全原子坐标集合。这使得研究团队能够评估设计的蛋白质在反应过程中各个关键状态的活性位点预组织情况。图|使⽤ PLACER ⽐较天然和设计的丝氨酸⽔解酶的预组织PLACER 的核心思想是通过模拟蛋白质和小分子之间的相互作用,生成一个包含多种可能构象的集合。这些构象反映了蛋白质在反应过程中的动态变化,从而为评估设计的酶的催化效率提供了更全面的信息。在生成过程中,PLACER 首先会对输入的蛋白质结构和小分子进行编码,然后通过解码器生成可能的结合构象。通过这种方式,PLACER 能够预测蛋白质和小分子之间的相互作用,并生成一个包含多种可能构象的集合。这个集合可以用于评估蛋白质在反应过程中的稳定性和活性,从而帮助研究团队优化酶的设计。通过结合 RFdiffusion 和 PLACER 网络,研究团队希望能够突破传统方法的限制,设计出具有高催化效率的丝氨酸水解酶。从头设计一种功能性酶研究团队首先利用 RFdiffusion 从几何描述的活性位点出发,生成能够支撑丝氨酸水解酶活性位点的蛋白质骨架。通过采样催化基团在反应过渡态周围的排列,生成活性位点基序,并枚举每个催化残基的 α-螺旋和 β-折叠骨架构象。然后,研究团队使用 LigandMPNN 和 Rosetta FastRelax 进行序列设计和骨架优化,最终通过 AlphaFold2 预测设计结构,并筛选出与设计模型匹配的结构进行实验表征。为了评估设计的活性位点在反应过程中的预组织,研究团队又借助 PLACER 网络,根据蛋白质骨架坐标、氨基酸残基身份和结合小分子的化学结构,生成结合位点的全原子坐标。通过对反应路径上的每个关键状态(包括底物结合、四面体中间体、酰基-酶中间体等)进行建模,研究团队能够评估设计酶在每个反应步骤中的活性位点预组织情况。在初步设计中,研究团队构建了相对简单的活性位点,通过两轮设计,他们筛选出了一系列具有潜在催化活性的设计,并在大肠杆菌中表达和测试。实验结果显示,从第二轮设计中筛选出的设计具有更高的 FP 探针标记率和酯酶活性,表明 PLACER 过滤在选择具有催化活性的设计方面具有重要作用。在第三轮设计中,研究团队进一步增加了活性位点的复杂性,包括引入组氨酸稳定的催化酸和第二个氧阴离子孔氢键供体。通过 PLACER 预组织进行过滤,研究团队筛选出了一系列能够进行催化周转的设计,其中两个设计表现出显著的催化效率。图|计算机设计的酶的结构(大面板)和AI预测的活性位点集合(小面板)为了验证设计的准确性,研究团队对两个表现显著的设计结构进行了 X 射线晶体学分析。晶体结构显示,这两个设计的 Cα 原子均方根偏差(RMSD)小于 1 Å,分别仅为 0.8 Å 和 0.83 Å,表明设计模型与实验结构高度一致。此外,活性位点的侧链构象也与设计模型非常接近,进一步证实了设计方法的有效性。这也意味着,研究团队通过结合 RFdiffusion 和 PLACER 网络,成功设计了一系列具有高催化效率的丝氨酸水解酶。这些设计不仅在活性位点的几何结构上具有创新性,而且在催化效率上也显著优于以往的计算设计酶。研究团队认为,这项研究不仅有助于解决丝氨酸水解酶设计中的关键科学问题,还为其他酶家族的设计了新的工具和方法,也将对生物催化、医药和工业应用产生深远影响。总之,这项研究展示了AI 在生命科学和医学研究中的变革性潜力,不仅使具有复杂活性位点的酶的设计成为可能,而且为医学、生物技术和更广泛的科学领域的突破铺平了道路。随着 AI 技术的进一步发展,我们可以期待在酶设计和药物发现方面取得更多突破,从而改善人类健康和福祉。
2天前
17

零失误的AI 主播上岗,但主持人被取代还为时尚早

“地球不爆炸,我们不放假”,这话出自央视主持人朱广权。当时临近2017年农历新年,谈到“你们电视台放假吗”的问题,他一本正经地讲了个段子。但8年后,主持人真的可以在春节放假了。负责代班的,是和他们长得差不多的AI主播。AI假期代班,真人过年回家拍短视频谁能想到,传统的电视节目,以一种很新的方式出圈了——蛇年春节期间,除夕至初七,《杭州新闻联播》节目让6位AI主播值班。每天,各有两位AI主播出镜,轮流口播,形式很像日常的新闻节目。图片来自:公众号“杭州综合频道”AI主播倒也算不上新鲜事,2024年龙年春节,它们就已经登上了《杭州新闻联播》,但当时只有2位AI主播,形式是单播。动图制作自:视频号“杭州综合频道”除了地方台,AI主播也已经出现在了更大的舞台上。央视的《2024中国·AI盛典》,主持人尼格买提以数字人的形象出现,恰好他所讨论的,就是AI会不会取代人类的话题。网上也不乏一些这样的声音:AI上岗,真人主播过完年还有班上吗?从《杭州新闻联播》的视频看,AI主播们虽然吐字清晰、不会出错,但表现还差点意思。理由包括但不限于:语气欠缺了感情,特别是祝观众朋友新年快乐的时候,有些呆板。虽然会眨眼和轻微摇晃脑袋,但动作幅度很有限,脖子以下基本不动。浅景深的虚化效果,抠图感重,背景看起来有些假......图片来自:《杭州新闻联播》播音主持专业毕业、目前从事产品评测编辑的Obo,以更专业的角度提出了几点意见:语流语势比较平,起伏不够,所以还是能听出来机器人的机械音。句末的字尾归音不到位,有一种戛然而止的感觉,突然停下有些突兀,不自然。采样主持人的声音压嗓严重,胸腔共鸣被严重的压喉影响,听感一般。副语言不到位,和新年挂钩的新闻,表情却是严肃的,播报内容和脸部副语言脱节。所以他认为,目前AI还无法代替真人主持,“AI数字人出现挺好的,不用调休了,而且我已经跳出来了”。但更广泛的电视观众们,不会这样认真“找茬”,可能认不出AI。其实,真人主播暂时不会被替代,还有一个原因——AI主播负责播音,那么真人就可以有时间做更多的事情了。部分真人主播的短视频截图《杭州新闻联播》AI主播的形象、声音,是以真人主播为蓝本的。真人主播们回家过年,还不忘拍摄“主播寻年味”系列短视频,介绍家乡的风土人情。以及,和其他打工人一样,他们初八还得回去上班。Obo虽然已经不在播音行业,但他在电视台工作的大学同学们,同样有播报日常新闻之外的任务,平时需要策划一些整活向的、年轻人爱看的短视频,过年也被要求拍摄Vlog。传播渠道的更迭是一个原因。比起电视节目,短视频不会那么官方和正式,更能拉近主持人和观众的距离,同时也提供了以小见大的视角,让信息更加容易传播,甚至打造出主持人的个人IP。但也很难说,其中没有AI的影响。看到杭州AI主播上岗的新闻后,Obo和同学们聊起播音主持的未来,他们得出一个结论:“播音员当然会被取代,主持人不会。”当日常节目可以渐渐由AI完成,工作效率直接被AI提高,“采编播”里的“播”,显得越来越“不重要”了。但这个“播”是狭义上的,是指天气、交通等“功能性”的播音,像朗诵这样更具艺术性的表达形式,缺乏标准,也更难被取代。AI解放了人类主持人的节假日,也倒逼着主持人在播节目之外掌握更多技能,空出时间做更多的“杂活”,扛摄像机、做编辑、写稿子、主持大型线下活动......总之,“主持人的职场空间会被压缩到跟记者一样”。不嫌苦不怕累的数字人,已经到处都是了AI主持人,只是数字人上岗的一种形式。最近,香港大学与字节跳动合作研发的、专为广告视频设计的竖屏Goku+模型,虽然还没能用上,演示效果也令人瑟瑟发抖。官方甚至表示,“以低100倍的成本制作广告视频”。仅通过文本提示词,Goku+就能生成逼真的数字人视频,时长可以超过20秒,面部表情、手部动作、身体移动都很自然。不仅如此,基于文本提示词和产品图片,Goku+还能生成数字人和产品互动的视频。但也不用过度焦虑,AI数字人的作用,目前来说还是单一的。2023年9月,我们写过直播间24小时工作的AI主播。它们的优点显而易见,便宜、形象可控、掌握多国语言、不嫌苦不嫌累不情绪崩溃。当时我以买家身份咨询了一家数字人公司,按照真人形象定制数字人,基础版8000元一年,高级版3万一年,训练素材审核通过后,训练2个工作日,平台就能反馈训练成果。定制形象是一方面,数字人直播是另外的价钱,5500元一月。我在今年2月又咨询了一次,直播还是这个价,支持三种开播方式:自动播,使用提前准备好的直播语料,语音或者文本;阿凡达直播,使用麦克风,真人实时驱动数字人的口型;自动播结合阿凡达直播。但这家数字人公司,不对效果打包票,“数字人主播仅能替代部分机械化主播的工作,运营岗位相关工作替代不了,所以不承诺任何效果......效果和你的产品、直播内容、拉流量的手段等因素息息相关”。而且因为数字人的表现仍然和真人有差距,它们也没必要一直站在台前。就像AI主持人更适合在假期等非黄金时段代班,直播间的AI主播也更适合出现在“垃圾时间”,用来冲直播时长,或者时长12到24小时的本地生活直播间,拿重复的话术轰炸。但这不意味着,数字人对真人没有伤害。Obo认为,AI主持人可能会让一些播音主持新人失去在“垃圾时间”练嘴的机会,然后影响到他们的就业渠道。同样,先被AI直播波及的,会是那些海量的、不知名的、月薪几千、投资回报率更低的“小透明”。AI越擅长模仿,人类越强调在场《杭州新闻联播》AI主播出圈之后,微博上的一个热搜词条是这样的:AI播报0失误,播音专业学生怎么办。这就说明了一部分人的观点:AI能代替真人,是因为它不出错。或者更泛泛而谈,AI能代替真人,是因为它身上“不人性”的一面。但这个观点其实恰恰违背了人性,大众喜欢看到平时端正严肃的主持人身上,不那么日常的、更接地气的部分。主持人出错合集的花絮,因为满足了观众的恶趣味,很容易在视频平台走红。更有代表性的例子是,在一次《新闻联播》中,主持人康辉口播了20多分钟,被推上了热搜,他的声音始终保持高度的专业水平,但更让观众记忆深刻的,可能是他播到最后微微泛白的嘴唇,这是一个专业能力顶尖的人类努力的痕迹。哪怕AI可以达到真人的水平,嘴皮子很快,始终不嘴瓢,但那会被认为是理所当然,只有人类肉身完成的,才更容易被记住和在乎。有时候,这种朴素的、要求人类在场的想法,会逆转技术的潮流。2024年10月,一个波兰广播电台叫停了用AI代替人类的实验。在实验开始的几周前,电台辞退了十几位记者,然后在10月推出了三个AI主持人,以吸引年轻听众。很快,一位前电台记者和影评人发表了一封公开信以示抗议,“经验丰富的媒体从业者不该被机器取代”。超过2.3万人追随了这位记者并签署了请愿书,还有数百人给记者打去电话,其中许多是年轻人,他们不想成为这场实验的对象。本来这场实验要持续3个月,但一周左右就暂停了,电台对大众的情绪反应感到“非常意外”。其中可能有些“物伤其类”的意味。AP的报道里写上了这样一句话,“在波兰各地,人们感到愤怒”。《新闻编辑室》当我和DeepSeek聊AI主播的话题,它给了我一个很有意思的观点——AI主播模拟人类点头、眨眼的动作,试图营造“在场感”,但其本质仍是“去身体化”的技术存在,导致AI无法实现人类主持人的“具身传播”,无法表达身体和情感的自然共振。很难说AI数字人未来会取代多少岗位,但此时此刻面对AI主播时涌起的犹豫和迟疑,不管是出于被取代的恐慌,还是因为相信AI无法模拟人类的情感,本质都在表达,我们希望人类在场,尽管这可能只是我们的愿望。所以,让真人主持人在不播节目的时候拍短视频,实在是一个太有趣的走向了。AI可以取代强调功能性、程式化的部分,但它没法解答有没有人愿意观看节目的问题。那些表达烟火气息的瞬间,那些更容易传播的片段,仍然需要人类亲身的参与。不再强调效率的时刻,人的在场,就是最重要的前提。
2天前
26