本文来自微信公众号:字母PRO,作者:李炤锋,编辑:王靖,题图来自:AI生成
过去一年,AI硬件的主战场不再只是“把大模型塞进手机”,而是开始争夺更底层的东西:人们到底要用什么形态去接触AI。
在这一过程中,诞生了许许多多的AI硬件产品,从AI耳机、AI眼镜、AI手机到AI录音笔、录音卡片等。
一边是无屏的、可穿戴的“新物种”,一边是继续以屏幕为中枢、把AI写进系统底座的传统终端升级。
我们把前一条路线统称为“笔”:它不是指具体外形,而是泛指轻便、随身、低存在感,以音频/环境感知为主输入,通常不带有屏幕的AI硬件。
“笔”最激进的样本,早在2024年就有人做过。Humane在那一年推出AI Pin,它被定义为可夹在衣服上的“可穿戴电脑”,主打让用户摆脱智能手机。
不过,该产品因延迟高、投影不可视、应用生态匮乏等问题遭遇大量差评,最终仅获得约1万笔订单;Humane随后也被惠普收购。
相比之下,更务实的“笔”正在从窄场景切入。以Plaud、钉钉A1、飞书录音豆为代表的AI录音硬件,强调会议、采访等明确场景,通过随身采集语音,再由大模型完成转写与总结。
这一方向的想象力,如今在OpenAI身上被进一步放大。
OpenAI已确认与前苹果设计负责人Jony Ive展开硬件层面的合作,项目瞄准一种不同于手机与PC的新型AI设备,强调更自然的交互与更低的存在感,目前已知形态也被形容为“像一支笔”。
与“笔”并行的,是仍以屏幕为中枢的另一条路线。微软将Copilot+PC定义为新一代PC形态,并明确提出NPU算力门槛;Meta和各大手机厂商则持续在眼镜、手机等终端上强化AI与显示、系统的深度融合。
如果把这些现象放在一起,会看到一条清晰的分岔:新锐AI公司更愿意押注“笔”——无屏、贴身、输入优先;传统互联网/硬件公司更愿意押注“屏”——在既有形态的产品上,延伸显示、系统与生态能力。
显然,面对AI硬件这一品类,行业内已经出现了对交互成本、技术成熟度与商业化路径的不同押注。
一
2025年,在一次公开对谈中,OpenAI CEO奥特曼形容当下的数字生活“就像走在时代广场”。
他表示,信息、推送和屏幕不断争夺注意力,而他们正在探索的AI硬件,目标恰恰相反——“更平静(more calm),更少打扰(less distracting)”。
事实上,这一理念并不新鲜,却在近两年被重新提起。与其把AI塞进手机或PC,不如退回到更基础的一层:先感知和连接世界本身。我们把这类设备概括为“笔型AI”——轻、贴身、低存在感;在产品逻辑上,它们的感知优先级高于操作。
从行业视角看,当下概念中的“笔型AI”,并不在于替代手机或PC成为新的硬件入口,而在于争夺个人与组织的第一手输入权:语音、环境、视角,在相对无感的前提下,让AI能够持续接收并处理信息。
不过,在这一理念驱使下,过去几年中却未能孕育出成功打开市场的产品。
时间回到2024年,Humane推出的AI Pin、Rabbit的R1,都试图成为“脱离手机的AI终端”,用语音或环境感知完成即时响应,甚至跨应用执行任务。但最终,这些产品都反响平平,未能打开市场。
体验差是最直接的结果。科技评测人Marques Brownlee在评测AI Pin时直言:“这是我评测过最差的产品之一——不是因为想法,而是因为它现在根本不能用。”
另一层原因是,当时端侧算力还无法支撑复杂推理,大多数无屏设备延迟与中断频繁。《华尔街日报》科技专栏作家Joanna Stern在对比体验多款无屏AI设备时写道,Humane AI Pin与Rabbit R1“更像科学项目,而不是成品”。她还在视频测试中记录到,Rabbit做一次“实时翻译”用了四分钟。
业内对端侧算力的衡量标准之一是NPU(神经处理单元)性能。IDC等机构认为需超过30TOPS才基本满足大语言模型推理能力,但截至2024年初,只有少数SoC达到这一门槛,如高通骁龙8 Gen 3与苹果A17 Pro等。
而在一些更“垂”的场景里,“笔型AI”的定位迅速收缩,以记录优先的一批AI产品陆续面世。在中国市场,这种变化体现得尤为明显,例如钉钉推出的A1录音卡片,以及飞书与安克合作的AI录音豆。
在海外市场,也出现了类似取向的产品,如Plaud的Note Pro。这类设备更关注把碎片化的语音、会议内容和环境音转成可检索、结构化的语料,而不是即时对话或执行任务。
a16z投资的AI硬件公司Limitless(前Rewind)也走向了类似取向。其创始人Dan Siroker在接受采访时曾表示,他们“不是在做第二台设备,而是在做记录对话的基础设施”。
不过,当“笔”的外延继续扩展,矛盾也随之升级。近年来,一些团队开始尝试把摄像头引入耳机或头戴设备,希望获得更自然的第一视角输入。这既意味着电池与算力需要重新分配,也在社会层面引发了对隐私边界的担忧。
技术分析师Avi Greengart在讨论AI可穿戴趋势时指出,消费者对隐私的期待“并没有消失,但确实在发生位移”。人们愿意为便利让渡部分边界,却仍对“被持续记录”保持警惕。
也正是在这种背景下,OpenAI与Jony Ive团队的硬件项目被视为“笔”的最大变量。OpenAI全球事务负责人Chris Lehane曾对外确认,公司计划在2026年下半年展示首款硬件设备,其关注重点并不在显示,而在更自然、更克制的环境感知。
Ive曾主导iPhone 4,开启并定义了上一个智能手机时代。但在其设计生涯中,另一个被反复提及的产品是更简单、克制的iPod。也许在未来OpenAI的硬件上,我们还能看到iPod的影子。
抛开Ive的“执念”,“笔型AI”更像AI时代的传感器层。它不直接替人做决定,以感知为第一优先级,进而再驱动用户的交互。但在一些以交互为先的场景中,“屏”的重要性似乎又不可替代。
二
与“笔型AI”试图降低存在感不同,有屏的硬件阵营——不管是传统的PC/手机,还是新锐产品——都在过去两年中积极拥抱AI。
这条路线的分水岭,可以说出现在AI从“应用能力”转向“系统能力”的时刻。
2024年5月,微软发布Copilot+PC,号称是一次AI在操作系统层面的重构。官方文档中指出,新一代Windows设备需要配备算力达到40+TOPS的NPU,部分AI能力将以“系统原生”的方式运行,而非通过独立应用调用。

这一设计,本质上是在把AI融入到硬件的系统层。微软消费业务负责人Yusuf Mehdi在发布会中直言,这是“重新定义Windows电脑”的一次调整。
类似的逻辑,也出现在手机端。无论是苹果、三星,还是小米、vivo等国产厂商,近年来都把AI能力直接下沉到系统层。
这表明在AI时代,屏幕仍然是信息展示、交易确认和权限授权的中枢。AI加持下的智能手机,拥有了与超级App争抢“第一入口”的资本。
以字节此前与中兴联合推出的豆包手机助手为例,其定位并不是独立应用,而是深度嵌入系统交互流程,参与搜索、写作、日程、通知等多个环节,并通过系统级入口重新分配用户与信息、服务之间的关系。
当AI进入系统层,首先就被互联网时代的同行视为“洪水猛兽”。早在2024年,微软推出Recall功能,尝试通过周期性记录屏幕内容,帮助用户事后检索信息。这一功能在发布初期即引发巨大争议。
通信应用Signal率先公开反对,指出Recall在设计上未给予应用足够的控制权,系统级截图机制可能捕捉加密通信界面。随后,一批工具宣布默认屏蔽Recall。
一年后的豆包手机助手上,类似的场景再次上演。社交、电商、金融等领域的头部企业,其旗下App纷纷屏蔽豆包手机助手。
可靠性,成为智能手机推进AI进化节奏的重要影响因素。去年,苹果宣布将原计划推出的Siri AI功能推迟至2026年。抛开苹果自研模型水平落后这一原因,苹果官方曾回应称,这些功能尚未达到预期的可靠性标准。
在随后的采访中,苹果全球市场负责人Greg Joswiak曾表示,苹果不希望用户接触到“表现不稳定的系统级能力”。而根据最新消息,苹果计划让新版Siri使用由Google Gemini驱动的基础模型,以提升语义理解与对话能力。
新版Siri能否进一步推动手机AI的边界,仍需等到正式发布的那一天。
把视角转向AI眼镜,屏型路线的特征被进一步放大。眼镜成为手机等终端屏幕形态的延伸,把信息展示转移到用户视野中。
Meta与Ray-Ban合作的AI眼镜率先打开了市场,首先在语音、翻译和基础视觉理解等功能上跑通日常使用频率,随后在二代产品中引入光波导技术。而在Meta之前,Rokid、雷鸟、阿里夸克等企业也先后推出了带有光波导可视技术的AI眼镜。
不过,相比上一轮以“无显示”为主的AI眼镜,可视AI眼镜在工程层面临的挑战并未缓解,反而更加集中地暴露出来。
Meta首席技术官Andrew Bosworth在谈到Orion原型时直言,显示部件的良率“糟糕得难以想象”。换言之,想要成为新时代的AI终端,AI眼镜仍有不少工程问题有待突破。
事实上,在当前技术路径中,光波导几乎是唯一能够在保证视野通透的同时,将信息叠加到现实世界中的方案。不过,直到今天,光波导的规模化量产仍是一个尚未解决的工程难题。
另一方面,技术路线的高度同质化,也影响着一些厂商对AI眼镜的态度。近期,业内一些传闻又指向了字节将在近期发布AI眼镜。但据XR Vision工作室推测,这款产品或将不会发售,字节或将直接开启下一代产品的研发。
XR Vision的这一推测,源自当前AI眼镜赛道“硬件同质化、功能趋同”的普遍困境,正如行业内对vivo暂停AI眼镜项目的评论所言,当下大厂在该赛道普遍谨慎,核心原因正是“很难做出差异化”。
在技术迭代需要更多时间的一背景下,屏型AI更像一场耐力赛。不管是AI手机还是AI眼镜,都需要操作系统、硬件门槛和生态的持续整合。
三
拆解使用逻辑后,你会发现“笔”和“屏”并不是同一条路。想象一个很日常的场景:开会时,你只想把人说的话完整记住;散会后,你需要把重点写进纪要、把任务派出去。在AI交互层面,前者需要“感受和采集”,后者需要“操作和订正”。
是否让AI参与决策,成为这场AI硬件分化背后的重要原因之一。有些场景可以不涉及决策、先行感知,但一旦进入决策环节,交互逻辑就完全不同。
为什么“决策”必须更谨慎?复杂系统研究者梅拉妮·米切尔曾在采访中表示,生成式模型容易在不同情境下表现出脆弱性与自相矛盾,因此人类必须保持监督与编辑的角色。
翻译成更直观的话就是:模型可以帮你推进流程,但人必须能够监控这个过程,并且随时介入和把控。这正是有屏AI硬件不可替代的一面。
在学术界,有一个概念被称为“自动化偏差”——人们倾向于相信系统给出的建议,哪怕自己隐约觉得不对。
早在2000年,美国的一项实验研究《问责机制与自动化偏差》就指出:当参与者被要求对整体表现或决策准确性“承担责任”时,自动化偏差的发生率会下降。在AI时代,这意味着一旦结果需要追责,人就更需要一个可确认、可校验的界面,而这恰恰是“屏”最擅长承担的部分。
因此,“笔”与“屏”的路线之争,本质上是AI硬件所对应场景分化的结果:贴身设备“笔”更像“感知与记忆外设”,负责持续采集信息;屏幕终端更像“编辑与执行中枢”,强调任务的持续交互与可追踪性。
不过,考虑到技术层面的不断进化,“笔”的价值也许会在更长周期中体现出来。
全天候的理解和感知,使“笔”形态能够为AI提供长期语料与上下文。换言之,建立在持续感知之上的技术,未来的“笔”可能会比“屏”更懂用户。“笔”更契合AI时代的长期记忆,“屏”则更像一个工作台。
斯坦福人类中心AI研究所曾提出,将人类与AI的交互设计放在算法核心,是确保系统可用且可信的关键,强调“算法不只是输出结果,更要考虑人类如何理解与使用这些结果”。
本质上,“笔”和“屏”只是代表了这一逻辑中的两种优先级选择:是优先“长期记忆”,还是优先“即时反馈”。
新锐AI公司希望跳出传统交互逻辑,通过新的产品形态塑造新场景与新需求。这也是为什么在AI Pin失败之后,业内仍愿意期待OpenAI无屏方案的成果。
而在ToB领域,越来越多公司已经不再试图用一台设备“包办一切”。Plaud、钉钉、飞书将AI硬件定位为语音入口,已经在垂直场景中验证了“持续感知”的可行性。
事实上,“笔”和“屏”从来都不矛盾,它们更像产品设计中“不可能三角”的两端:无感与便携、可视与信息处理,以及稳定输出所需的续航与算力支持。
换言之,AI硬件对未来的定义不止一个。“笔”和“屏”阵营的边界,或许会随着技术迭代逐渐模糊。但在当下,“笔”形态的超级入口尚未真正出现,通用AI在短期内仍离不开传统手机等“屏”设备作为算力终端。
它们最终究竟是替代还是协作的关系,AI企业与传统硬件企业,或许会在未来两年内给出答案。
本文来自微信公众号:字母PRO,作者:李炤锋,编辑:王靖
