智能眼镜与AI代理结合开创人机交互新范式,通过多模态感知+自动化执行实现"无感操作",预示AI硬件从问答工具向主动助手的进化。 ## 1. VisionClaw:智能眼镜的AI代理操作系统 - 开源项目VisionClaw将Ray-Ban Meta眼镜变为AI代理的感知器官,结合Gemini Live多模态API和OpenClaw的56种工具,实现环境感知-决策-执行的闭环系统 - 突破性在于将AI问答能力升级为执行能力,如注视饮料说"加入购物车"即可完成亚马逊加购操作,关键延迟达1帧/秒的实时数据传输 ## 2. 智能眼镜成为AI代理的理想载体 - 相比手机,眼镜具备全天候佩戴、环境感知和注意力追踪优势,扎克伯格认为这是理解用户上下文的最佳AI入口 - 实际用例显示其不可替代性:驾驶时语音操控发消息不分散注意力,智能家居"看灯说调暗"的直觉式交互 ## 3. "龙虾"自动化理念的硬件革命 - OpenClaw代表机器自动化新范式,其价值在于突破虚拟世界局限,通过眼镜传感器渗透现实场景 - 厂商已开始布局:Rokid支持接入OpenClaw,Meta显示屏眼镜因缺乏AI代理支持而遇冷,开发者正移植VisionClaw能力激活硬件潜力 ## 4. 未来交互形态的雏形 - 眼镜可能演变为手机的AI代理延伸终端,如发布会场景中口述指令自动生成稿件并同步显示 - 苹果被曝开发AI胸针,预示多形态传感器设备将崛起,核心在于构建"感知-行动"的短链路交互
你的智能眼镜,也能养龙虾了?
2026-03-26 17:13

你的智能眼镜,也能养龙虾了?

本文来自微信公众号: 爱范儿 ,作者:发现明日产品的,原文标题:《你的智能眼镜,也能养龙虾了?|AI 器物志》


智能手机统治了过去十几年的数字生态,它是注意力的黑洞,是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑,都止于屏幕。


AI的需求却恰恰相反:它需要持续感知物理世界——见你所见,听你所闻,随时在场,而非等你解锁屏幕才醒来。


当AI真正成为一种基础能力,它迟早要从屏幕里破壳而出,寻找属于它自己的形状。这将是一个漫长的探索和演化过程。


「AI器物志」栏目由此而来,爱范儿想和你一起持续观察:AI如何改变硬件设计,如何重塑人机交互,以及更重要的——AI将以怎样的形态进入我们的日常生活?


这是「AI器物志」的第8篇文章。


OpenClaw龙虾潮爆发2个月,一个万物皆可龙虾的时代来了。


电脑养龙虾已经属于基操,现在手机厂商纷纷开推官方龙虾,QQ微信也有了龙虾插件,甚至电动车也能接个龙虾。


不过,最近我发现了一个养龙虾的天选圣体——


这个叫VisionClaw的开源项目,可以让AI Agent看你所看,听你所听,能得知你的环境上下文,然后利用龙虾实现操作。


VisionClaw GitHub页面:


https://github.com/Intent-Lab/VisionClaw


智能眼镜,成为「龙虾眼」


严格来说,VisionClaw其实并不是用「眼镜」本体来养龙虾,毕竟智能眼镜的性能相对有限,本质上龙虾还是养在电脑上,眼镜充当的,是龙虾的「眼镜」和「耳朵」这两个角色。


前置准备也比较简单:一个Ray-Ban Meta眼镜,一台iPhone或Android手机,对应的Xcode或者Android Studio开发工具,一台部署OpenClaw的Mac,以及一个免费的Gemini Live API密钥。



整个VisionClaw的架构,是一个完整的「感知-决策-行动」系统,结合了Meta眼镜的传感器和数据、Google Gemini强大的多模态能力,以及OpenClaw的自动化执行能力。


感知层面,利用的是Meta的Wearable DAT SDK(数据传输SDK),实时获取智能眼镜摄像头画面和麦克风音频。通过WebRTC协议,这些海量的流数据以极低的延迟传输到后端,能够一秒传输一帧画面,相当于「快照」。


Gemini Live是Google Gemini的多模态能力,在手机上下载一个Gemini应用,就能调用摄像头和麦克风,让Gemini识别现实世界中的事物,据此回答用户的语音提问。



通过Google提供的API,Ray-Ban Meta也能接入这种能力,使用眼镜「感知层」捕获到的快照和录音,进行「决策」。


如果用户在电脑上部署了龙虾,可以通过网关与手机对接,Gemini在接到用户的具体任务指令后,它就能调用OpenClaw多达56个工具和技能,去操作外部API、网页或本地应用。



这也是这套方案真正有意思的地方,毕竟,不管是Ray-Ban Meta还是Google AI眼镜,抑或是其他品牌的AI智能眼镜,多模态的问答能力都基本是标配,戴着眼镜可以翻译面前的外语,或者对着食物生成菜谱。


有了OpenClaw之后,眼镜才从「问答」,真正升级到了「执行」,能真正「影响」你面前的现实世界。


龙虾上眼镜后,真·AI助手来了


生成式AI浪潮汹涌,「钢铁侠」与他的AI助手「贾维斯」成了现实的参照标杆,各类产品和理念争相靠拢,而VisionClaw,则可能是当下最贴近这一未来愿景的存在。


作为一种「全时陪伴」的AI硬件,VisionClaw眼镜在不少场合都是一个比手机更理想的入口。想象这个场景:当你在路上全神贯注驾驶,因为前方修路不得不绕行,这时,你可以直接呼出VisionClaw,让它告诉你的朋友要迟到,Gemini就会利用OpenClaw,给朋友发出信息——全程,你的手没有离开方向盘,视线也没有离开路况。


这种场景,只是VisionClaw多模态感知能力的一种,还远非它的上限。


VisionClaw的创始人Xiaoan Liu分享了一个更加具体并且有趣的用例:他面前有一瓶饮料,于是他呼出眼镜的VisionClaw助手,直接说「帮我把这个饮料放进我的Amazon购物车」,AI首先识别出了这是一瓶魔爪草莓味能量饮料,然后操作浏览器,进入Amazon官网,进行搜索后将商品加购。



根据GitHub的页面,VisionClaw还能实现一些相对更「科幻」的操作:比如更自然、无感的智能家居控制,戴着眼镜看向一盏灯,发出「调暗」的指令,OpenClaw就知道该对哪盏灯进行对应的操作。


上线两个月,VisionClaw吸引了不少极客网友的注意,一些网友认为,这种「语音+视觉+智能体操作」的方案,几乎就是AI Agent第一个「可用形态」。



由于项目开源的特性,VisionClaw的能力理论上来说没有天花板,开发者可以自己加入、定制自己想要的能力。


龙虾和智能眼镜,为什么是一对天作之合


由于VisionClaw≈摄像头麦克风+Gemini Live+OpenClaw的架构,它其实完全可以部署在手机上。


但我认为,智能眼镜依旧是最适合VisionClaw的载体,并且「龙虾」OpenClaw也需要一个像智能眼镜的容器。


龙虾究竟是什么?具体来说,它是一个部署在电脑的开源AI智能体,拥有极强的数据读取和自动化操作能力。


而从一个更宏观的视角去看,「龙虾」是一种理念,一个机器高度自动化的思路,重要的根本不是「OpenClaw」这个智能体本身。


「龙虾」之所以成为了一个潮流,席卷厂商、极客乃至大众,无非是因为它不止能写文章能画画,而是真的能动手能干活,更契合我们最初对「AI」的畅想——一个无所不能的助手,我们动动嘴皮子,就把事情完成了。


在电脑养龙虾,AI只能处理计算机和互联网中的虚拟任务,虽然能力已经足够强大,但还是偏「孤岛」,无法进一步渗透生活,明明生活中的不少琐事,都很值得交给AI完成。


并且,如果日常中想要调用龙虾帮自己做某些事情,不得不用手机或电脑,并提供大量的上下文和指令。


比如上面提到的买饮料,用户必须要先知道这是哪一款饮料,然后告知OpenClaw,才能让它帮忙加购,这个过程相对繁琐,还不如自己手动操作。


这些问题,刚好都能被VisionClaw解决。


Meta CEO马克·扎克伯格一直相当看重「智能眼镜」作为AI载体的价值,因为它不仅可以长时间佩戴,作为一个随时就位的AI入口;还能通过摄像头、麦克风等环境传感器,收集用户环境上下文,作为AI决策的依据,它真的知道你的注意力放在了何处。


在用户现实生活上下文的支撑下,龙虾的能力范围进一步扩张,「自动化」的好处,终于也能在日常生活中得以体现。让AI砍掉多余的操作和步骤,极简化地实现原本多个步骤的操作,「龙虾」的意义,才真正从「工具」,转变为「伙伴」。


目前的VisionClaw,还需要用户下达指令才能执行操作,未来很可能演变成一种更「自觉」的智能能力。


比如说,当用户读自己的体检单,眼镜不仅会将读数转化成具体的身体状况,如果发现一些潜在的疾病风险,还会主动询问用户是否需要帮忙预约医生。


VisionClaw某种意义上就是智能眼镜愿景的「终点」。这说的并不是「VisionClaw」这个开源方案本身,因为这更多只是一个技术方向的探索方案,很难真正面向大众,它所描绘和证明的「可能性」更有价值。


智能眼镜的结局未必真的能「替代」手机,更可能的未来,就是成为手机的延伸,特别是AI Agent的触角和入口,通过语音交互和自动化执行的能力,减少用户掏出手机的次数。



一些智能眼镜厂商,已经发现了「龙虾眼镜」的潜力。Rokid上线了「自定义智能体」的功能,可以接入OpenClaw等平台,集成调用文件系统、浏览器操作以及更多脚本能力。


去年,Meta推出了首款带单眼显示屏的Ray-Ban Display眼镜,但这款产品并没有延续不带显示屏Ray-Ban Meta的成功,除开价格要素,使用场景偏窄是更致命的问题,大家不知道,要拿这个显示屏做什么。


在AI Agent的加持下,显示屏眼镜的一些生产力场景才得以成立,而Meta目前的AI能力并不能很好托举这款未来产品,需要「龙虾」这种更强大的自主能力才能助推。目前一些开发者已经在着手,将类似VisionClaw的能力移植到Ray-Ban Display上,利用好这块显示屏。


试想一下,未来戴一副具有显示屏的「龙虾眼镜」到产品发布会现场,我只要下达一个「帮我写一个上手稿件」的指令,然后上手把玩产品,Agent就能帮我写出口播稿,我也一边能够在眼镜屏幕上浏览生成的结果,完全不需要用到电脑,而稿件完成后,还可以通过调用远程的电脑,来展开进一步的工作。


VisionClaw也打开了一扇可能性的大门,今天有龙虾眼镜,明天可能「龙虾手表」「龙虾耳机」也安排上了,不仅能作为离用户更近的AI入口,其传感器也能为Agent带来更丰富的数据和依据。


厂商们已经在这条道路上全速奔跑。MacRumors爆料,苹果正在开发一个「AI胸针」,搭载摄像头和麦克风等多种传感器,与iPhone配合使用,为全新的AI Siri捕捉现实世界信息。


硬件只是载体,真正重要的是「形态」本身,哪一种形态才能完全释放出AI的全部能力,短期内还没有答案,至少在VisionClaw身上,我们看到了未来交互的潜力。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定