杭州萌小译推出的800元AI宠物翻译项圈引发争议,本文拆解其准确率逻辑,厘清宠物翻译产品的真实定位。 ## 1. 新产品引争议:800元双向AI宠物翻译项圈受热捧 萌小译推出的PettiChat AI翻译项圈,搭配手机APP可实现人宠双向“翻译”,众筹阶段售价约合人民币800元,已在海外众筹平台获得863名支持者,认缴14万港币,国内微信小店预售已有190人购买。 该产品声称翻译准确率达94.6%,但因宠物真实想法无法核实,遭到网友“数据造假”的质疑。 ## 2. 宠物翻译产品发展:需求一直存在,技术逐步迭代 早从2002年日本Takara推出BowLingual狗情绪翻译玩具开始,大众对人宠沟通就有强烈需求,该产品还获得了搞笑诺贝尔和平奖。 近年来AI技术发展,宠物翻译工具层出不穷,本次的PettiChat是首个公开拿出测试数据的商业化产品。 ## 3. 拆解94.6%准确率:是情境分类准确率,而非翻译准确率 PettiChat依托150万条标注宠物叫声样本,联合浙大动科院积累了500万+宠物声纹数据,引用两篇公开学术数据集测试,模型在复杂环境下识别宠物声音的准确率可达98.6%。 所谓94.6%是对猫叫声对应行为情境的分类准确率(狗狗对应分类准确率为92.3%),并非将宠物叫声直接译为人类语言的准确率。 ## 4. 产品真实定位:从分类到拟人翻译是娱乐化加工 PettiChat先识别声音对应的行为情境标签,再将标签加工为拟人化的自然语言呈现在APP中,这部分拟人翻译并不在94.6%准确率的覆盖范围内。 该产品并非真正意义上的宠物语言翻译器,本质是满足铲屎官沟通需求的娱乐向产品,并非纯粹的智商税也远未实现真正翻译。
戴上800块的AI 项圈,就能听懂喵星人的话?
2026-05-26 18:02

戴上800块的AI 项圈,就能听懂喵星人的话?

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《戴上 800 块的 AI 项圈,就能听懂喵星人的话?》


哪个铲屎官不想在自己的小猫小狗发出声音时,听懂它到底想说什么;或者是让它们听懂人类的语言。


杭州一家名为「萌小译」的公司最近推出了一款产品,800块就能实现我们和宠物之间的双向翻译,并且准确率达到了94.6%。


通过一个兼具收音与播放功能的AI项圈,结合手机App,AI项圈会把小猫小狗的声音转成文字显示在App内的对话框,用户可以在对话框发送消息,项圈会发出「喵喵」或「汪汪」的语言,以此让宠物「听懂」人类的话。


听着就特别不靠谱,毕竟类似的产品,我们在微信小程序里面随便一搜就有一大堆。有些很直接地写着「仅供娱乐,请勿认真」,有些一样用着AI的旗号,主打通过录音用AI分析情绪。


如图中的AI宠语翻译,就是利用Qwen-Omni大模型驱动


另一方面是,猫猫狗狗说的什么,我们根本无从验证。翻译器大可用一句不太会出差错的通用场景,例如「我饿了」、「我想出去了」、「我不舒服了」、「有人来了」之类的表达。


而将我们说的话翻译成猫言狗语,大概也会因为宠物的认知有限,导致验证失败。


但就是这么「玄」的一件事,还有指标可以用来衡量,而且做到了94.6%。


萌小译推出的AI项圈还在X上引起了不少的热度,网友们都在讨论这家来自中国的AI宠物翻译初创公司。也有网友直接说「95%的准确率是基于你能核实他们所说的话的前提,而你根本无法核实。所以这纯粹是胡扯,哈哈。」


尽管伴随着一些争议,但PettiChat还是很受欢迎,在众筹平台Kickstarter上已经成功募集到了863名支持者,认缴金额达到了14万港币。



在众筹阶段,产品售价是119美元,约合人民币800元,众筹结束后目前海外售价是149美元。


而在微信小店的记录,该产品以799的预售价格,显示有190人已购买。在商品的评论区,有用户贴出了买家秀,表示「偶尔能听听毛孩子的想法很有意思」。


这些翻译的宠物语言,也是相当的人性化。不仅有大量的语气助词「嘛~」、「呐」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」,还有「不客气」、「别把我忘了」这种情绪感拉满的表达。



宠物真的能懂这么多信息吗


所以,PettiChat的准确率到底是怎么衡量的,这些同类型的产品是不是一种智商税。


一直被怀疑,一直在更新的宠物翻译设备


2002年,日本玩具公司Takara推出了BowLingual,一款狗狗「情绪翻译」项目。



它的工作方式很简单:麦克风录音,然后把狗叫归类成几种情绪状态,比如「开心」「焦虑」「生气」。原理接近噱头,但它真的卖出去了,还获了搞笑诺贝尔奖,评语说的是「它实现了人犬和平交流,所以获得和平奖」。


二十年后,类似的AI工具层出不穷,开头提到的那些小程序,还有专门的应用,都开始利用机器学习来分析猫叫,给每一声叫声打上标签。



年初的CES展会,Traini也推出了一款AI项圈,定位是「人对狗」的单向翻译。我们说话,它转成狗能理解的声学信号。


跟宠物建立沟通的欲望仿佛一直都没有被浇灭,随着技术的演进,反而让我们越来越相信和猫猫交流是有点可能。


这次引起大家关注的PettiChat比以前的产品多做了一件事:它拿出了一套测试数据。


外观上看,PettiChat重27克,夹在项圈上,确实不会对宠物造成额外的负担。


在这个小小设备里,还有边缘计算芯片直接处理音频,延迟最低40毫秒。它不需要持续联网,只在分析声音时短暂调用云端资源。还有其他能力像是IP65防水,一次充电支持1000次翻译,和100小时GPS追踪。


它们在众筹平台上的宣传提到,所使用的声学模型背后是超过150万条宠物叫声样本,结合动物行为学的同行评审研究。最终达到的成果是,仅凭声音模式识别情绪状态,准确率达到91-92%,加入姿态监测维度之后,实验室条件下综合准确率达到94.6%。


500万+的宠物声纹数据


在众筹页面有两张不太清晰的宣传图,列出了这些数据是在哪些基准上进行测试的。我们拿着放大镜看,发现其中提到了两篇论文。




一篇是来自多媒体顶会MM 2025的DogSpeak,犬类发声分类数据集。


作者在这篇文章里,提出了一个大型狗叫声数据集DogSpeak,目标是研究能不能只靠狗的叫声判断狗的性别、品种,甚至是哪一只狗。



它的数据来源是YouTube、TikTok等社交媒体上的狗视频。作者先用哈士奇、吉娃娃、德国牧羊犬、比特犬、柴犬五个品种去搜视频,然后根据频道信息、标题、评论等确认狗的身份、性别、品种。


最后得到了156只狗、5个品种、77202段狗叫序列、33.162小时纯狗叫声。这些数据都没有标注不同的声音代表狗狗在做什么,也没有添加任何的情境信息。


文章的实验任务主要是通过声音序列,来判断狗狗的性别、品种和识别具体是哪一只狗。而实验结果显示,单就这些任务,也没有想象中容易。单纯依靠「纯声学特征」,是很难完美解决真实复杂环境下的狗叫声识别。


可以考虑结合表情


作者在文末建议未来的研究应该跳出传统音频技术的舒适圈,去探索更高级的结构性、韵律性、甚至是犬类潜在的「语言学」特征。


另一篇论文同样是来自MM,2014的城市声音研究的数据集和分类法。这是城市环境声分类领域的经典数据集论文,核心贡献是UrbanSound8K数据集和城市声音分类法。



作者把城市声音分成人声、自然、机械、音乐等大类,再细到狗叫、汽车喇叭、警笛、钻孔、空调、街头音乐等具体声音源。


PettiChat引用了这两篇论文的数据集进行测试,以及联合浙大动科院积累了500万+宠物声纹数据,大约150万条标注,同时在数据集上增加了UrbanSound的环境声音,以确保在真实环境的鲁棒性。


PettiChat所使用的模型,是基于阿里云通义千问大模型。而参与测试的模型包括没有经过预训练的Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B,以及小米Mino-V2-Omni。


他们根据这些声纹数据和UrbanSound 8K做了一个很大的独立测试集,里面有「叠加过背景噪音的宠物叫声音频样本」,比如一段狗叫或猫叫,叠上电视声、车流声、家电声、街道声等,做成更接近真实生活的混合音频。


以及各种各样的噪音样本,这些可能是不含宠物声音的背景声,用来测试模型会不会把普通噪音误判成宠物叫声。


这些既有带噪声的宠物叫声,也有纯噪声/非宠物声音,只是被用来测试模型能不能在复杂真实环境里准确识别宠物声音。Petti模型的表现在这一项测试下,达到了平均98.6%的识别/检测层面的准确率。


计算准确率的方式是「是否识别宠物声音」,而不是在测试「能不能翻译宠物在想什么」。


在另一项测试中,没有其他的对比模型,也没有列明具体的测试集,只是使用PETTI-260315这一模型,测试了其在猫/狗情境声音识别中的准确率。


猫猫的分类标签包括了攻击/敌对、颤音/社交亲近、叫唤请求/急迫、防御性打斗行为、防御性威胁、捕猎意图/潜伏、痛苦/压力叫声、环境干扰、呼噜/休息。这些数据一共有19万条,是经过专家检查过的猫猫声音情境测试数据。


狗狗同样是用了8.4万条专家检查过的狗声音情境测试数据,里面的分类标签也包括了攻击/敌对、节律性发声、远距离呼叫、分离焦虑、环境干扰、领地警戒、服从/安抚。


针对这些情境的测试,猫猫的平均准确率达到了94.6%,狗狗是92.3%。


而标记这些声音属于哪一种情境,在他们的众筹宣传文章里面还提到了Video Ground Truth这个概念。


它的意思是用视频中的行为、环境、姿态、主人互动等作为标签来源,去对齐宠物声音和场景。


比如视频里狗对门口陌生人叫,这段声音就会被标记成alert/stranger detected;当猫靠近食盆叫,这段声音序列就被标成food seeking。


所以,本质上94.6%是宠物声音情境分类准确率,而不是我们所理解的一句宠物语言翻译成人类语言的准确率。


但翻译成人类语言是真的有机会实现吗?就拿这个模型来说,它输出的原始结果,可能只是一个标签。


比如一段狗叫被识别为「领地警戒」,这在测试里可以算作一次分类正确。但到了App里,它显示的是「有人来了,我要守住这里。」


一段猫叫被识别为「急迫性请求叫声」,应用里弹出的对话也会是更个性化的「快看看我嘛,我有点着急。」



从「行为标签」到「拟人化翻译」的再加工,它反而让产品变得好玩、亲切,也更像真的在对话。但严格来说,这部分根本不再是那94.6%可以直接覆盖的范围。


因为测试集里的标准答案大概率不是一句自然语言。这些模型只需要判断这段声音更接近「分离焦虑」、「领地警戒」、「呼噜休息」,并不需要证明宠物真的想说「别把我忘了」或者「我想亲亲你的手」。


这也是所有宠物翻译产品最微妙的地方,它可能不是骗子式的随机翻译,但也还远不是我们想象中的宠物语言翻译器。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定