杭州萌小译推出的800元AI宠物翻译项圈引发争议，本文拆解其准确率逻辑，厘清宠物翻译产品的真实定位。 ## 1. 新产品引争议：800元双向AI宠物翻译项圈受热捧萌小译推出的PettiChat AI翻译项圈，搭配手机APP可实现人宠双向“翻译”，众筹阶段售价约合人民币800元，已在海外众筹平台获得863名支持者，认缴14万港币，国内微信小店预售已有190人购买。该产品声称翻译准确率达94.6%，但因宠物真实想法无法核实，遭到网友“数据造假”的质疑。 ## 2. 宠物翻译产品发展：需求一直存在，技术逐步迭代早从2002年日本Takara推出BowLingual狗情绪翻译玩具开始，大众对人宠沟通就有强烈需求，该产品还获得了搞笑诺贝尔和平奖。近年来AI技术发展，宠物翻译工具层出不穷，本次的PettiChat是首个公开拿出测试数据的商业化产品。 ## 3. 拆解94.6%准确率：是情境分类准确率，而非翻译准确率 PettiChat依托150万条标注宠物叫声样本，联合浙大动科院积累了500万+宠物声纹数据，引用两篇公开学术数据集测试，模型在复杂环境下识别宠物声音的准确率可达98.6%。所谓94.6%是对猫叫声对应行为情境的分类准确率（狗狗对应分类准确率为92.3%），并非将宠物叫声直接译为人类语言的准确率。 ## 4. 产品真实定位：从分类到拟人翻译是娱乐化加工 PettiChat先识别声音对应的行为情境标签，再将标签加工为拟人化的自然语言呈现在APP中，这部分拟人翻译并不在94.6%准确率的覆盖范围内。该产品并非真正意义上的宠物语言翻译器，本质是满足铲屎官沟通需求的娱乐向产品，并非纯粹的智商税也远未实现真正翻译。

2026-05-26 18:02

戴上800块的AI 项圈，就能听懂喵星人的话？

AppSo

速览

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《戴上 800 块的 AI 项圈，就能听懂喵星人的话？》

哪个铲屎官不想在自己的小猫小狗发出声音时，听懂它到底想说什么；或者是让它们听懂人类的语言。

杭州一家名为「萌小译」的公司最近推出了一款产品，800块就能实现我们和宠物之间的双向翻译，并且准确率达到了94.6%。

通过一个兼具收音与播放功能的AI项圈，结合手机App，AI项圈会把小猫小狗的声音转成文字显示在App内的对话框，用户可以在对话框发送消息，项圈会发出「喵喵」或「汪汪」的语言，以此让宠物「听懂」人类的话。

听着就特别不靠谱，毕竟类似的产品，我们在微信小程序里面随便一搜就有一大堆。有些很直接地写着「仅供娱乐，请勿认真」，有些一样用着AI的旗号，主打通过录音用AI分析情绪。

如图中的AI宠语翻译，就是利用Qwen-Omni大模型驱动

另一方面是，猫猫狗狗说的什么，我们根本无从验证。翻译器大可用一句不太会出差错的通用场景，例如「我饿了」、「我想出去了」、「我不舒服了」、「有人来了」之类的表达。

而将我们说的话翻译成猫言狗语，大概也会因为宠物的认知有限，导致验证失败。

但就是这么「玄」的一件事，还有指标可以用来衡量，而且做到了94.6%。

萌小译推出的AI项圈还在X上引起了不少的热度，网友们都在讨论这家来自中国的AI宠物翻译初创公司。也有网友直接说「95%的准确率是基于你能核实他们所说的话的前提，而你根本无法核实。所以这纯粹是胡扯，哈哈。」

尽管伴随着一些争议，但PettiChat还是很受欢迎，在众筹平台Kickstarter上已经成功募集到了863名支持者，认缴金额达到了14万港币。

在众筹阶段，产品售价是119美元，约合人民币800元，众筹结束后目前海外售价是149美元。

而在微信小店的记录，该产品以799的预售价格，显示有190人已购买。在商品的评论区，有用户贴出了买家秀，表示「偶尔能听听毛孩子的想法很有意思」。

这些翻译的宠物语言，也是相当的人性化。不仅有大量的语气助词「嘛～」、「呐」、「喂」、「咦」、「嘿嘿」、「呀呀」、「呼呼」，还有「不客气」、「别把我忘了」这种情绪感拉满的表达。

宠物真的能懂这么多信息吗

所以，PettiChat的准确率到底是怎么衡量的，这些同类型的产品是不是一种智商税。

一直被怀疑，一直在更新的宠物翻译设备

2002年，日本玩具公司Takara推出了BowLingual，一款狗狗「情绪翻译」项目。

它的工作方式很简单：麦克风录音，然后把狗叫归类成几种情绪状态，比如「开心」「焦虑」「生气」。原理接近噱头，但它真的卖出去了，还获了搞笑诺贝尔奖，评语说的是「它实现了人犬和平交流，所以获得和平奖」。

二十年后，类似的AI工具层出不穷，开头提到的那些小程序，还有专门的应用，都开始利用机器学习来分析猫叫，给每一声叫声打上标签。

年初的CES展会，Traini也推出了一款AI项圈，定位是「人对狗」的单向翻译。我们说话，它转成狗能理解的声学信号。

跟宠物建立沟通的欲望仿佛一直都没有被浇灭，随着技术的演进，反而让我们越来越相信和猫猫交流是有点可能。

这次引起大家关注的PettiChat比以前的产品多做了一件事：它拿出了一套测试数据。

外观上看，PettiChat重27克，夹在项圈上，确实不会对宠物造成额外的负担。

在这个小小设备里，还有边缘计算芯片直接处理音频，延迟最低40毫秒。它不需要持续联网，只在分析声音时短暂调用云端资源。还有其他能力像是IP65防水，一次充电支持1000次翻译，和100小时GPS追踪。

它们在众筹平台上的宣传提到，所使用的声学模型背后是超过150万条宠物叫声样本，结合动物行为学的同行评审研究。最终达到的成果是，仅凭声音模式识别情绪状态，准确率达到91-92%，加入姿态监测维度之后，实验室条件下综合准确率达到94.6%。

500万+的宠物声纹数据

在众筹页面有两张不太清晰的宣传图，列出了这些数据是在哪些基准上进行测试的。我们拿着放大镜看，发现其中提到了两篇论文。

一篇是来自多媒体顶会MM 2025的DogSpeak，犬类发声分类数据集。

作者在这篇文章里，提出了一个大型狗叫声数据集DogSpeak，目标是研究能不能只靠狗的叫声判断狗的性别、品种，甚至是哪一只狗。

它的数据来源是YouTube、TikTok等社交媒体上的狗视频。作者先用哈士奇、吉娃娃、德国牧羊犬、比特犬、柴犬五个品种去搜视频，然后根据频道信息、标题、评论等确认狗的身份、性别、品种。

最后得到了156只狗、5个品种、77202段狗叫序列、33.162小时纯狗叫声。这些数据都没有标注不同的声音代表狗狗在做什么，也没有添加任何的情境信息。

文章的实验任务主要是通过声音序列，来判断狗狗的性别、品种和识别具体是哪一只狗。而实验结果显示，单就这些任务，也没有想象中容易。单纯依靠「纯声学特征」，是很难完美解决真实复杂环境下的狗叫声识别。

可以考虑结合表情

作者在文末建议未来的研究应该跳出传统音频技术的舒适圈，去探索更高级的结构性、韵律性、甚至是犬类潜在的「语言学」特征。

另一篇论文同样是来自MM，2014的城市声音研究的数据集和分类法。这是城市环境声分类领域的经典数据集论文，核心贡献是UrbanSound8K数据集和城市声音分类法。

作者把城市声音分成人声、自然、机械、音乐等大类，再细到狗叫、汽车喇叭、警笛、钻孔、空调、街头音乐等具体声音源。

PettiChat引用了这两篇论文的数据集进行测试，以及联合浙大动科院积累了500万+宠物声纹数据，大约150万条标注，同时在数据集上增加了UrbanSound的环境声音，以确保在真实环境的鲁棒性。

PettiChat所使用的模型，是基于阿里云通义千问大模型。而参与测试的模型包括没有经过预训练的Qwen2-Audio、Qwen2.5-Omni-7B、Qwen3-Omni-30BA3B，以及小米Mino-V2-Omni。

他们根据这些声纹数据和UrbanSound 8K做了一个很大的独立测试集，里面有「叠加过背景噪音的宠物叫声音频样本」，比如一段狗叫或猫叫，叠上电视声、车流声、家电声、街道声等，做成更接近真实生活的混合音频。

以及各种各样的噪音样本，这些可能是不含宠物声音的背景声，用来测试模型会不会把普通噪音误判成宠物叫声。

这些既有带噪声的宠物叫声，也有纯噪声/非宠物声音，只是被用来测试模型能不能在复杂真实环境里准确识别宠物声音。Petti模型的表现在这一项测试下，达到了平均98.6%的识别/检测层面的准确率。

计算准确率的方式是「是否识别宠物声音」，而不是在测试「能不能翻译宠物在想什么」。

在另一项测试中，没有其他的对比模型，也没有列明具体的测试集，只是使用PETTI-260315这一模型，测试了其在猫/狗情境声音识别中的准确率。

猫猫的分类标签包括了攻击/敌对、颤音/社交亲近、叫唤请求/急迫、防御性打斗行为、防御性威胁、捕猎意图/潜伏、痛苦/压力叫声、环境干扰、呼噜/休息。这些数据一共有19万条，是经过专家检查过的猫猫声音情境测试数据。

狗狗同样是用了8.4万条专家检查过的狗声音情境测试数据，里面的分类标签也包括了攻击/敌对、节律性发声、远距离呼叫、分离焦虑、环境干扰、领地警戒、服从/安抚。

针对这些情境的测试，猫猫的平均准确率达到了94.6%，狗狗是92.3%。

而标记这些声音属于哪一种情境，在他们的众筹宣传文章里面还提到了Video Ground Truth这个概念。

它的意思是用视频中的行为、环境、姿态、主人互动等作为标签来源，去对齐宠物声音和场景。

比如视频里狗对门口陌生人叫，这段声音就会被标记成alert/stranger detected；当猫靠近食盆叫，这段声音序列就被标成food seeking。

所以，本质上94.6%是宠物声音情境分类准确率，而不是我们所理解的一句宠物语言翻译成人类语言的准确率。

但翻译成人类语言是真的有机会实现吗？就拿这个模型来说，它输出的原始结果，可能只是一个标签。

比如一段狗叫被识别为「领地警戒」，这在测试里可以算作一次分类正确。但到了App里，它显示的是「有人来了，我要守住这里。」

一段猫叫被识别为「急迫性请求叫声」，应用里弹出的对话也会是更个性化的「快看看我嘛，我有点着急。」

从「行为标签」到「拟人化翻译」的再加工，它反而让产品变得好玩、亲切，也更像真的在对话。但严格来说，这部分根本不再是那94.6%可以直接覆盖的范围。

因为测试集里的标准答案大概率不是一句自然语言。这些模型只需要判断这段声音更接近「分离焦虑」、「领地警戒」、「呼噜休息」，并不需要证明宠物真的想说「别把我忘了」或者「我想亲亲你的手」。

这也是所有宠物翻译产品最微妙的地方，它可能不是骗子式的随机翻译，但也还远不是我们想象中的宠物语言翻译器。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP