AI 破壳儿
2024-09-29
No.25

我用 AI 在美团上做“大众评审官”,效果超乎想象

主理人:
在电影《非诚勿扰》中,曾有过这样一段台词:

“世界上之所以战火不断、冲突加剧,根源是,分歧得不到公正的裁决。”凭着这番话,葛大爷说服了投资人,成功卖掉了“分歧终端机”的发明专利。

本文来自微信公众号:AI 破壳儿,原文标题:《我用 AI 在美团上做“大众评审官”,效果超乎想象》

 

电影虽然是来搞笑的,但是“分歧”确实无处不在。

 

尤其是最近玩起了「美团外卖」的「小美评审团」之后,每天我都能收到好些个商家和消费者的纠纷“案件”。

 

 

于是,一个想法冒出来了:AI 能做主持公道的评审官吗?

 

带着疑问,我开始了这项实验。结果发现:AI 还真行!

 

说明:本次实验选用的 AI 是 Kimi Chat。


通过认证考试,AI 判官成功上岗

我们在「小美评审团」上开展这项 AI 判官实验。

 

这类似于「闲鱼小法庭」,专门组织热心群众,对外卖上的差评进行合理性判断。‍

 

在做判官的时候,需要同时参考多项资料来综合判断:顾客评价、商家证据截图,甚至是订单备注、外卖送达时间...

 

因此,想当判官也是有门槛的。至少,得能通过美团的上岗考试。

 

平台设置了 5 道考题,必须至少答对 4 道,证明有公平正义的素养,才能成为正式判官。此时,我们打开 Kimi 跟它 brief 了一下背景信息,AI 表示理解和配合。

 

 

通过截图,将题目依次发给 AI,并将 AI 给出的答案,直接填写到试卷答案里,不加个人判断。

 

没想到,AI 竟然五题全对,还给出了像模像样的分析过程,成功获得了判官身份。

 

 

时机成熟,AI 判官要开始“断案”了!


评审相当靠谱,AI 判官准确率接近 80%

为了避免 AI 对正常评审的干扰,我们先让它对一些已经完成“裁决”的案例练练手。

 

每个案例,「小美评审团」都会让多位判官共同来评,最终的“裁决”是少数服从多数。

 

简单来说,对于已经完成“裁决”的案例,当看到“结果一致”时,就说明评对了。

 

我们对 AI 的表现进行了统计,发现 “结果一致”的占比,约 73.3%。

 

不得不说,AI 判官的准确率已经已经超过了我本人... 此时,我第一次感觉自己要被 AI 取代了。


理性客观的 AI 判官,细心程度甩我一条街

被 AI 反超,我自然很不服气。因此,我仔细研究了一下 AI 判官的思路。

 

相比之下,我作为人类,更容易受到情绪干扰,也更容易漏掉一些关键的细节。而 AI 更加冷静、细致。

 

比如下面这个案例,顾客因为错把“脱骨肠”看成了“脱骨汤”,以为商家少送了汤,而给了差评。

 

AI 很细心地梳理了所有证据,发现了盲点,指出顾客对订单存在的“不切实际的期望”,而我却没能分辨清楚。

 

 

AI 可以读懂反讽、甩锅等复杂人类行为,洞察问题本质。

 

再比如这个案例,AI 读懂了顾客的“明褒实贬”,冷静地指出顾客是在以讽刺的语气表达不满,并且当商家声称这其实是同行恶意差评,AI 也能分析其可信度。

 

 

AI 能轻松识破证据链的破绽,找到自相矛盾的漏洞。

 

最后再举一个例子,AI 发现了顾客评价和顾客订单信息中的前后矛盾,质疑顾客评价的准确性。

 

 


当然,AI 判官也会失手

尽管 AI 的分析力超强,但却总在一些不起眼的小 case 上栽跟头。

 

比如有一回,商户提及遭到顾客辱骂,这一点似乎获得了 AI 的同情。AI 认为语言辱骂违反了平台行为准则,这样的评价不应让大家看到。

 

而顾客评价中,当出现负面用词是“垃圾”、“整道菜都没有肉,真的很垃圾”,AI 也会认为这样的评价不应该展示。

 

看样子,AI 可以接受阴阳,但无法接受脏话,哪怕只有一点点。

 

再比如还有一个案例,顾客错将奶茶杯上贴的“#8”理解成“8元”,坚称自己点的是 11 元的杨枝甘露,不应给他 8 元的杨枝甘露。

 

此时,虽然商家获得了评审团的压倒性支持,但 AI 判官却陷入了与顾客相同的困惑。

 

根据以上表现,你认为 AI 可以正式成为评审官吗?(单选)
  • A:能,AI 比人类更客观 bar
  • B:不能,AI 还差点意思 bar
  • C:我是来看答案的 bar
投票
2024-09-30 14:13:44

 

 

AI破壳儿:

欢迎关注「AI 破壳儿」,我们致力于提供最实用的 AI 工具指南、最多元的 AI 产品观点,帮助读者更好地理解和利用 AI 的潜能。

 

 

本文来自微信公众号:AI 破壳儿

AI 破壳儿

寻找 AI 融入日常的最优解,让 AI 成为更多人的好助手。每周更新实用、审美优良的 AI 工具和最佳实践。