本文来自微信公众号:AI 破壳儿,原文标题:《我用 AI 在美团上做“大众评审官”,效果超乎想象》
电影虽然是来搞笑的,但是“分歧”确实无处不在。
尤其是最近玩起了「美团外卖」的「小美评审团」之后,每天我都能收到好些个商家和消费者的纠纷“案件”。
于是,一个想法冒出来了:AI 能做主持公道的评审官吗?
带着疑问,我开始了这项实验。结果发现:AI 还真行!
说明:本次实验选用的 AI 是 Kimi Chat。
我们在「小美评审团」上开展这项 AI 判官实验。
这类似于「闲鱼小法庭」,专门组织热心群众,对外卖上的差评进行合理性判断。
在做判官的时候,需要同时参考多项资料来综合判断:顾客评价、商家证据截图,甚至是订单备注、外卖送达时间...
因此,想当判官也是有门槛的。至少,得能通过美团的上岗考试。
平台设置了 5 道考题,必须至少答对 4 道,证明有公平正义的素养,才能成为正式判官。此时,我们打开 Kimi 跟它 brief 了一下背景信息,AI 表示理解和配合。
通过截图,将题目依次发给 AI,并将 AI 给出的答案,直接填写到试卷答案里,不加个人判断。
没想到,AI 竟然五题全对,还给出了像模像样的分析过程,成功获得了判官身份。
时机成熟,AI 判官要开始“断案”了!
为了避免 AI 对正常评审的干扰,我们先让它对一些已经完成“裁决”的案例练练手。
每个案例,「小美评审团」都会让多位判官共同来评,最终的“裁决”是少数服从多数。
简单来说,对于已经完成“裁决”的案例,当看到“结果一致”时,就说明评对了。
我们对 AI 的表现进行了统计,发现 “结果一致”的占比,约 73.3%。
不得不说,AI 判官的准确率已经已经超过了我本人... 此时,我第一次感觉自己要被 AI 取代了。
被 AI 反超,我自然很不服气。因此,我仔细研究了一下 AI 判官的思路。
相比之下,我作为人类,更容易受到情绪干扰,也更容易漏掉一些关键的细节。而 AI 更加冷静、细致。
比如下面这个案例,顾客因为错把“脱骨肠”看成了“脱骨汤”,以为商家少送了汤,而给了差评。
AI 很细心地梳理了所有证据,发现了盲点,指出顾客对订单存在的“不切实际的期望”,而我却没能分辨清楚。
AI 可以读懂反讽、甩锅等复杂人类行为,洞察问题本质。
再比如这个案例,AI 读懂了顾客的“明褒实贬”,冷静地指出顾客是在以讽刺的语气表达不满,并且当商家声称这其实是同行恶意差评,AI 也能分析其可信度。
AI 能轻松识破证据链的破绽,找到自相矛盾的漏洞。
最后再举一个例子,AI 发现了顾客评价和顾客订单信息中的前后矛盾,质疑顾客评价的准确性。
尽管 AI 的分析力超强,但却总在一些不起眼的小 case 上栽跟头。
比如有一回,商户提及遭到顾客辱骂,这一点似乎获得了 AI 的同情。AI 认为语言辱骂违反了平台行为准则,这样的评价不应让大家看到。
而顾客评价中,当出现负面用词是“垃圾”、“整道菜都没有肉,真的很垃圾”,AI 也会认为这样的评价不应该展示。
看样子,AI 可以接受阴阳,但无法接受脏话,哪怕只有一点点。
再比如还有一个案例,顾客错将奶茶杯上贴的“#8”理解成“8元”,坚称自己点的是 11 元的杨枝甘露,不应给他 8 元的杨枝甘露。
此时,虽然商家获得了评审团的压倒性支持,但 AI 判官却陷入了与顾客相同的困惑。
欢迎关注「AI 破壳儿」,我们致力于提供最实用的 AI 工具指南、最多元的 AI 产品观点,帮助读者更好地理解和利用 AI 的潜能。
本文来自微信公众号:AI 破壳儿
AI 破壳儿
寻找 AI 融入日常的最优解,让 AI 成为更多人的好助手。每周更新实用、审美优良的 AI 工具和最佳实践。