我用 AI 在美团上做“大众评审官”，效果超乎想象-虎嗅网

本文来自微信公众号：AI 破壳儿，原文标题：《我用 AI 在美团上做“大众评审官”，效果超乎想象》电影虽然是来搞笑的，但是“分歧”确实无处不在。尤其是最近玩起了「美团外卖」的「小美评审团」之后，每天我都能收到好些个商家和消费者的纠纷“案件”。于是，一个想法冒出来了：AI 能做主持公道的评审官吗？带着疑问，我开始了这项实验。结果发现：AI 还真行！说明：本次实验选用的 AI 是 Kimi Chat。通过认证考试，AI 判官成功上岗我们在「小美评审团」上开展这项 AI 判官实验。这类似于「闲鱼小法庭」，专门组织热心群众，对外卖上的差评进行合理性判断。在做判官的时候，需要同时参考多项资料来综合判断：顾客评价、商家证据截图，甚至是订单备注、外卖送达时间...因此，想当判官也是有门槛的。至少，得能通过美团的上岗考试。平台设置了 5 道考题，必须至少答对 4 道，证明有公平正义的素养，才能成为正式判官。此时，我们打开 Kimi 跟它 brief 了一下背景信息，AI 表示理解和配合。通过截图，将题目依次发给 AI，并将 AI 给出的答案，直接填写到试卷答案里，不加个人判断。没想到，AI 竟然五题全对，还给出了像模像样的分析过程，成功获得了判官身份。时机成熟，AI 判官要开始“断案”了！评审相当靠谱，AI 判官准确率接近 80%为了避免 AI 对正常评审的干扰，我们先让它对一些已经完成“裁决”的案例练练手。每个案例，「小美评审团」都会让多位判官共同来评，最终的“裁决”是少数服从多数。简单来说，对于已经完成“裁决”的案例，当看到“结果一致”时，就说明评对了。我们对 AI 的表现进行了统计，发现 “结果一致”的占比，约 73.3%。不得不说，AI 判官的准确率已经已经超过了我本人... 此时，我第一次感觉自己要被 AI 取代了。理性客观的 AI 判官，细心程度甩我一条街被 AI 反超，我自然很不服气。因此，我仔细研究了一下 AI 判官的思路。相比之下，我作为人类，更容易受到情绪干扰，也更容易漏掉一些关键的细节。而 AI 更加冷静、细致。比如下面这个案例，顾客因为错把“脱骨肠”看成了“脱骨汤”，以为商家少送了汤，而给了差评。AI 很细心地梳理了所有证据，发现了盲点，指出顾客对订单存在的“不切实际的期望”，而我却没能分辨清楚。AI 可以读懂反讽、甩锅等复杂人类行为，洞察问题本质。再比如这个案例，AI 读懂了顾客的“明褒实贬”，冷静地指出顾客是在以讽刺的语气表达不满，并且当商家声称这其实是同行恶意差评，AI 也能分析其可信度。AI 能轻松识破证据链的破绽，找到自相矛盾的漏洞。最后再举一个例子，AI 发现了顾客评价和顾客订单信息中的前后矛盾，质疑顾客评价的准确性。当然，AI 判官也会失手尽管 AI 的分析力超强，但却总在一些不起眼的小 case 上栽跟头。比如有一回，商户提及遭到顾客辱骂，这一点似乎获得了 AI 的同情。AI 认为语言辱骂违反了平台行为准则，这样的评价不应让大家看到。而顾客评价中，当出现负面用词是“垃圾”、“整道菜都没有肉，真的很垃圾”，AI 也会认为这样的评价不应该展示。看样子，AI 可以接受阴阳，但无法接受脏话，哪怕只有一点点。再比如还有一个案例，顾客错将奶茶杯上贴的“#8”理解成“8元”，坚称自己点的是 11 元的杨枝甘露，不应给他 8 元的杨枝甘露。此时，虽然商家获得了评审团的压倒性支持，但 AI 判官却陷入了与顾客相同的困惑。根据以上表现，你认为 AI 可以正式成为评审官吗？（单选）A：能，AI 比人类更客观 barB：不能，AI 还差点意思