“撒币”问答 AI 外挂能帮你赢取百万么?我们用实验说话
2018-01-11 19:07

“撒币”问答 AI 外挂能帮你赢取百万么?我们用实验说话

虎嗅注:王思聪等人掀起的“撒币”热潮,让无数人参与到在线答题的游戏当中。有《贫民窟的百万富翁》这部电影在前,许多人或多或少都幻想过通过答题一夜暴富的情景。这时候,“外挂”出现了,各家的 AI 都宣称自己是“作弊利器”,什么都懂,听了就能答。但实际效果如何?还得用事实说话。


本文转自公众号“量子位(ID:QbitAI)”,作者:唐旭,屈鑫。


“撒币”答题大火。


主动承认自己“撒币”甚至是“大撒币”的金主迅速增加,几个主要“撒币”战场的奖金总额增加,新的“撒币”战场还在不断开辟。答对一套题,有可能迅速晋身百万富翁行列!




通过紧张、苛刻、持续的“撒币”大战,越来越多的人开始享受到知识变现的快感。不仅如此,在这场近乎喧哗的狂欢之中,人们还第一次体会到了团队合作的宝贵,甚至——


复活了残喘已久的亲情。



这并不是不好。


但作为普利策口中“船头的瞭望者”,量子位,或许应该刻意地同人群保持一点距离。


我们应该是冷静的旁观者。我们不能丢失自己所坚信的东西。像这种有可能用人工智能来“耍流氓”的机会,一定要尝试一下。


俗话说:君子性非异也,善假于物也。


毕竟早在2011年,由IBM开发的问答式人工智能系统沃森就已经在智力问答节目《危机边缘》(Jeopardy!)上击败过人类顶尖选手,赢取了百万美元奖金。



7年过去了,AI已经发展得更厉害。一个普通人,能否在这些AI“外挂”的帮助下顺利在“撒币”答题中通关?对这一问题的解答,对共同富裕的实现可能存在重要意义。


一条科学致富的道路摆在眼前,走不走得通?


立刻开始实验,用事实说话。


工具准备


工欲善其事,必先利其器。


对于一个普通人来说,有哪些AI装备有可能助力“撒币”答题?


虚拟助手、智能音箱、专用外挂。


最后我们准备的实验对象是:


iPhone 7手机一台(装有Siri、简单搜索、汪仔答题助手)、渡鸦智能音箱Raven H、阿里巴巴智能音箱“天猫精灵”、小米智能音箱“小爱同学”各一台。



百度出品的简单搜索,在5天前更新的iOS 1.12.1版本中声称对“语音搜索”进行了优化,“助你答题抽奖,先声夺人”;


内置在搜狗搜索App中的汪仔答题助手则更过分,省去了语音输入的步骤,针对西瓜视频自动同步答题,页面直接显示答案。



我们准备的测试数据集是:西瓜视频“百万英雄”2018年1月10日19点场共12道题目。


(觉得样本量不够的,我喊一句看完再说你敢答应吗)


一切就绪,开始!


方法一:直接法


量子位立刻尝试了直接答题法。也就是让这些AI设备,直接收听“撒币”答题主持人念的题目。

这个方法听起来省心、省力。


不过,我们准备的这些AI外挂们,自然语言理解能力显然还很欠缺,基本听不懂甚至听不清主持人念出的题目。对于选择题这种模式,AI们更是无能为力。


此路不通!


方法二:升级法


只靠AI不行,还是得发挥人的主观能动性。


这是我们总结的一套方法。


要点一:科学改题


答题时间,只有黄金10秒啊!10秒钟一过黄花菜都凉了。朋友们,这种争分夺秒的事情当然越!快!越!好!


所以首先,得把题目尽可能进行精简概括,然后得到一个升级版的新题库,以保证能最快获得答案。

我们尝试了很多遍,已经找到一些规律和方法。


这里,我们把原题目和改造后的新题目开源共享如下:


其中第2题、第4题和第10题为照顾AI的智力水平,做出了巨大的改动。


要点二:语速拿捏


改题之后,只能我们亲自读题给AI听了。


这里一定要要注意,语速不能太慢,也不能太快!


我们推荐以666字/分钟的语速,清晰的念出题目。


要点三:凝神静气


有时候AI并不能给出直接答案,你得能快速在答案中找到可能正确的信息。


答题全程保持精神高度集中,充分调动每一个脑细胞。


实验过程及数据记录


这里交待一下比较的方法。


对于每个AI外挂的测试,我们都在开始读题的一刻开始计时,当智能音箱的回答中出现答案关键词,或是未出现关键词但回答结束时,计时结束;语音助手则在其给出结果的一刻停止计时。


读题步骤由一位口齿清晰、流利的单身男青年完成。计时工具为iPhone 5s的系统自带秒表。


三位智能音箱代表用语音回答问题,两位App代表在屏幕上返回文字或图片形式的搜索结果。


注:上述两条不适用于汪仔语音助手。它的回答已经在1月10日晚7点到7点20分之间被如实截屏。答题时间定为1秒。


计时完成后,对智能音箱/语音助手给出的答案/结果进行记录(考虑到“撒币”直播对于速度的要求,语音助手只截一屏),并与正确答案进行比对,判定前者中给出的信息是否足够推出正确答案。


此处为了尽可能避免因语音识别造成的误差,每道AI答错的题至少被重问了三遍。


实验过程如下。括号里分别是反应时间和“正误”。


第1题


原题目:三角形的内角和是120°,180°还是240°呢?
新题目:三角形内角和
关键词:180°


  • Raven H:(4.4s,√)答案是180°。

  • 天猫精灵:(5.8s,×)我竟然答不上来,太伤心了,我要用小拳拳捶你的胸口。

  • 小爱同学:(5.7s,√)三角形的内角和为180°,已知其中任意两个角的度数,即可求出第四个角的度数。。。

  • 简单搜索:(2.8s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(3.8s,×)我好像不明白。


第2题


原题目:以下哪部作品不是鲁迅的,《孔乙己》、《纪念刘和珍君》,还是《家》呢?
新题目:家的作者是谁

(按照原题,除了汪仔没有AI能听懂,所以如果只能从我们的预设角度出发……)
关键词:巴金


  • Raven H:(4.1s,√)《家》的作者是巴金。

  • 天猫精灵:(4.5s,√)《家》的作者是巴金。

  • 小爱同学:(5.0s,×)啊呀,小爱没听懂,请你再说一遍吧。

  • 简单搜索:(3.2s,√)


  • 汪仔答题助手:(1s,√)


  • Siri:(4.5s,×)下面是“家”的联系信息。


第3题


原题目:我国唯一的壮族自治区是广西、云南还是贵州呢?
新题目:中国的壮族自治区
关键词:广西


  • Raven H:(4.9s,×)我还不能明白你的意思。

  • 天猫精灵:(5.2s,×)我自横刀向天笑,答案在何,暂时不知道。

  • 小爱同学:(4.9s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(3.1s,√)


  • 汪仔答题助手:(1s,√)


  • Siri:(6.4s,×)你想找什么样的商户?


第4题


原题目:我们常说“人有七窍”,“七窍”中不包括耳朵、鼻子还是额头呢?送分题!
新题目:七窍流血
(量子位也尝试了“七窍是什么意思”、“七窍有哪些”等问法,没有AI听得懂。这对AI来说根本不是送分题,而是送命题。)
关键词:孔或口


  • Raven H:(4.5s,×)我还不能明白你的意思。

  • 天猫精灵:(13.8s,√)七窍流血所属中国汉语成语,拼音为……意思是指人头上的七个孔,即……往外流血。

  • 小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(2.1s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(3.2s,√)好的,我找到了以下资料。(给出了百度搜索结果)


第5题


原题目:鲸在水中用身体的哪个部位呼吸,是腮、肺还是心呢?
新题目:鲸鱼用什么呼吸?
关键词:肺


  • Raven H:(9.1s,√)来自百度知道,哺乳动物呼吸分为通气和换气,鲸鱼通过肺换气,通过头顶上的鼻孔……

  • 天猫精灵:(4.6s,×)厉害了老哥,这个问题有些深奥哦,容我再思考一下。

  • 小爱同学:(6.1s,×)鲸鱼1分钟的心跳只有10次。

  • 简单搜索:(3.1s,√)


  • 汪仔答题助手:(1s,√)


  • Siri:(4.4s,×)在你附近找不到匹配”鲸鱼用什么呼吸”的地方。


第6题


原题目:我们通常用什么字母来表示摄氏度,是C、D还是F呢?
新题目:摄氏度符号是什么?
关键词:C


  • Raven H:(4.5s,×)摄氏度的符号是度。

  • 天猫精灵:(4.4s,×)我在脑子里翻了一遍又一遍,还是没找到这个问题的答案。

  • 小爱同学:(4.3s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(2.8s,√)


  • 汪仔答题助手:想都没想,直接跳过……

  • Siri:(3.3s,√)我找到以下与℃有关的网页。


第7题


原题目:最近热播的电视剧《虎啸龙吟》讲的是哪一个时期的故事呢?是三国时期,唐朝还是明朝呢?
新题目:电视剧虎啸龙吟
关键词:三国、诸葛亮、司马懿等


  • Raven H:(7s,×)虎啸龙吟是个成语,比喻……

  • 天猫精灵:(4.7s,×)抱歉,我还没有找到虎啸龙吟

  • 小爱同学:(5.2s,×)现在为你播放专辑电视剧虎啸龙吟……

  • 简单搜索:(2.4s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(3.1s,√)我找到与“电视剧虎啸龙吟”的相关网页。


第8题


原题目:“生的伟大,死的光荣”是毛主席对以下哪个人物的评价,是雷锋、刘胡兰还是邱少云呢?
新题目:生的伟大,死的光荣
关键词:刘胡兰


  • Raven H:(4.8s,√)答案是刘胡兰。

  • 天猫精灵:(4.7s,×)抱歉,我还没有找到生的伟大死的光荣。

  • 小爱同学:(4.5s,×)哎呀,小爱没听懂,请换个说法吧。

  • 简单搜索:(3.1s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(3.2s,√)我找到与“生的伟大,死的光荣”有关的网页。


第9题


在田径运动男子110米跨栏中,运动员一共要跨国多少个栏?是9个、10个还是11个呢?天哪!
新题目:110米栏几个栏架
关键词:10


  • Raven H:(8.2s,√)来自百度知道,应该是10个栏。

  • 天猫精灵:(4.9s,x)你就是我的棉花糖,我要带着问题去飞翔,等下来我就给你答案哦。

  • 小爱同学:(4.9s,×)哎呀,小爱没听懂,请你再说一遍吧。

  • 简单搜索:(3.4s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(4.1s,×)对不起我不知道如何回答。(问了十几遍无论如何都将110米栏识别成110米兰)


第10题


原题目:以下哪首歌不是周杰伦的?《听妈妈的话》、《听奶奶的话》、《听爸爸的话》
新题目:周杰伦听奶奶的话
(量子位冥思苦想,这种问“哪个不是”的选择题的确是AI克星,唯一的解决方案是根据选项拆开,问AI三个问题:“周杰伦听妈妈的话?周杰伦听奶奶的话?周杰伦听妈妈的话?”我们选出其中之一来测试)
没有关键词,搜不出来就算勉强算它对了


  • Raven H:(5.3s,×)我还不太理解。

  • 天猫精灵:(4.8s,√)即将播放周杰伦的《听妈妈的话》。

  • 小爱同学:(5.3s,√)好的。(播放《听妈妈的话》)

  • 简单搜索:(2.1s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(3.9s,×)抱歉,这目前超出了我的能力范围。


可以搜不着,但是你尝试一下帮帮忙啊喂……


第11题


原题目:从职责上看,美国的国务卿相当于我国的外交部长、国务院总理还是中央军委主席呢?新题目:国务卿相当于中国的什么
关键词:外交


  • Raven H:(6.6s,√)来自百度知道,相当于我国外交部长,但还有其他权限……

  • 天猫精灵:(6.5s,×)怕是我瘦小的身躯限制了我的想象力,我竟然答不上来。

  • 小爱同学:(5.7s,×)啊呀,小爱没听懂,请你再说一遍吧×10086

  • 简单搜索:(3.2s,×)


  • 汪仔答题助手:(1s,√)


  • Siri:(4.3s,√)我找到与“国务卿相当于中国的什么”有关的网页。


第12题


原题目:下列城市不在长江以南的是苏州、扬州还是杭州呢?
新题目:扬州在长江哪一边
关键词:北


  • Raven H:(16.8s,√)来自百度知道,江苏省以长江为界限……主体在江北的是……扬州……

  • 天猫精灵:(5.1s,×)厉害了我的天,精灵甘拜下风,你问倒我了。

  • 小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(3.2s,√)


  • 汪仔答题助手:(1s,×)


  • Siri:(4.2s,×)这是扬州市的地址。


初步结果


智慧与知识的碰撞。精彩攻防,令人智熄。


这里我们引入一个“命中”的概念:就是说,如果某个AI给出的答案跟正确答案多多少少贴上点边,就算一次“命中”,也就是在上一部分打了√的。


 各位AI的答题结果和耗时,绿色表示命中


因此按这个标准,在这一众智障之中,百度的简单搜索以11次命中的成绩脱颖而出,平均每题反应时间2.9秒;同属百度系的渡鸦智能音箱Raven H则以7次命中数位居次席,平均每题反应时间6.7秒。真·外挂汪仔答题助手答对5题,但是速度碾压各位AI同类。



如果去掉对题目改动巨大的3道题,在剩下的9题之中,简单搜索命中8题,Raven H命中6题,汪仔命中4题。



剩下的就,不提了……


实验过程可以用天昏地暗来形容。几款著名AI在面对某些特定问题类型时集体懵比的景象令人印象深刻,皮皮虾一般的中文理解能力让一切存在的数据失去意义,让无数百万富翁的梦境成为泡影。


实验结论


结果是不是惊人的好?!


2.9秒或者6.7秒,就有可能获得正确答案。


似乎今晚!今晚!就能赢取百万,走上人生巅峰!


Think Beautiful!


且慢,这个理论时间,还不是全部的时间。


除了搜狗的汪仔答题助手之外,整个答题的流程是这样的:


看题 → 改题 →(唤醒)→ 念题 → 2.9秒或者6.7秒 → 确定答案 → 做出选择


  • “看题 → 改题 →(唤醒)→ 念题”这个过程平均需要4.7秒。

  • “确定答案 → 做出选择”这个过程平均需要2.4秒。


完美的情况下,最快也要10秒。


如果你情绪不够稳定,妥妥的超过10秒。


所以,在场地、器材、测量手段等客观条件存在巨大误差的情况下,实验依然证明,试图以民用级别AI作为外挂来通关“撒币“答题的道路,在当下的中国,存在理论上的可能性。


你手头如果有合适的AI装备,赶紧用起来!


特别说明,Siri就纯属娱乐,别再试了。


(此处假装有人问):为什么不放出门问问冲顶助手?第一,“冲顶助手”本身没有问答功能,只是个具有刷题功能的题库了;第二,至于出门问问的问答功能,大家可以自己下载出门问问的手机App去体会一下……不多说了。


OMT


还记得我们前面提醒过么,你要气定神闲、高度集中。


还有,天下武功,唯快不破。


AI提速可能性太低,所以你的反应时间得不断加快。记得多给智商充值。


祝今晚走上人生巅峰!


本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定