看懂网络分析,成为高阶球迷
2019-10-17 19:02

看懂网络分析,成为高阶球迷

本文来自微信公众号:集智俱乐部(ID:swarma_org),作者: 郭瑞东,头图来自东方IC


随着复杂网络研究范围的日益扩大,体育竞技也逐渐被应用到其中,尤其是足球和篮球这两项团体运动中。本文梳理了近年来的多篇相关研究,从球员传球风格与球队胜率,到球队风格的量化,再到联赛整体特征,以及体育与社会的关系等,展示复杂网络研究和数据分析技术与体育结合的多种可能。


1. 复杂网络是个框,体育也能往里装?


不管是足球还是篮球,团体性的竞技体育都是涉及几十亿人,数万亿美元的大产业。随着体育比赛的数据化,海量的数据使得数据科学得以在体育产业展示它的魔法。NBA勇士队掀起了利用专业的数据分析提高成绩的浪潮,随着勇士队的连续夺冠,数据分析师已经成为了各个NBA球队篮球教练组必不可少的一员。


在足球,网球,排球等其他运动项目上,数据分析也起到了提升球队的比赛的效果。


任何涉及到团队配合的运动,都可以被自然地视为参与者之间相互作用组成的网络。由于竞技体育的胜负是清晰定义的,这使得数据天生就带有标注;而竞技体育中球员特征,例如身高、体重等以及在场上的传球、射门、突破等动作,也是有明确定义的。


随着计算机视觉对视频数据的自动标注,海量的数据,使得竞技体育中积累了众多天然的随机双盲实验。这使得研究者得以使用复杂网络的成熟方法学,研究网络结构的变化,网络中的信息传递和网络涌现出的宏观结果(比赛输赢)这三者的关系。


复杂网络在体育中的应用,有广阔的空间。比如除了职业的各种球类运动,对于团队性的电子竞技项目,例如Dota,一些研究方法和结论也是适用的。而在未来,网络分析的框架,还可以整合包括视频、可穿戴设备、体检体测数据等数据源,可以使网络具有更多的层次,从而更好的发挥网络分析的威力。


对于非职业的体育项目,随着用户上传数据的增加,也能产生全新的研究方向,例如研究如何避免运动产生的伤病,如何让参加运动的球员相对平均地得到锻炼和发展。


本文将介绍近期的四篇相关研究,视角逐渐放大,先看球员的传球对胜负的影响,再看球队持续的风格如何定量化的考察,之后分析整个联盟在不同时间的整体特征,最后分析体育在社会中的位置,展示复杂网络研究和体育结合的诸多可能方向。


2. 怎样传接球能让你赢得篮球比赛


球队状态不好,某名球员发挥不好,是输球之后常见的借口。而用网络科学的视角来分析的时候,就可以定义一个新的指标,来预测球队的输赢。


杜克大学的研究者,在18年arxiv.org上的一篇预印本论文中,针对篮球比赛,提出了一项预测指标。


论文题目:

SMOGS: Social Network Metrics of Game Success


论文地址:

https://arxiv.org/abs/1806.06696


该研究基于美国高校的NCAA联赛,统一安装了高清晰度的三维立体摄影和分析,该文关于的也是传球网络,有了这样的数据,就能针对每名球员,给出其传球和接球的热点位置。如下图所示,图a)中的热点区域说明该球员最经常在三分线弧顶传球,bcd分别展示了传给锋线,中锋和后卫位置的球员时,最常见的成功接球位置。


图1:某球员的传球出球位置与不同类型球员的接球位置的热图


之后作者结合篮球规则,自己定义了一个指标,用来描述每名球员在传接球网络中的影响。该指标可理解为结合了具体应用场景的一种中心度计算方法(SMOGS),只是该计算方法分别针对传球和接球,且每名球员对给出一个在二维空间的,而不是一维空间的值。


作者比较了同一个队伍在赢球时和输球时,传接球网络根据新提出的指标,通过展示俩者的显著区别,说明该指标能够预测球队的输赢。

           

图2:赢球和输球时,一只球队的上场球员的传球指标对比


上图中的每个点(数字代表球员的编号)代表一名球员,红色代表接球,蓝色代表传球,所在的位置代表了根据SMOGS计算得出的指标在二维空间上所处的位置。左边对应输球时,右边对应赢球时。不管是从整体上(一个球队)还是个体来看,都有明显差别。而用作预测时,新提出的指标也比现有的指标要好。


3. 瓜迪奥拉治下的巅峰巴萨,有何不同


9月 Nature 子刊 Scientific Reports 上发表的一篇论文,研究者利用网络科学方法,佐证了球迷对主帅瓜迪奥拉旗下的巴萨队(10赛季~11赛季)传球细腻,控制比赛节奏的印象。


论文题目:

Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona


论文地址:

https://www.nature.com/articles/s41598-019-49969-2


研究者关注比赛中的传球,将球队在西甲单赛季的传球记录,组成如下图所示的有向网络。图中的每个点是一个球员,点的大小代表在网络中的特征向量中心性(Eigenvector Centrality),点的位置是其平均传球的位置,线的深度代表了传球的总次数。


图3:巴萨队的传球网络可视化


之后,研究者对比了传统足球分析中用到的指标,例如传球距离50次传球所需的时间,以及网络分析中用到的指标,如聚类系数(cluster cofficient)、最大的特征向量、队中球员的特征向量中心度的最大值等,发现巴萨和西甲其他球队传球网络的平均值,都有明显的差异。


而在进球或者丢球之前,巴萨的传球网络与西甲其他球队也有明显不同。


           图4:西甲不同球队的进球/丢球前50次传球网络的对应指标对比


上图展示的是进球和丢球前的五十次传球组成的网络,依次考察的是网络的聚类系数、传球网络对应矩阵的最大特征向量。纵轴是进球时的值,横轴是丢球时的值。


该分析用来说明在进球/丢球的关键时刻,巴萨和其他球队的差异依然存在,而且这种球队间差异具有鲁棒性。研究者还通过横轴和纵轴的区别,说明在丢球和进球前的传球网络有所不同。


4. 足球比赛正在变得无趣——比赛结果爆冷门越来越难了


竞技体育的魅力就在于没有永远的赢家,但最近的一篇文章,打破了爱拼就会赢的神话。今年8月在arixv上的一篇论文,通过对11个主流的欧洲联赛中8万场比赛的胜负的分析,作者得出球队间的强弱差距正在变得显著,比赛结果也更具有可预测性,同时主场优势普遍变得不那么显著。


论文题目:

Football is becoming boring;Network analysis of 88 thousands matches in 11 major leagues


论文地址:

https://arxiv.org/abs/1908.08991


图5:英超比赛中胜负关系的网络可视化


上图展示的该文研究的网络,图中的每个点是英超联赛中的一支球队,线的深浅代表这两队之间的净胜球数目,点的大小代表该球队在胜负网络中的中介中心性(Betweenness Centrality)


该文基于球队的平均赛季进球丢球数等指标,结合是否在主场,用简单的逻辑回归模型预测比赛的输赢。


下图展示的是欧洲几个顶级联赛中预测模型的AUC(橙色,用来评价模型的准确性)及基尼系数(蓝色,用来评价不平等的程度),可以看出从95年到18年,两者都在显著地增加。





图6:英超,德甲,西甲,意甲中胜负的可预测性与衡量球队胜负差异大学的基尼系数


5. 某队球迷数量和所在城市的人口呈现幂律关系


竞技体育具有跨越国界的魅力。在18年的一篇arxiv文章中,作者发现了三只足球豪门皇马,曼联,拜仁的球迷数目(twitter关注量,转发条数)和各个国家不同城市之间的人口数呈现幂律分布。


论文题目:

Urban scaling of football followership on Twitter


论文地址:

https://arxiv.org/abs/1812.04453


这并不意外,但该文章有趣的是分析了球迷人数的增长,在那些国家是超线性的(superliner),即球迷人数的增加比城市总人口的增长还要快,例如城市人口增长10倍,球迷数量增长15倍,这是对应的expnent系数就是15/10=1.5。下图分别展示了印尼(ID),哥伦比亚(CO),墨西哥(MX),西班牙(ES),英国(GB)和美国(US)中,这三个球队的球迷数目和城市人口之间的幂指数大小。


图7:不同国家中不同城市里三只足球豪门的球迷人数增长率


可以看出,在印尼、哥伦比亚,都存在不同程度的超线性增长,也就是说球迷的比例在大城市要高于小城市。


而在美国,英国,西班牙则是相反的,美国人对足球不感兴趣,但对于英国和西班牙为何也没有出现超线性的增长,这说明在发展中国家,对足球的喜爱更加紧密的依赖着城市大小的增长。


一种可能的解释是,在贫富差距大的地方,越是大的城市,越需要竞技体育带来的消遣娱乐。


这篇论文除了其结论契合幂律法则的通用性,而且将体育看成是社会物理学(social physics)中的一部分,研究体育和其他我们关心的指标的关系,例如球队的成绩和所在城市的经济兴衰。


6. 用数据说话,做一个专业球迷


关于网络科学与数据科学在体育比赛中的应用,相关的研究越来越多,与行业知识的结合也越来越深。


如果你问一个篮球迷,主场优势意味着什么,他不一定能说清楚。而用数据科学的武装的你,就可以拿出(Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics)这篇论文的研究,指出主场打球的队伍,盖帽数目,助攻数目,相比平均值会出现接近20%的增加,而罚球数和抢断数目也会有5%-10%的增加。这和球迷看球的一般印象是吻合的,盖帽,抢断数据上升的原因是球员更积极的拼抢,罚球多则是裁判对主队的照顾,助攻多则是球队打得更有耐心。


论文题目:

Home Sweet Home: Quantifying Home Court Advantages For NCAA 

Basketball Statistics 


论文地址:

https://arxiv.org/abs/1909.04817


其他结合网络数据研究还有很多,如根据足球中传球的位置,将球队聚类,从而对应于球迷常说的442,434等不同阵型上(Clustering algorithm for formations in football games)。再如用遗传算法,帮助球队经理选择最佳的球员组合。


论文题目:

Players’ selection for basketball teams, through Performance Index 

Rating, using multiobjective evolutionary algorithm


论文地址:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221258


另一个可能的结合点是研究那些因素决定着职业运动员/教练员的成败,关于成功的科学(Science of success)也是近来的研究热点。而将球员共同比赛的关系组成网络,研究者是否也会在体育界,发现在艺术家和科学家中存在的“与大牛合作”、“名师出高徒”等成功规律,这也是值得研究的方向。


而笔者更关心的是体育和普通人的关系,能否通过大数据的研究,说明体质训练,体质测评的得分和个人的学业,事业成功或创新能力有相关性?或者指出体育锻炼设施多少和城市的经济发展有因果关系?这是更具有普遍价值,也更接地气的研究方向。


本文来自微信公众号:集智俱乐部(ID:swarma_org),作者: 郭瑞东

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定