互联网上传播最广的两套算法:FIFAWorldCup2018
【发布时间】:2024-02-22 13:01:16
世界杯赛季又来了。 作为一个真粉丝,我很兴奋,但比我更兴奋的是数以百万计的假粉丝。 不知道为什么这次赌博特别流行。 我认为2014年世界杯和2016年欧洲杯远不如这项赛事受欢迎。
既然大家都认同科学技术是第一生产力,为什么不用科学的方法来研究足球呢? 如果说胜负预测是研究方向,那么目前最热门的机器学习技术就是首选武器。 预测过程可以看作是一个分类过程,整个训练过程是一个基于历史记录、投注赔率、玩家能力等数据的过程。 监督学习作为特征。
当然,这个想法已经存在很长时间了,而且大部分都是在代码层面实现的。 作为一个研究课题,我们首先来了解一下目前国内外的研究现状。
首先我想说的是预测比赛不会很靠谱,因为特征选择太难,人为因素太多,所以做足球比赛的预测模型利润并不大,所以只有搞AI、喜欢看足球的人才会费心。 。 也许是因为中国人比较注重输入输出,所以玩这个游戏的人很少,但是国外有很多爱好者公开了他们的算法。
周六外面下着雨,我就利用这一刻的空闲时间去了解了网上流传最广的两种算法。
1. 2018 年 FIFA 世界杯使用 .
该方法来自肯尼亚一家投资银行的分析师,他在 [1] 上托管了代码。
该模型相对简单。 选择数据源和数据集。 仅考虑主客场类别的比赛数据来选择特征。 类别标记为胜、平和负,并使用逻辑回归作为分类算法。 值得一提的是,数据集中存在主客场差异,而世界杯除东道主外均为客场比赛。 为了保持数据一致性,作者引入了FIFA排名,将每场比赛排名最高的球队设置为主队(隐藏的逻辑是排名靠前的球队拥有更多球迷),这是一个有趣的想法,可以以此为起点推导出更多主场和客场数据处理方法。
作者以70%的比例提取训练集,模型在测试集上的预测准确率为55%。 小组出线形势预测结果为:
现在看来秘鲁、德国、波兰已经很冷了。 该模型预测决赛将在巴西和德国之间进行,巴西将赢得奖杯。 基于德国队目前的状态,我也对这个结果表示怀疑。
逻辑回归是一种常用的分类算法。 其优点是应用简单。 它首先对特征向量进行线性变换,然后使用函数激活,最后找到最大似然; 预测结果是0/1之间的概率,简单明了。 缺点是偏差比其他算法高; 处理大量特征时效果不好。 对于线性不可分问题、多分类问题、共线问题,可以分别采用特征非线性化和L2正则化来处理。 LR现在已经有了分布式实现,并且计算效率得到了进一步的提高。 使用逻辑回归作为分类算法没有问题。 毕竟功能太少了。 使用其他算法也感觉有点矫枉过正。
这个模型相当粗糙。 首先,作者在附件中已经明确表示自己不是资深粉丝,所以在特征工程上比较偷懒。 仅历史比赛结果的特征所能表达的信息非常有限; 其次,数据太旧了,粗略看一下至少可以追溯一下。 到了 20 世纪 40 年代,及时性已成为问题; 另一个问题是,使用FIFA Rank作为判断主客场类别的依据仅在预测过程中发挥作用,并且数据集中有许多国际赛事没有经过这种方式预处理。 使用什么机器学习算法并不重要。 特征工程的作用在这个问题上更加明显。
2. 2018 年 FIFA 世界杯 - A 队
这篇论文发表在arxiv上[2]。 作者是多特蒙德工业大学以格罗尔为首的人工智能科学家。
本文使用2002年至2014年四届世界杯的数据来比较三种不同建模方法--n、-n在预测比分方面的效果。 前两种方法是基于分数和经济等相关变量的对抗信息建模。 第三种方法,顾名思义,是基于球员实力、教练水平等球队能力评价指标。 仿真结果表明后两种方法具有较高的精度,并验证了两者结合是一种更好的方法。 最后,本文使用这种组合算法来计算各队在各个杯赛阶段的获胜概率。
作者系统地介绍了近年来学者的研究成果。 第一个有效的建模策略是基于投注赔率的建模。 后来学者们发现,假设进球数服从泊松分布,可以建立一个统计模型。 最简单的方法是附加条件独立假设。 现在很多研究人员已经摆脱了这种强烈的假设,这似乎更合理,因为进球数确实与对手有很强的相关性。 一种完全不同的建模策略是使用随机森林的集成学习。 Groll 早先发布的初步研究结果表明,随机森林提供了非常令人满意的结果[3]。
在数据层面,作者考虑了很多方面,最终选择了以下特征。
1.经济因素:人均GDP、人口。
2.竞技因素:赔率()、FIFA排名。
3、主场优势:无论是主办国、所在洲、所在洲。
4、球员结构:第一大、第二大俱乐部的队友人数、平均年龄、欧冠球员人数、国外俱乐部球员人数。
5、执教因素:年龄、执教年限、是否与球队同一国籍。
在方法论层面,作者详细介绍了上述几种建模策略。
1.随机森林:随机森林和GBDT都是常用的集成学习算法。 我们早就听说过它们,但遗憾的是我们一直懒得深入研究它们。 基本逻辑是建立大量独立的CART决策树,然后采用投票或平均的方法。 整合每棵树的结果,“随机”是指在每棵树中随机采样数据,并从每个分支中随机提取特征,从而降低过拟合的风险。 RF和GBDT的主要区别在于,一种是并行模式,一种是串行模式。 因为文章的目的主要是预测分数,这是一个回归问题,所以将每棵决策树的均值作为最终结果。
上图是训练后得到的特征重要性。 可见FIFA排名和赔率是影响最大的因素。
2.回归方法:作者回顾了各种回归方法,其中最理想的一种是泊松回归结合L1正则化。 进球数服从泊松分布是一个非常传统的假设。 对比随机森林后发现,这种方法稍显逊色。
3、排序方法:结合以往比赛的进球数和泊松回归,创建最大似然估计模型来估计球队的能力值参数。 为了区分不同赛事、不同比赛年份的影响,作者分别引入了两个权重。 在时间上,借鉴了放射性元素半衰期的概念。 比赛离现在越远,它就越不重要。 考虑到不同比赛的规模和重要性不同,引入了FIFA排名计算方法。 按照世界杯、洲际杯、预选赛、友谊赛分别分配权重。
4.组合模型:在比较了各种方法之后,作者最终将排序方法计算出的团队能力值作为新特征添加到随机森林中作为最终模型。
最终模型预测的各队夺冠概率如下:
模型预测的各队各阶段胜率如下:
本文描述的模型在特征工程和学习算法方面似乎是合理的,尤其是在特征选择方面。 读完论文后,我感觉还有几个点还是不太明白,比如为什么进球数服从泊松分布背后的逻辑? 是否需要区分团队所在的大陆和所在的大陆作为两个特征? 包括欧洲和亚洲让分在内的投注赔率数据的结构是什么? 由于我对随机森林算法了解不够,有时间准备实现文章中的方法,加深对随机森林的理解。
注:本文的方法和结论都是随机的。 本文不构成任何赌博建议。 好好看球,远离赌博~
[1] /FIFA-2018-世界杯-。
[2]2018年世界杯的[1806.03208]
[3],G. 和 A. Groll (2018):“
与,”,正在出版。