不是吹牛,数据分析可以预测球员打算如何出手

公司

2014-07-22 13:35

“大数据” 是近几年科技行业最喜欢提的词汇。从 Google 到中国百度,都提出要发展 “深度学习” 的方针。而百度为了能发展该技术,不远万里在硅谷设立研究院,还从 Google 挖来 “机器学习” 领域的先锋人物吴恩达,负责 “百度大脑” 计划。至于未来战略方向转为 “移动为先、云为先” 的微软,最近也披露 “大数据” 相关的计划 Project Adam,将挑战 Google 的 Google Brain 计划。

现在,我们可以看到部分 “大数据” 在实际运用的后果。在四年一届的世界杯里, Google、百度还微软均利用 “大数据” 预测出每支球队的比分情况,甚至还相当地准确——一方面,体育行业发展多年,每名球员每场比赛的数据均有详尽的记录,方便专家研究和解读,同样这些已经分门归类的有效数据也可以被计算机利用;另一方面,由于体育游戏的规则很多,预测分支的数量可以控制在一定规模,这也方便计算机进行预测。

由于体育行业的特殊性,未来该领域里将出现不少 “大数据” 案例。不过,在讨论未来之前,我们不妨探讨一下 “大数据” 运用在体育行业的实际方法。比如说,如何让机器明白棒球比赛当中,人们如何作出决策,以及如何让这些模型随时适应新数据,并运用在新的比赛当中。

根据 FastCompany 的报道,最近 GigaOm Structure 会议上,来自博思艾伦咨询公司的雷·亨斯伯格(Ray Hensberger)分享他以及团队为 MIT Sloan Sports Analytics 会议准备的论文——现在,他的团队利用美国职业棒球大联盟的数据提炼出数据模型,可以实时预测一名投手将投出怎样球,以及何时投出,准确率高达 74.5%。

亨斯伯格介绍,团队先从 900 个投手着手,分析他们的比赛数据,后来又采用排除法,将过去三个赛季投球数量少于 1000 的球手排除掉,这样就只剩下 400 名投手作为数据分析的样本。除了投手本身的数据外,团队也分析当前比赛的数据,比如场地类型、击球数等等;还有一些和比赛相关的情况,比如回合数、出局数以及球场上的人数和球员的位置;至于球手,他们的分析条件将包括球手的偏手性,曲球的出手时机、快速球的速度、球场选择的一般规律、滑球的运动等等。

1372595423-1608097383

通过大量的数据采集以及综合分析,找出其中的关联性,亨斯伯格和团队最终为每名投手的构建个性数据模型,能够预测一名投手在赛场上会作出怎样的投球决策。他们所采用的数据模型,已经总结到一本名为《The Field Guide To Data Science》的书里。

构建数据模型的过程可能没有我们想象中的难,而如何证明数据模型是可靠的,却很关键。亨斯伯格说,构建了数据模型之后,团队对模型进行了 5 重交叉验证。这种交叉验证是能够观察,为数据模型输入陌生的数据集后, 是否有异常的表现。“你不会需要一个基于历史数据预测准确度达 100% 的数据模型。如果不经过交叉验证, 而把数据模型推出去,人们大概会认为你模型只不过适合自己所拥有的数据。”

数据模型通过验证后,亨斯伯格和团队就采用 “支持向量机”(Support Vector Machine)机器学习方法中的 “一对多方法”(one-versus-rest)来预测下一场比赛当中投球手的投球决策。他们以三种不同的角度来看待数据:

  • 基于用球数来预测:看比赛局势有利或不利,或者用球数持平的情况下;
  • 基于 “左右病”(platoon system)来预测,看球场上是否用右撇子击球手应对左撇子投手,反之亦然;
  • 使用 “样本外检验” 的方法来训练数据模型,保证它能正常工作。

亨斯伯格和团队在构建球手的数据模型时还发现,部分投手的投球决策在一定的情况下十分好预测。不过,投手投球的可预测性高低和他的比赛成绩没有关联。亨斯伯格发现,15 个最可预测的球员当中,有 8 个来自有名的辛辛那提红人队和圣路易红雀队。另外,“左右病” 策略也会影响比赛的成绩。

尽管 “大数据” 经过大量爆光,Google、微软、百度也通过自己的预测来证明大数据实际运用的例子,但是根据 MIT Sloan Sports Analytics 会议的联合创始人、联合主席杰西卡·吉尔曼(MIT Sloan Sports Analytics)称,体育数据分析目前不是主流,而且不是所有运动都可以运用这条方法。比如说冰上曲棍球比赛,预测往往失准。不过,某些运动又可以更快地适用数据分析,在这些运动当中,数据分析能够发挥显著的价值。

如果要在体育行业推广 “大数据” 分析方法,行业联盟是绕不过去的槛。现在,美国职业足球大联盟还有英格兰超级联赛都已经引入了数据分析,至于棒球运动,几乎每家棒球队都拥有一个分析小组。至于商业方面,数据分析还可帮助体育场吸引那些在家通过电视看比赛的人。

不过,即便是亨斯伯格和团队构建的数据模型的预测能够达到 100% 准确率,比赛的关键还在于赛场上的人。在 70 年代的美国职业棒球比赛上,史蒂夫·卡尔顿就依靠 “滑球” 这一招半式,在 24 年代职业生涯中投出 329 胜的佳绩。对方往往知道卡尔顿要投什么球,但是就是击不到球,或者击断球棒。

战略都是完美的,但战术往往无法完美。

 

题图来自 utopiainc

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中