我们在球队四要素里的失误率章节里曾提过,失误在诸多数据里,是最违背比赛感官的一项。这是因为别的数据大多是做得越多越好,失误却是反过来的。球员擅长控制失误理应被当成一个优点来看待,但比赛过程里未必会轻易感知出来。
也正是出于越少越好的缘故,失误完全没办法通过场均数据来比较,必须进行标准化处理再设置一定的时间门槛(霍林格是至少打500分钟,CTG是至少打100分钟)。
失误在设置进阶数据时还有以下几个特点:
1.失误虽然不像助攻那样,对摸球有那么严格的需求(比如掩护犯规也会计为失误)。但肯定还是会出现回合占有率越高,或者更多持球打法的球员,百回合失误数更难控制的情况。在BBR的数据库里,本赛季百回合失误前6的球员杨、东契奇、威少、哈登、字母和詹姆斯,无一不是各自球队的大核。
2.为了避免这个问题,各个网站常用的失误率算法,是将失误除以球员自己经手的play数(投篮、罚球和失误)。也就是说失误率更接近于一种相对值,而不是绝对值。帕金斯单比生涯百回合失误数,要比詹姆斯来得低。但帕金斯算失误率的分母要小得多,因此生涯失误率是比詹姆斯要高的。
失误率=失误数/(球员的投篮出手数+罚球出手数x0.44+失误数)
3.我们之前提过,真实命中率和回合占有率并不是完全对应的关系,真实命中率里不含失误。synergy在计算每个play的得分率时,就把失误也含进去了,可以理解为真实命中率加成了失误。
看到这里可能会有人觉得,既然如此,synergy的play得分率是否是比真实命中率更加全面的算法?毕竟失误是一种结果上比投失球更加糟糕的行为。此处的冲突点在于,失误的种类实在太丰富了,而其中很大一部分就是来自传球失误。传球做得再好对提升个人play得分率没有任何帮助,一旦失误反而会起到拉低的作用。
比如某种案例里头,A球员的真实命中率要高于B球员;在计算了失误以后,A球员的play得分率反而不如B球员。但这能够说明B在“更全面的算法”里占优吗?不一定,有可能只是因为B平时很少传球(自然也很少助攻),自然就避免了失误的风险。
真实命中率、回合占有率、助攻率和失误率,肯定是衡量球员进攻能力最硬的4项指标,在CTG也是优先被展示的。但这4项数据既不像四要素那样属于并列关系,还会出现有的是效率数据,有的是产量数据,产量数据分母各不相同的情况,在交叉印证时是会对不熟悉算法的朋友提出考验的。
帕特诺倒是提出过一个改善方案,他希望产量数据至少把分母固定下来。比如一个球员在场时球队总的play数固定了,得分占有率把投篮数和罚球数(乘以0.44)作为分子,组织占有率拿潜在助攻和罚球助攻作为分子,失误占有率拿失误数作为分子,三者之和既为球员的真实占有率。需要的时候还可以继续对比真实占有率里每一项具体占比是多少。
得分占有率=(球员的投篮出手数+罚球出手数x0.44)/(在场时球队的投篮出手数+罚球出手数x0.44+失误数)
组织占有率=(球员的潜在助攻+罚球助攻)/(在场时球队的投篮出手数+罚球出手数x0.44+失误数)*注:此处的分子没有追踪数据支持时可简化成助攻。
失误占有率=球员的失误数/(在场时球队的投篮出手数+罚球出手数x0.44+失误数)
真实占有率=得分占有率+组织占有率+失误占有率
这种方案底下,得分占有率和真实命中率是得分产量和效率的对应关系,组织占有率和失误占有率可以独立出来评估传控能力(比传统的助失比好用,助失比会出现助攻越多的球员越难控制的情况),不失为一种思路更清晰的办法。把失误占有率除以真实占有率的话,也能够一定程度比较摸球和传球多少对失误的影响。
当然帕特诺在这里做的也只是优化,而不是整合,最终仍然要求大家做多维度的比较。理想情况下,大家肯定希望也有一个代表球员进攻能力的数值,就像“百回合得分”之于球队进攻能力那样。而实际上它是不存在的,至少出现不了“百回合得分”这种事实性的结果,这是球员分析必须考虑回合过程中贡献所决定的。
明天我们在第二章第7节,主要就来聊聊美国数据专家在人为整合数据方面所做的努力。
相关推荐