为什么现在 Elo 评级无处不在?

2003 年 10 月,马克·扎克伯格创建了他的第一个病毒网站:不是 Facebook,而是 FaceMash。 当时还是一名大学新生,他侵入了哈佛的在线宿舍名录,收集了大量学生的头像,并利用它们创建了一个网站,哈佛的学生可以在该网站上根据外表和形象对同学进行正面评价。 该网站是一个卑鄙的恶作剧,在开头场景中讲述 社交网络, 得到 如此快的牵引力 哈佛大学在数小时内关闭了他的互联网访问。 据报道,为 FaceMash 提供动力的数学——进而让扎克伯格走上了建立世界主导社交媒体帝国的道路——是一个对棋手进行排名的公式:Elo 系统。

从根本上来说,Elo 评级的作用是通过为每个棋手分配一个纯粹根据表现而波动的数字来预测国际象棋比赛的结果。 如果你击败了排名稍高的玩家,你的评分会上升一点,但如果你击败排名高得多的玩家,你的评分会上升很多(相反,他们的评分会下降很多)。 评分越高,您应该赢得的比赛就越多。

这就是埃洛 设计的 至少。 除了 FaceMash 和扎克伯格之外,人们还对许多运动(英式足球、橄榄球、篮球)以及约会、金融和灵长类动物学等不同领域采用了 Elo 评级。 如果某件事可以变成一场竞赛,那它很可能就是 Elo-ed。 不知何故,简单的国际象棋算法已成为对一切进行评级的通用工具。 换句话说,当谈到首选的评级方式时,Elo 评级具有最高的 Elo 评级。

实际上,对国际象棋棋手或任何竞技游戏中的棋手进行排名的最简单方法是通过输赢来排名。 但这个指标显然是有缺陷的:一方面,一个平庸的玩家可以通过击败新手来积累不败记录,而一个大师在与其他大师的比赛中会赢得一些胜利并失去一些。 另一方面,简单的输赢统计更多地表明了球员过去的水平,而不是球员现在的水平。 甚至在 Elo 之前,国际象棋就有一个比输赢更复杂的评分系统,但在 20 世纪 50 年代中期,一位名叫鲍比·费舍尔 (Bobby Fischer) 的 13 岁国际象棋神童打破了它。 他的进步如此之快,以致于排名(无法充分考虑球员对手的质量)无法跟上。 显然,作为回应,美国国际象棋联合会召集了一个委员会来纠正这些缺陷,并于 1960 年采用了由匈牙利裔美国国际象棋大师兼物理学教授阿帕德·埃洛 (Arpad Elo) 设计的系统。 十年后,国际象棋联合会也效仿了这一做法。

50 多年后,Elo 仍然是首选排名系统。 随着时间的推移,它已经被修改,不同的国际象棋管理机构使用略有不同的版本(例如,有些版本对输赢或多或少“摇摆不定”),但所有这些仍然是原始版本的密切变体。 Elo 已经成为国际象棋中最重要的数字。 “每当有人发现你下棋时,最直接的问题总是,‘你的等级是多少?’”国际象棋大师兼数据科学家内特·索伦(Nate Solon)告诉我,他每周都会写一份国际象棋通讯。

但 Elo 评级本质上与国际象棋没有任何关系。 它们基于一个简单的数学公式,适用于任何一对一的零和比赛——也就是说,几乎所有运动。 1997 年,一位名叫 Bob Runyan 的统计学家 改编的 国家足球队排名的公式——这个项目非常成功,国际足联最终 通过 官方排名的 Elo 系统。 不久之后,统计学家杰夫·萨加林 (Jeff Sagarin) 应用 Elo 对 NFL 球队在官方联赛排名之外进行排名。 当 ESPN 旗下的 Nate Silver 538 的新版本于 2014 年推出并开始为许多不同的运动项目提供 Elo 收视率时,事情才真正开始腾飞。 事实证明,有些运动比其他运动更棘手。 专注于统计数据的尼尔·潘恩 (Neil Paine) 指出,NBA 篮球尤其暴露了系统的一些缺陷 体育记者 曾经在538工作过的人告诉我。 例如,它一直低估重量级球队,很大程度上是因为它很难解释常规赛大部分时间的无意义,以及任何一支球队可能都没有尽全力去赢得一场特定比赛的事实。 该系统假设每个团队和每场比赛都有统一的动机。

事实证明,几乎任何事情都可以被视为一对一的零和游戏。 您很可能在不知情的情况下就已经通过 Elo 评级进行了评估。 Elo 评级可用于 学生评估成绩检查织物。 它们可以用来 风险投资公司排名优先考虑 不同类型的保健培训。 直到几年前,Tinder 使用的 Elo 分数 按意愿对用户进行评级,并向他们展示具有相似评级的潜在匹配项。 计算机科学家已经开始保留基于 Elo 的 排行榜 大型语言模型。 灵长类动物学家 使用 Elo 评级来模拟社会主导行为。 至少有一个人用过它们 决定 扔掉他们的哪一件 T 恤。

Elo 的吸引力显而易见:人们痴迷于数据、统计数据和排名,而 Elo 提供了一种量化严谨性和客观精英管理的感觉。 “国际象棋的好处在于,你有一个数字可以非常准确地反映你的能力,”索伦告诉我。 当然,在某种程度上,你希望生活的其他方面也有类似的东西。 “但它的阴暗面是,它可以决定你在国际象棋世界中的地位,甚至你的自我价值……这对很多棋手来说是一种诅咒,因为他们只关注这个数字。” Elo 评级的好处在于,您可以准确地知道自己相对于其他人的立场,而 Elo 评级的可怕之处在于,您可以确切地知道自己相对于其他人的立场。

但事实上,Elo 并不保证任何事情。 排名的好坏取决于基础比赛的好坏。 它们并没有什么神奇之处:无论你的公式多么复杂,如果你的输入是垃圾,你的输出也将是垃圾。 去年夏天,有人建立了一个名为 Elo Everything 的网站,它的功能正是您所想象的。 当您访问该网站时,它会提供两件事并询问:“哪一个 排名更高?” 一些对峙的例子包括美国政府与蜘蛛、睾丸激素与酥脆度以及来自 指环王 与阿道夫·希特勒之死相比。 您的选择会影响争夺中的两件事的 Elo 分数,进而影响整体排行榜。 目前排名第一的是:(1)宇宙,(2)水,(3)知识,(4)信息和(5)爱。 截至今天下午,语言、物质和“女性体型”三者并列,并列第 24 名。

埃洛本人也了解他的发明的局限性。 在他的概念中,它的功能相当狭窄:“它是一种测量工具,而不是奖励或惩罚的手段,”他曾经说过。 “这是一种比较表现、评估相对实力的手段,而不是在兔子面前挥舞胡萝卜,也不是因为表现良好而给孩子一块糖果。” 事情不可避免地变成了这样。

1713588535
#为什么现在 #Elo #评级无处不在
2024-04-19 18:20:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​