Shopify 利用递归嵌入和集群来增强数据可解释性的方法

Shopify 最近发布了一篇技术博客,介绍了他们的一些内部机器学习流程,以及如何根据客户信号获得更多可操作的见解。 任何在线企业面临的主要挑战之一是从数据中获得可操作的见解以进行决策。 Shopify 分享了解决此问题的方法和经验,通过涉及降维、递归和监督机器学习的独特方法对不同的数据集进行聚类。 该方法产生了强有力的结果,并提供了见解和更好的可解释性。 它可以帮助用户研究人员和数据科学家增强理解、完善解决方案并更有效地迭代最终解决方案。 此外,该方法还包括一个可解释层,有助于验证结果以与利益相关者进行沟通。 下图显示了这种高级方法。

根据博客文章,作者提出了一个包含 4 个简单步骤的方法:

  • 使数据易于管理。
  • 将其聚类。
  • 理解它(并预测它)。
  • 沟通一下。
  • 此过程的第一步是找到一种可视化数据的方法,以更好地管理数据。 主要挑战是在实际实践中我们需要处理高维数据。 一种实用的方法是使用降维技术,例如主成分分析或 主成分分析。 PCA 的主要挑战是,在许多情况下,并非所有信息都可以二维表示。 作者建议使用最先进的均匀流形逼近和投影技术或 乌玛普 而不是PCA。 PCA和UMAP之间的主要区别在于,UMAP是在较低维度上保留点的局部和全局相似性的投影方法,并且与PCA相比它是非线性的。 这将捕获数据之间的非线性关系。 作为一个例子,作者展示了使用 MNIST (修改后的国家标准与技术研究所)数据集。 MNIST 有 784 个维度来表示书写数字 0 到 9。下图显示了差异。

    一旦我们可视化数据并获得初步感觉,我们就需要创建一些有意义的集群。 正如文章中提到的,为了可解释性,该聚类应具有以下属性:

  • 如果簇存在,则该点属于该簇。
  • 如果您需要聚类参数,请使其直观。
  • 即使改变数据顺序或起始条件,集群也应该是稳定的
  • 许多聚类算法,例如 K-均值HDBS扫描 (带有噪声的应用程序的基于分层密度的空间聚类),存在于该领域。 HDBSCAN 利用结合聚类和 DBSCAN 方法的分层方法来生成更强大、更有意义的聚类。 Shopify 进行的大量实验表明,HDBSCAN 始终能够产生更有意义、更稳定的结果。

    为了更深入地理解集群行为,集群技术的递归应用变得势在必行。 这个迭代过程可以增强对集群内复杂动态的洞察。 随后,一旦建立了足够数量的集群,监督技术的应用,特别是分类,就变得可行。 建立了分类方法,例如 XGBoost,可以用作每个簇的一对多模型。

    此外,整合 夏普 旨在增强可解释性,阐明每个集群内的主要驱动因素。 这种双重方法结合了 HDBSCAN 进行初始聚类和通过 XGBoost 进行后续分类,并通过 SHAP 进行增强以提高可解释性,形成了一种全面的方法,可以深入了解不同集群的行为。

    在最后阶段,需要与数据科学小组和其他利益相关者沟通研究结果,并在需要时迭代最终解决方案的流程。

    类似的方法也已成功应用于其他学科,例如 健康数据中的异常检测。

    许多机器学习工程师发现这项工作令人兴奋。 正如其中一位在 LinkedIn 上评论的那样 这项工作的帖子

    Umap 和 Shap 是真正的游戏规则改变者和高级分析工作流程的基础元素

    1705631771
    2024-01-19 02:17:05
    #Shopify #利用递归嵌入和集群来增强数据可解释性的方法

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    近期新闻​

    编辑精选​