多模式嵌入如何提升 eBay 的产品推荐

介绍

eBay 致力于为其客户提供无缝且愉快的购买体验。 我们不断寻求改进的一个领域是列表的质量,特别是在图像和文本方面。 过去,低质量图像的存在可能会导致产品展示不准确,在最坏的情况下,还会导致买家失望。 此外,分别从列表标题和图像导出的文本和图像嵌入存储在不同的空间中,这使得创建统一且准确的推荐系统具有挑战性。 eBay 的深度学习模型无法有效地处理这两种类型的信息。

为了应对这些挑战,我们通过将不同的模式和定制模块(包括图像文本不匹配检测和 TransH 的三元组丢失)集成到召回模块中,创建了一个新的上下文推荐系统。 我们的方法使 eBay 的推荐系统能够提供高度准确的推荐,并将买家参与度提高约 15%。

信息检索:eBay推荐系统中的召回模块

召回模块是 eBay 推荐系统的重要组成部分。 其主要功能是从各个角度检索与查看项目页面上的主列表最相关的一组项目。 召回模块是推荐过程的第一步,它在确保商品对用户来说是最合适、最相关和最高质量方面发挥着关键作用。

过去,推荐系统中的召回模块主要依赖于单一模态的信息,例如项目标题和项目图像。 虽然这种方法被证明对于检索相关结果很有用,但它也有其局限性。 单模态方法缺乏来自其他模态的信号,这使得很难为更复杂的场景提供准确的建议,例如区分玩具车和真车。

通过集成项目的多模态信息,我们开发了高性能的召回模块,可以显着提高推荐系统针对更复杂场景的准确性。 这种创新方法可确保更加相关和个性化的用户体验。 如图 1 所示,仅依靠文本模式来检索相关列表可能会导致推荐系统中包含不那么相关或质量较低的项目。 发生这种情况是因为它们的标题与页面上的英雄项目的相似度很高,但这忽略了封面图像的相关性和质量。

图 1:仅使用文本形式进行回忆可能会导致列表质量较低。

多模式物品嵌入解决方案

为了解决这些问题,我们最近推出了一种新的多模态项目嵌入解决方案,该解决方案现在可以有效地组合来自不同模态的信息以获得丰富的特征信息。 这种集成使团队能够更好地了解 eBay 上的列表,并为推荐系统创建更准确、更高效的召回集。 此外,通过检测列表的图像和标题之间的不匹配,团队可以提供过滤掉低质量结果的机会。

我们的多模式项目嵌入解决方案使用搜索团队的预训练嵌入(文本嵌入 伯特 作为基本模型)和计算机视觉团队(图像嵌入 RESNET-50 作为基本模型)团队。 它包括在机器学习训练平台上训练的连体两塔模型,用于预测两个项目的共同点击概率。 该模型使用 TransH 的三元组损失来确保文本和图像嵌入被投影到相同的嵌入空间中。 标题-图像不匹配检测模块使用不匹配嵌入来预测点击图片和标题不匹配的项目的概率。

230613 多模态技术博客 v1 inc 1600x 图像 2

图2:连体二塔模型整体模型结构。

在下面的示例中,最后一列中的“嵌入距离”是一个统一的分数,从项目标题和封面图像的角度反映了与种子项目的相似度。 新的统一评分比仅依赖于标题文本的“标题相似度”评分更准确。

230613 多模态技术博客 v1 inc 1600x 图像 4

图 3:多模式项目嵌入解决方案与纯文本模式方法进行比较的图示。

连体两塔模型

连体双塔模型是一种神经网络架构,它使用两个相同的子网络(或塔)来处理两个不同的输入,通常用于涉及比较或匹配两个输入的任务,例如相似性分析、重复检测和推荐系统。 在多模式项目嵌入解决方案的情况下,每个塔代表一个列表,每个塔的输入是该列表的串联预训练图像和文本嵌入。

230613 多模态技术博客 v1 inc 1600x 图像 5

图 4:以预训练嵌入作为输入的两塔模型的架构

使用连体双塔模型的主要好处是,它允许模型基于图像和文本嵌入以端到端的方式学习两个不同列表之间的相似性函数,而无需依赖手工制作的特征或中间表示。 这使得模型更加灵活并且能够适应不同类型的输入数据。 通过计算两个项目嵌入之间的亲和力分数,我们可以预测它们是否可能被共同点击。 此外,两个塔中的共享权重可以帮助防止过度拟合,因为它们限制模型学习对两个输入都有用的表示。

TransH 的三重态损失

在多模式项目嵌入解决方案中,挑战之一是确保每个列表的图像和文本嵌入分布在同一嵌入空间中,以便它们可以轻松集成在一起。 为了应对这一挑战,该团队使用了一种称为三重态损失的技术。

Triplet loss 是深度学习中常用的一种损失函数,用于训练图像识别、人脸验证等任务的模型。 Triplet Loss 背后的想法是学习一个嵌入函数,将输入数据点映射到一个公共嵌入空间,在其中可以使用欧几里德距离等距离度量来比较它们。 三元组损失函数旨在确保相似列表(例如,共同点击的列表)之间的距离最小化,而不相似列表之间的距离最大化。

三重态损失:

除了三元组损失之外,团队还借鉴了知识图谱中的 TransH 思想,将列表投影到超平面上。 TransH 是知识图谱嵌入领域中的一个模型,它将实体和关系表示为连续空间中的向量。 TransH 将实体和关系投影到超平面上,然后计算内积以捕获它们之间的复杂交互。 该团队采用了这一想法,将每个列表的 DNN 编码图像和文本嵌入投影到超平面上,确保两个嵌入代表相同的列表。

230613 多模态技术博客 v1 inc 1600x 图像 6

图5:TransH的超平面解释

通过将 Triplet Loss 与 TransH 结合使用,团队能够有效地组合来自不同模式的信息,并为每个列表获取丰富的特征信息。 结合三重态损失和 TransH 技术,两塔模型的损失为:

230613 多模态技术博客 v1 inc 1600x 图像 7

离线训练比较:不同投影方法的三元组损失

230613 多模态技术博客 v1 inc 1600x 图像 8

表 1:TransH/E 策略的离线培训指标

失配检测模块

作为一个在线市场,eBay 提供大量由个人卖家列出的二手商品。 然而,这些图像的图像质量以及因此的准确表示有时可能会有所不同。

230613 多模态技术博客 v1 inc 1600x 图像 9

图 6:搜索词“Sony headphone”的产品标题和封面图像不匹配的实例

在发现这个问题后,我们应用了一个复杂的模块来解决它。 详细的数据分析显示,图像和描述之间存在差异的产品会产生较低的点击率和购买率。 用户通常会避免显示此类不一致的项目。 为了解决这个问题,我们使用 TransH 超平面中映射的图像嵌入和标题嵌入之间的差异作为模型输入。 我们的预测目标设置为项目未收到点击的概率,它代表图像和标题之间不一致的程度以及它如何影响项目被点击的可能性。

230613 多模态技术博客 v1 inc 1600x 图像 10

图7:失配模块预测目标示意图

230613 多模态技术博客 v1 inc 1600x 图片 11

图 8:不匹配模块结果的描述,其中较高的不匹配分数表明发生了不匹配场景

添加图文不匹配的损失后,我们对模型训练完成后的结果进行了案例分析。 从结果中,我们发现模型对产品图文不匹配的预测精度与实际情况吻合良好,表明我们的图文不匹配模块是有效的。

以下是多模态方法的离线实验结果。 在模型中添加嵌入空间三元组损失和图像文本失配损失后,这两个因素都对模型的度量性能产生了积极影响。

230613 多模态技术博客 v1 inc 1600x 图像 12

表 2:不匹配模块加三元组损失的离线训练指标

在线实验结果

基于多模态嵌入的召回已部署在多个显示我们推荐的 eBay 页面上,例如列表页面、添加到购物车页面、订单详细信息页面和观看页面。 A/B 测试显示关键业务指标显着改善:CTR(点击率)提高了 15.9%,PTR(购买率)提高了 31.5%。 从 2023 年 2 月开始,我们的多式联运召回已在线部署,并为 eBay 网站和应用程序中的网站流量提供服务。

A/B 测试结果验证了在我们的推荐召回模块中集成多模式技术以从列表的不同维度检索信息可以提高转化率和买家参与度。 通过数据分析,我们发现多模态嵌入比单独依赖单一模态能够召回更多的项目,并且可以检测文本描述和封面图像之间的不匹配。

230613 多模态技术博客 v1 inc 1600x 图像 13

图 9:多模态和单模态解决方案的并排比较。 *使用默认嵌入的情况下,覆盖率高于任何单独的模式。

概括

​​在这篇博文中,我们讨论了 eBay 如何通过多模式项目嵌入解决方案改进其列表推荐。 我们的方法整合了 eBay 列表的各种模式,这有利于买家体验和建议列表的相关性。 我们深入研究了低质量图像以及图像和文本嵌入之间的脱节问题,以及这些问题如何影响我们解决方案的开发。 该方法是 eBay 如何致力于通过利用先进技术和数据驱动的见解来不断改善购买体验的一个例子。

下一步,我们将启动NRT管道的开发,重点是整合用户特定信息和LLM提示模块,以增强推荐中多模态项目嵌入的个性化和相关性。

1714571923
#多模式嵌入如何提升 #eBay #的产品推荐
2023-09-13 07:00:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​