Apple 的 RealLM 可以理解模糊的用户引用,其性能可与 GPT4 相媲美

文件 – 人工智能 (AI)。 – PIXABAY – 存档

马德里,4 月 4 日 (传送门/EP)-

苹果 开发了一种语言模型,尽管参数比 GPT4 少,但在与用户交互时理解模糊引用方面提供了与此类似的性能,被认为是最先进的。

苹果研究人员致力于解决大型语言模型(LLM)面临的问题之一,即参考分辨率,这个, 从上下文中理解的人类语言中不明确的引用(例如,引用“那个”或“这个”之类的东西)但人工智能对话助理无法理解。

这个问题在人们与虚拟助手的交互中很明显,特别是在允许使用自然语言进行交流的改进方面,因为 他们无法回应的对话的一部分 因为不理解上下文。 例如,当被要求搜索附近的药房以及助理提供的列表时,如果人员请求“拨打此号码”,因为它是屏幕上显示的号码。

这种参考问题因法学硕士通常集成到设备中而加剧,这些设备在计算能力较低的计算机上本地运行。

为了解决这个问题,苹果研究人员 开发RealLM (参考解析作为语言建模)他们用它让模型理解不明确的参考 屏幕上显示 以提高对话的自然度。

尽管这不是一种新方法,因为正如他们所解释的,已经有研究探索了对话、视觉和指示性参考,但专注于屏幕的工作并不常见,因为它通常“被视为文本问题,而不是文本问题”。视觉成分”。 除此之外,对屏幕上元素的模糊引用往往更侧重于执行操作。

尽管最近出现了视觉变换器和其他预训练模型,但它们不足以解决参考问题,因为它们是用真实世界的图像而不是屏幕截图进行训练的。

通过他们的工作,他们表明,通过将候选实体编码为自然文本,“可以使用大型语言模型来执行参考解析”。 这是, 能够理解文本中嵌入的图像并从中提取信息。

他们在研究文本中写道:“至关重要的是,我们演示了如何使用一种新颖的文本表示方式在法学硕士中传递屏幕上存在的实体,该文本表示方式总结了用户的屏幕,同时保留了这些实体的相对空间位置。” , 出版于 Arxiv.org

他们通过他们的工作确保 RealLM 具有与 GPT4 相当的性能德 OpenAI, 尽管“参数少得多”,用于屏幕参考和用户表达。

1712225759
#Apple #的 #RealLM #可以理解模糊的用户引用其性能可与 #GPT4 #相媲美
2024-04-04 09:29:49

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​