人类的“ AI显微镜”探讨了大语言模型的内部工作

人类的“ AI显微镜”探讨了大语言模型的内部工作

最近的两篇论文来自拟人尝试,以阐明大型语言模型中发生的过程,探索如何 找到可解释的概念并将其链接到计算“电路” 将它们转化为语言,并且 如何表征Claude Haiku 3.5的关键行为,包括幻觉,计划和其他关键特征。 大语言模型背后的内部机制仍然存在 理解不佳,很难解释或解释他们用来解决问题的策略。根据人类的说法,这些策略嵌入了数十亿个计算中,这些计算是该模型产生的每个单词的基础 – 但它们在很大程度上仍然不透明。为了探索这个隐藏的推理层, 人类研究人员开发了一种新颖的方法,他们称为“ AI Microsope”: 我们从神经科学领域中汲取灵感,该领域长期以来研究了思维生物的凌乱内部,并尝试构建一种AI显微镜,使我们能够识别活动模式和信息流。 用非常简化的术语,人类的AI显微镜涉及用所谓的研究代替正在研究的模型 替换模型,其中模型的神经元被稀疏的活性所取代 特征 通常可以代表可解释的概念。例如,当该模型即将生成州资本时,可能会发射此类功能。 自然,替换模型不会始终产生与基础模型相同的输出。为了解决这一限制,人类研究人员使用 本地替换模型 对于他们想要学习的每个提示,通过将错误项和固定注意力模式纳入替换模型而创建。 [A local replacement model] 产生与原始模型完全相同的输出,但用功能取代了尽可能多的计算。 作为描述通过本地替代模型从初始提示到最终输出的特征流的最后一步,研究人员创建了一个 归因图。该图是通过修剪不影响输出的所有功能来构建的。 请记住,这是对人类AI显微镜的非常粗略的概述。有关完整的详细信息,请参阅上面链接的原始论文。 使用这种方法,人类研究取得了许多有趣的结果。说到多语言能力,他们找到了某种形式的证据 通用语言 克劳德(Claude)在将概念转化为特定语言之前使用。 我们通过向克劳德(Claude)询问不同语言的“小”,并发现相同的核心特征是小小的和相反性的概念激活,并触发了一个宽敞的概念,从而将其转换为问题的语言。 另一个有趣的发现与一般的理解是,LLM“没有太多预见”就建立了他们的逐字输出。取而代之的是,研究克劳德(Claude)如何产生押韵表明它实际上是计划的。 在开始第二行之前,它开始“思考”潜在的主题单词,这些单词会押韵“抓住它”。然后,考虑到这些计划,它写了一条线,以按计划的单词结尾。 拟人化的研究人员还挖掘了为什么模型有时会构成信息(又称幻觉)的原因。幻觉在某种意义上是模型如何工作的固有的,因为它们应该总是产生下一个猜测。这意味着模型必须依靠特定的抗凝结训练来应对这种趋势。换句话说,有两种不同的机制在起作用:一种识别“已知实体”,另一个对应于“未知名”或“无法回答”。他们正确的相互作用是守护幻觉的模型: 我们表明,当克劳德(Claude)认出一个名字,但对该人一无所知时,可能会发生这种失火。在这种情况下,“已知实体”功能仍可能会激活,然后抑制默认的“不知道”功能,在这种情况下是错误的。一旦该模型决定需要回答这个问题,它就会引起责备:生成合理的(但不幸的是不真实)的回答。 人类研究人员探索的其他有趣的维度关注的是心理数学,从而产生了一个经过思考的链条,解释了找到答案,多步推理和越狱的推理。您可以在Anthropic的论文中获取完整的细节。 Anthropic的AI显微镜旨在为解释性研究做出贡献,并最终提供一种工具,以帮助我们了解模型如何产生其推理并确保它们与人类价值观保持一致。但是,这仍然是一项初期的工作,只能捕获总模型计算的一小部分,只能应用于用数十词的小提示。 InfoQ将继续报告LLM可解释性中的进步,因为新见解出现。 1744480046 2025-04-12 17:00:00 #人类的 #AI显微镜探讨了大语言模型的内部工作

Jetbrains AI编码代理Junie与Jetbrains IDES紧密整合

Jetbrains AI编码代理Junie与Jetbrains IDES紧密整合

Jetbrains宣布了Junie,其新的AI编码代理在封闭的预览中。该公司说,Junie能够完成您分配的编码任务,并利用IDE中可用的项目上下文的知识。 根据JetBrains的说法,您可以要求Junie“实施用用户界面管理书签的CRUD操作”。然后,Junie将收集所有相关的上下文信息,并设计一系列步骤来完成任务,包括分析您的项目结构,检查任何必需的依赖项,检查应通过的现有测试,创建任何必需的源文件,运行测试和运行测试和很快。 在流程结束时,Junie将确认提出的解决方案是否存在任何已知限制,您可以审查和/或修改并最终接受或拒绝。 Junie还可以为现有程序,运行检查等创建测试。 该公司表示,Junie能够解决53.6%的任务 SWEBENCH验证了基准,其中包括500多个编程任务。尽管它目前不在SWEBench验证的排行榜中排名前十,但Jetbrains表示,这是一个有前途的开始,这表明了Junie的潜力。 Junie目前可用于Intellij Idea Ultimate和MacOS和Linux的Pycharm Professional,而Jetbrains家族的其他IDE将很快得到支持。在撰写本文时,支持的语言包括Python,Java和Kotlin。如前所述,Junie是一个 封闭的预览您可以申请。 编码代理可以看作是AI编码助手的演变,该编码助理的重点是根据用户的提示提出代码完成或在编辑器窗口中进行交互重构。例如,编码助手可以建议如何从其签名或评论中实现方法,为方法编写文档,依此类推。 相反,AI代理被认为能够以更自主的方式进行任务。这种不同的方法在某种程度上反映了从“协助”开发人员到与他们“协作”的转变。 Jetbrains不是第一家创建AI编码代理的公司,这是一个竞技场,许多专业和未成年人都活跃。在主要参与者中,AWS最近在其Q开发人员助理中添加了代理能力; Google推出了基于双子座2.0的Jules代理商; Github提供了基于GPT-4涡轮增压的副铜工作区。但是,AI编码代理的列表更大,包括 W&B程序员O1 CrossCheck5,,,, Blackbox AI代理,,,, CodeStory Midwit Agent + Swe-Search,所有这些都位于Swebench经过验证的排行榜的前十名, akement.ai,还有更多。 Jetbrains于2023年推出了综合的AI助理,结果混合了, 一些开发人员称赞其功能,而另一些则批评它。当前可用的其他编码助手是Github Copilot,Google Code Assist,AWS CodeWhisperer等。 1738340009 2025-01-31 16:00:00 #Jetbrains #AI编码代理Junie与Jetbrains #IDES紧密整合