Skynode S:Auterion 自主套件让攻击无人机能够突破干扰

空战、陆战、网络与数字战争 华盛顿——乌克兰战争展示了无人机的致命威力。它也证明了无人机与人类操作员之间的无线连接即使出现短暂中断也会变得脆弱,乌克兰每周因电子战损失数千架无人机。 但现在 奥特里昂是一家为美国、英国、荷兰和乌克兰服务的美国-瑞士公司,在德克萨斯州和基辅设有生产线,该公司表示,他们已经解决了大部分问题。该公司的 天空节点 升级套件于周四发布,但已在乌克兰进行了战斗测试,旨在使小型无人机足够智能,能够自行执行一些关键功能。 一名乌克兰上校正在检查 Auterion 的 Dragon 参考设计无人机(Auterion 照片) “我们不会自主选择目标,因为这是一整套新的道德考量,” 洛伦兹·梅尔Auterion 创始人兼首席执行官在接受 Breaking Defense 采访时表示。你指定目标, [that] 是人为的决定,但此后的一切都是全自动的。……整个终端制导都是全自动的,不会受到干扰,不依赖 GPS,也能对移动目标起作用。” 自主末端制导是一个复杂的技术问题,俄罗斯已经尝试过用自己的“柳叶刀”无人机解决这个问题,但目前看来似乎失败了。这对双方来说都具有重要的军事意义,因为对攻击无人机来说,最棘手的时刻往往是它们接近目标的最后阶段。 根本的物理问题是小型无人机只能携带少量炸药,因此即使是一个小小的失误也可能意味着失败。但小型无人机(至少是没有 Skynode S 的无人机)无法自行执行精确的机动:它们需要人类飞行员通过遥控来驾驶它们。这意味着不熟练、疲惫或运气不佳的操作员可能会在最后一刻失误。或者敌人可以通过干扰控制链路来迫使无人机失误,随着无人机越来越接近目标,这需要的功率越来越小。 为了摆脱人工指导,你需要一架无人机,它有足够敏锐的电子眼和足够聪明的数字大脑,能够从背景杂乱中区分指定目标并自动追踪它。但是,尽管计算机在识别可爱的小猫、小狗和消费品的静态图像方面已经相当出色,但它们在识别三维物体方面却比较困难,尤其是当它们被伪装、部分隐藏在掩体后面、光线不足或移动时。 迈尔强调,Skynode S 已经很好地解决了这个问题,让乌克兰无人机在战斗中占据优势,而无需精密的传感器或笨重的机载计算机。 他告诉《Breaking Defense》:“这很艰难,也遇到过挫折,我们花了六个月的时间才达到今天的地步。”[But] 我们确保我们拥有一个非常非常好的计算机视觉追踪器”,它可以跟踪指定的目标,“即使它移动,转动,或者发生任何变化”。 开放式架构:无限升级之路 迈尔表示,SkyNode S 还能让无人机在 GPS 信号减弱、受干扰或不可用时,实现远距离精确导航。运行目标跟踪算法的同一块电路板还可以连接到抗干扰 GPS 天线、电磁传感器(可根据无线电信标对无人机的位置进行三角测量)以及计算机视觉算法(可将无人机下方的地形与高分辨率卫星地图进行匹配)。 迈尔强调,这并不意味着无人机可以识别和选择自己的目标。这是一个更为复杂的问题,不仅在技术上,而且在法律和道德上。 然而,该公司正在对 Skynode S 进行电子战升级,不再使用计算机视觉来跟踪目标,而是通过无线电和雷达信号进行跟踪。应该可以使用独特的敌方传输库对这种电子战无人机进行编程,然后将其发射到雷达、干扰器或通信节点的大致方向,并下令找到并摧毁它。 这种“自导反辐射”能力自 20 世纪 80 年代以来就已存在于高端导弹系统中,例如美国 AGM-88 哈姆。但将它们安装在更便宜的无人机上,可以大大增加它们在战场上的部署数量,至少在较短的范围内是如此。 Auterion Skynode […]

苹果研究人员详细介绍了结合不同法学硕士以实现最先进表现的方法

最近出现了许多大型语言模型 (LLM),无论是封闭的还是开源的,进一步导致了称为多模态 LLM (MLLM) 的组合模型的创建。 然而,他们很少或没有人透露创造它们的设计选择 Apple 研究人员总结了设计最先进 (SOTA) 多模式法学硕士的原则和经验教训。 多模态大语言模型是通过将大语言模型和视觉基础模型组合成单个模型来构建的。 根据 Apple 研究人员的说法,MMLM“正在成为基础模型的下一个前沿领域”,其目标是使用图像和文本输入来生成文本数据,其方式优于其所构建的基础模型。 Apple 研究人员重点关注创建 MLLM 过程的两个方面:有关模型架构的决策和预训练数据的选择。 在第一个方面,他们发现图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据是三个最重要的设计方面。 相反,有关如何将视觉数据输入 LLM 的架构决策似乎不会影响最终的模型性能。 关于预训练,研究人员分析了三种不同的方法——图像标题、交错的图像文本和纯文本数据。 少射, 零射击和纯文本上下文。 零样本模型经过训练可以识别和分类对象或概念,而无需事先见过它们的任何示例。 在少样本训练中,重点是能够基于仅包含极少数标记示例的训练做出准确预测的模型。 结果是,交错和纯文本训练数据是少样本和纯文本模型性能的关键,而字幕数据是零样本模型的关键。 为了证明他们的结果,研究人员建立了一系列模型,称为 MM1,其性能优于当前最先进的模型,包括 Emu2, 火烈鸟, 和 伊德菲克。 基准测试是针对字幕(模型提供图像的描述性字幕)和视觉问答(模型回答有关图像的问题并帮助理解其内容)进行的。 得益于大规模多模态预训练 […] MM1 具有吸引人的特性,例如上下文预测、多图像和思维链推理。 MM1 在指令调整后还具有强大的小样本学习能力。 这些强有力的结果表明,所提出的构建 MLLM 的方法将设计原则转化为大规模的竞争模型。 正如研究人员在论文中解释的那样,为了使用 MM1 获得这些性能水平,他们研究了不同的图像编码器以及将它们连接到 LLM 的方法; 不同类型的数据以及如何设置权重; 以及如何训练 MLLM,包括其超参数。 他们的研究结果包括图像分辨率、模型大小、训练数据组成等的重要性等见解,他们希望这些见解能为社区跨多种架构和数据策略构建更强大的模型提供坚实的基础。 1711728733 2024-03-29 […]

研究人员增强人工智能模型中的周边视觉 | 麻省理工学院新闻

周边视觉使人类能够看到不在我们视线范围内的形状,尽管细节较少。 这种能力扩大了我们的视野,在许多情况下都很有用,例如检测从侧面接近我们汽车的车辆。 与人类不同,人工智能没有周边视觉。 为计算机视觉模型配备这种能力可以帮助他们更有效地检测接近的危险或预测人类驾驶员是否会注意到迎面而来的物体。 麻省理工学院的研究人员朝这个方向迈出了一步,开发了一个图像数据集,使他们能够在机器学习模型中模拟周边视觉。 他们发现,使用该数据集训练模型提高了模型检测视觉外围物体的能力,尽管模型的表现仍然比人类差。 他们的结果还表明,与人类不同,物体的大小和场景中视觉混乱的数量都不会对人工智能的性能产生强烈影响。 “这里发生了一些根本性的事情。 我们测试了很多不同的模型,即使我们训练它们,它们也会变得更好一点,但它们不太像人类。 所以,问题是:这些模型缺少什么?” 博士后兼论文合著者 Vasha DuTell 说道 详细介绍这项研究的论文。 回答这个问题可能有助于研究人员建立机器学习模型,使之能够更像人类一样看待世界。 除了提高驾驶员安全性之外,此类模型还可用于开发更易于人们查看的显示器。 此外,主要作者 Anne Harrington MEng ’23 补充道,更深入地了解人工智能模型中的周边视觉可以帮助研究人员更好地预测人类行为。 “如果我们能够真正捕捉到外围所呈现的本质,对周边视觉进行建模,就可以帮助我们理解视觉场景中的特征,这些特征使我们的眼睛移动以收集更多信息,”她解释道。 他们的合著者包括马克·汉密尔顿,一名电气工程和计算机科学研究生; Ayush Tewari,博士后; Simon Stent,丰田研究院研究经理; 资深作者 William T. Freeman,电气工程和计算机科学 Thomas 和 Gerd Perkins 教授,计算机科学和人工智能实验室 (CSAIL) 成员; 露丝·罗森霍尔茨 (Ruth Rosenholtz) 是脑与认知科学系的首席研究科学家,也是 CSAIL 的成员。 该研究将在国际学习表征会议上公布。 “任何时候,当人类与机器(汽车、机器人、用户界面)进行交互时,了解人能看到什么就非常重要。 周边视觉在这种理解中发挥着关键作用,”罗森霍尔茨说。 模拟周边视觉 将手臂伸到身前,竖起拇指——中央凹可以看到拇指指甲周围的小区域,中央凹是视网膜中部的小凹陷,提供最清晰的视力。 你能看到的其他一切都在你的视觉周边。 当你的视觉皮层远离那个锐利的焦点时,它所代表的场景的细节和可靠性就会减少。 人工智能中周边视觉建模的许多现有方法通过模糊图像边缘来表示这种恶化的细节,但视神经和视觉皮层中发生的信息丢失要复杂得多。 为了获得更准确的方法,麻省理工学院的研究人员开始使用一种用于模拟人类周边视觉的技术。 […]