工程师设计出破纪录的机器人,可跳两倍于大本钟的高度

图片来源:曼彻斯特大学 曼彻斯特大学的工程师们揭开了设计一种机器人的秘密,这种机器人可以跳跃 120 米,比迄今为止设计的任何其他跳跃机器人都要高。 通过结合数学、计算机模拟和实验室实验,研究人员发现了如何设计一个具有最佳尺寸、形状和零件排列的机器人,使其能够跳得足够高,以越过比自身尺寸大很多倍的障碍物。 目前跳跃高度最高的机器人可达 33 米,相当于其自身尺寸的 110 倍。现在,研究人员设计出了一种机器人,它可以在空中跳跃超过 120 米,在月球上可以跳跃 200 米,相当于大本钟塔高度的两倍多。 进步, 发布 在期刊上 機械論,将彻底改变从行星探索到灾难救援到危险或无法进入的空间监视等应用。 论文合著者、曼彻斯特大学空间机器人研究助理约翰·罗博士表示:“机器人传统上设计为通过轮子滚动或用腿行走,但跳跃提供了一种有效的方式,可以在地形非常不平坦的地方或有很多障碍物的地方行进,例如洞穴内、森林中、巨石上,甚至是太空中其他星球的表面。 “虽然跳跃机器人已经存在,但在设计这些跳跃机器时仍面临几个重大挑战,其中最主要的是要跳得足够高,以克服大型和复杂的障碍物。我们的设计将大大提高弹簧驱动跳跃机器人的能源效率和性能。” 起飞(实验室实验与计算机模拟)。图片来源:曼彻斯特大学 研究人员发现,传统的跳跃机器人经常在完全释放储存的弹簧能量之前就起飞,导致跳跃效率低下,并限制了它们的最大高度。他们还发现,这些机器人通过左右移动或旋转而不是直线向上移动来浪费能量。 新设计必须注重消除这些不良的运动,同时保持必要的结构强度和刚度。 论文合著者、航空航天工程高级讲师本·帕斯利博士表示:“关于机器人的形状,有很多问题需要回答,也有很多决定需要做出,比如,它应该像袋鼠一样有腿可以推离地面,还是应该更像一个带有巨大弹簧的工程活塞?它应该是像钻石一样的简单对称形状,还是应该是更具曲线感和有机感的形状? “然后,决定了这一点之后,我们需要考虑机器人的尺寸——小型机器人轻便灵活,而大型机器人可以携带更大的马达,实现更强大的跳跃,那么最好的选择是不是介于两者之间呢? “我们的结构重新设计将机器人的组件质量重新分配到顶部,并将结构向下逐渐变细。更轻的腿,棱柱的形状,以及使用只拉伸的弹簧,这些都是我们展示的可以提高性能的特性,最重要的是,可以提高跳跃机器人的能源效率。” 尽管研究人员已经找到了一种可行的设计方案来显著提高性能,但他们的下一个目标是控制跳跃的方向,并找出如何利用着陆时的动能来提高机器人在一次充电中可以进行的跳跃次数。他们还将探索更紧凑的太空任务设计,使机器人更容易在月球上运输和部署。 更多信息: John Lo 等人,表征弹簧驱动跳跃机器人的起飞动力学和能量效率, 機械論 (2024)。 DOI: 10.1016/j.mechmachtheory.2024.105688 由曼彻斯特大学提供 引用:工程师解锁破纪录机器人的设计,可跳两倍于大本钟的高度(2024 年 6 月 18 日)于 2024 年 6 月 18 日检索自 本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。 1718745405 #工程师设计出破纪录的机器人可跳两倍于大本钟的高度 2024-06-18 17:24:35

新的图形处理技术比现有解决方案显示出明显的速度优势

GraphCP 架构 图片来源:Yongli Cheng 管理大规模图形数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的技术的开发,这种技术可以大幅提高处理速度。 GraphCP 不仅满足而且大大超出了现有图处理系统的性能: GridGraph:GraphCP 速度提高了 20.5 倍,处理大型数据集的效率显著提高。 GraphZ:GraphCP 的性能提高了 8.9 倍,其速度提升可以改变数据分析的时间线。 Seraph 和 GraphSO:这些系统也被 GraphCP 超越,分别快了 3.5 倍和 1.7 倍。 这些性能改进使 GraphCP 成为依赖快速高效图形数据处理的应用程序的领先解决方案。 该研究的通讯作者程永利表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步促进了我们领域的发展。” 凭借其更快的速度,GraphCP 在社交网络、物联网 (IoT) 和神经网络等领域尤其有用。行业可以利用这项技术更快地处理数据,从而做出更好的决策并提高运营效率。 GraphCP 通过引入创新的执行模型和更新机制,解决了传统图形处理中常见的瓶颈问题,例如磁盘输入/输出操作。这些进步有助于最大限度地减少冗余数据访问并提高整个系统的效率,从而降低运营成本。 GraphCP 背后的研究 发布 在 计算机科学前沿,展示了该领域各专家的贡献。这项研究是南京科技大学、华中科技大学、德克萨斯大学阿灵顿分校、福州大学和华中科技大学的合作成果。 更多信息: Xianghao Xu 等,针对并发图形处理作业的磁盘 I/O 优化系统, 计算机科学前沿 (2024)。 DOI:10.1007/s11704-023-2361-0 高等教育出版社提供 引用:新的图形处理技术比现有解决方案具有显著的速度优势(2024 […]

机器人革命:从实验室到市场

Continuous3D 团队负责人 Peter King。图片来源:Nick Pitsas 克莱顿工厂的制造研究员 Peter King 博士六年前在实验室遇到了一个问题。他发现,在团队开始任何实验室工作之前,他们必须花费大量时间进行编程。 “每个新项目都会出现这种情况,这给我们带来了时间管理问题,”彼得说。 连续3D 诞生了。它最初是一个旨在提高实验室工作效率的战略项目。现在它已经发展成为一个创业项目,由 Peter 领导。 “当我们在几个实验室中运行 Continuous3D 时,我们开始询问这是否对其他人有用,”他说。 机器人需要编程才能完成每项任务。每次接到工作时,任务可能完全不同——尤其是维修工作。Continuous3D 技术使机器人能够在非结构化环境中工作,并执行维修机器等工作,软件使机器人能够扫描和了解其环境。 “机器人其实并不聪明,它们需要大量的编程和指令,才能让它们做人们想让它们做的事情,”彼得说,“我们给机器人赋予了大脑。” 有了 Continuous3D,机器人就足够聪明,可以完成通常需要人工的工作。这样人类就可以专注于更重要的任务,从而提高生产率。它还解决了安全问题,因为它将更危险或风险更大的维修留给了机器人。 虽然这项技术最初是在实验室中发明的,但 Peter 和团队发现,该问题存在于多个不同的应用和行业中。在探索如何最好地将其技术商业化的同时,Continuous3D 开始与行业合作,进行演示和行业试验。 Continuous3D。图片来源:CSIRO 验证技术以创造更有价值的研究 他们是如何将项目从实验室推向市场的? “首先要了解市场。我们需要了解其他人是否也遇到了类似的机器人编程效率低下的问题,”彼得说。 从那时起,他们就参与了 ON Prime,这是一个旨在帮助研究人员在市场上测试他们的假设并与客户验证其解决方案需求的计划。通过该计划,该团队与一系列行业联系人和公司进行了交谈,发现他们的经历很普遍。随着他们的想法不断发展,他们继续与客户进行对话。 彼得说:“无论你在做什么,研究一项技术如何解决其他人的问题总是有用的。” “这应该始终指导我们的研究……从实际使用的角度来看,这是否有意义?人们会接受它吗?即使这项技术很棒,即使它比现在好两倍或快十倍,人们真的会关心它吗? “理解这一点非常有价值,因为它最终会带来更有价值的研究。” 通过联系和对话学习 ON Prime 帮助团队确认了存在痛点,并且人们想要购买他们的技术,但 ON Accelerate 的重点略有不同。Peter 和团队已经确定了存在商业机会,但不知道会是什么样子。他们的目标是做好投资者准备。 彼得说,加入 ON Accelerate 最大的好处之一是,它让他有时间、精力和空间真正专注于这个项目。 彼得说:“这让你有机会花时间在你的想法、你的团队和你想做的事情上。” “特别是如果没有这样的程序,你就没有足够的带宽来做这件事。” 该计划充分利用了这一机会,成为团队的一段紧张学习和发展时期——包括在线学习、指导、辅导、现场研讨会、交流和客户访谈。 作为专门针对研究人员型企业家的加速器计划,ON Accelerate 帮助参与者明确和巩固他们的商业模式、客户问题和产品,并支持他们提高创业技能。 “将技术商业化时需要考虑很多方面,ON […]

测试显示,在五分钟的聊天对话中,人们很难区分人类和 ChatGPT

每种证人类型的通过率(左)和审讯员信心(右)。通过率是某种证人类型被判定为人类的比例。误差线表示 95% 的引导置信区间。每条柱上方的显著性星号表示通过率是否与 50% 有显著差异。比较显示不同证人类型的通过率存在显著差异。右:每种证人类型对人类和人工智能判断的信心。每个点代表一场比赛。向左和向右的点分别表示对人工智能和人类判决的信心更高。来源:Jones and Bergen。 大型语言模型 (LLM),例如广泛使用的对话平台 ChatGPT 所依赖的 GPT-4 模型,以其理解书面提示和生成各种语言的合适回复的能力让用户感到惊讶。因此,我们中的一些人可能会想:这些模型生成的文本和答案是否如此逼真,以至于会被误认为是人类写的? 加州大学圣地亚哥分校的研究人员最近开始尝试回答这个问题,他们通过进行图灵测试来回答这个问题。图灵测试是以计算机科学家艾伦·图灵的名字命名的著名方法,旨在评估机器表现出类似人类的智能的程度。 本次测试的结果概述如下 纸 在 arXiv 服务器上预先发布的研究表明,人们在与 GPT-4 模型和人类代理进行二人对话时很难区分它们。 “这篇论文的想法实际上源自 Ben 在攻读法学硕士期间教授的一门课程,”论文共同作者 Cameron Jones 告诉 Tech Xplore。 “第一周我们阅读了一些关于图灵测试的经典论文,并讨论了法学硕士是否可以通过图灵测试,以及如果可以通过是否重要。据我所知,当时还没有人尝试过,所以我决定建立一个实验来测试这一点,作为我的课堂项目,然后我们继续进行第一个公开的探索性实验。” 第一项研究由 Jones 开展,由加州大学圣地亚哥分校认知科学教授 Bergen 指导,该研究得出了一些有趣的结果,表明 GPT-4 在约 50% 的互动中可以冒充人类。尽管如此,他们的探索性实验未能很好地控制一些可能影响结果的变量,因此他们决定进行第二次实验,并得出了他们最近论文中提出的结果。 “在进行研究的过程中,我们发现其他人也在这个领域做出了很大的贡献,包括 Jannai 等人的“人类还是非人类”游戏”琼斯说。“我们创建了这款游戏的双人在线版本,其中人类参与者可以与另一个人或人工智能模型匹配。 在琼斯和同事们使用的双人游戏的每次测试中,人类审讯者都会与“证人”互动,而“证人”可能是人类,也可能是人工智能代理。审讯者会向证人提出一系列问题,试图确定其是否是人类。 人类审讯员(绿色)与证人(灰色)之间的对话选段。这四次对话中有一次是与人类证人进行的,其余的都是与人工智能进行的。审讯员的判决和基本事实身份如下(以便读者间接参与)。 [A) Verdict: Human (100% confidence) Took a while to Google Addis […]

苹果员工的纳税表显示,他的收入比做同样工作的女性高出 10,000 美元:现在她起诉了

图片来源:Pexels 上的 Armand Valendez 贾斯蒂娜·荣格 (Justina Jong) 透露,由于她是女性,所以苹果公司的薪酬较低,这件事发生在一个意想不到的地方:一台办公室打印机。 这是一项诉讼,指控苹果公司系统性地向数千名女性支付低于男性的工资。诉讼称,在 Jong 工作的桑尼维尔苹果办公室的打印机上,有一份 W-2 税表,属于一位与她做同样工作的男同事,Jong 说。 苹果市场营销部培训讲师琼说道:“他的薪水比我高出近 1 万美元。” 苹果公司的市值为 3.3 万亿美元,该公司没有回应置评请求。 在苹果公司工作了十多年的 Jong 和另一位长期在苹果工作的员工、AppleCare 经理 Amina Salgado 向旧金山县高级法院对这家库比蒂诺 iPhone 和应用商店巨头提起了诉讼。诉讼称,苹果公司在工程、营销和“AppleCare”保修部门克扣了 12,000 多名女性的工资。 容和萨尔加多正在寻求集体诉讼,并寻求法院命令,向过去四年中受到苹果薪酬政策侵害的数千名现任和前任女员工补发工资,并支付 10% 的利息。 诉讼称:“苹果公司向女性支付的薪酬一直低于拥有类似教育和经验的男性。” 此次诉讼再次让硅谷以男性为主导的科技行业成为焦点。谷歌于 2022 年同意向多达 15,500 名女性支付 1.18 亿美元,以和解长达数年的集体诉讼,该诉讼指控这家山景城公司歧视女性员工。 四名原告指控谷歌,该公司最新的多元化报告显示,其员工中约三分之一为女性,谷歌将女性员工安排在比男性更低的工资水平,为女性提供低薪工作,女性晋升更慢、更少,并且女性员工的薪酬通常低于男性员工,但从事同样的工作。苹果最新的报告也显示了类似的性别分布情况。 本周针对苹果的诉讼称,直到 2017 年底,苹果一直在询问潜在员工之前的工资,导致该公司为女性员工提供比男性更低的起薪。诉讼称,2013 年入职的 Jong 获得的“基本工资与她之前的工作基本相同”。 诉讼称,萨尔加多于 2012 年入职,后来多次向苹果公司投诉,称由于性别原因,她的工资较低,苹果聘请的第三方公司进行的调查证实了她工资过低。诉讼称,苹果提高了萨尔加多的工资,但拒绝向她补发“她工资低于男性的那几年的工资”。 2018 年初,加州一项法律生效,禁止雇主询问求职者薪资历史,一份立法报告称,这一变化将有助于缩小美国女性薪资比男性低 20% […]

研究提出了实现多智能体系统有限时间共识的新型协议结构

新的协议结构确保无领导和有领导跟随的多智能体系统实现全局和半全局有限时间共识,并允许计算闭环系统的稳定时间上限。图片来源:中国自动化学会 共识问题,即一组智能体(例如无人驾驶车辆、机器或机器人)只需通过它们之间的本地通信就某些变量达成一致,已作为多智能体系统协作控制的一个基本问题引起了广泛关注。简而言之,多智能体系统由多个决策智能体组成,它们在共同环境中相互交互,以根据情况实现共同或冲突的目标。 根据代理是否跟踪预定的领导者,这些问题可分为无领导者共识或领导者跟随共识。研究人员对这两类问题进行了广泛研究,并开发了共识协议。然而,大多数当前协议仅提供渐近共识。 一些应用需要在有限时间内达成精确共识或有限时间共识。达成这种共识可以提高控制精度和稳定性。在实际应用中,有限时间共识需要相当大的控制力。然而,控制力存在物理限制,如果忽略这些限制,可能会降低控制器的性能。 研究已经探索了受约束的有限时间控制方法的解决方案,但大多数方法依赖于齐次理论,其中确保一致的收敛很困难,并且确切的稳定时间很难估计。 为了解决这些问题,北京航空航天大学的左宗宇教授、谭景川先生和柯瑞琪先生以及澳大利亚斯威本科技大学的 IEEE 院士韩庆龙教授组成的研究团队开发了一种新颖的协议结构,用于实现无领导和有领导跟随的多智能体系统的全局和半全局有限时间共识。他们的研究 发布 在里面 IEEE/CAA 自动化学报。 该团队对机器人系统和人工智能的潜力非常感兴趣,它们可以改变我们的日常生活,高效且可持续地应对复杂的社会挑战。左教授直观地解释了他们的工作:“想象一下一群舞者需要表演同步的舞蹈,他们彼此之间无法直接看到对方,只能听从附近人的提示。我们的工作类似于创建一套规则,帮助这些舞者在短时间内完美同步,确保每个人即使动作速度有限,也能一起精彩表演。” 本研究中提出的协议使用双曲正切函数,而不是传统协议中使用的非平滑饱和函数。这些协议分别保证了积分器和双积分器类型系统的全局和半全局有限时间一致性。此外,它们还允许显式计算稳定时间的上限和闭环系统的用户规定的有界控制水平,这使得它们在实际应用中非常实用和有价值。 此外,与传统协议不同,双曲正切函数避免了确定每个代理的输入饱和度,从而简化了协议的设计和稳定性分析。研究人员通过单积分器和双积分器多代理系统的说明性示例并将其应用于具有多个直流电机的实际系统,证明了新协议结构的有效性。 左教授强调了这项研究的实际应用,他说:“这些协议具有广泛的应用,例如用于农业或监视任务的自主无人机队、机械臂的协调控制以及同步交通灯系统。 “最终,我们的研究可以提高自主系统的效率和可靠性。例如,更好的交通管理系统可以减少拥堵和污染,而更协调的灾难响应机器人可以在危机期间挽救生命。” 总体而言,创新的协议结构标志着共识问题领域的重大成就,从而增强了多智能体自主系统。 更多信息: Zongyu Zuo 等,基于双曲正切函数的多智能体系统全局/半全局有限时间共识协议, IEEE/CAA自动化学报 (2024)。 DOI:10.1109/JAS.2024.124485 中国自动化学会提供 引用:研究提出了一种实现多智能体系统有限时间共识的新型协议结构(2024 年 6 月 12 日)于 2024 年 6 月 13 日检索自 本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。 1718276860 #研究提出了实现多智能体系统有限时间共识的新型协议结构 2024-06-12 20:12:43

开发用于自动采摘苹果的新型机器人夹持器

图片来源:华盛顿州立大学 华盛顿州立大学研究人员开发的机器人夹持器能够轻轻地从树上摘下大多数苹果,而不会损坏果实。 这款创新的夹持器是机器人装置的一部分,研究人员希望有一天它能为华盛顿农民完成水果采摘和其他农活,以帮助缓解持续的劳动力短缺问题。研究人员最近 发布 他们在夹钳方面的工作发表在 IEEE 第七届软机器人国际会议。 “我们希望这个项目能帮助很多人,”华盛顿州立大学机械与材料工程学院的博士生、论文第一作者克里斯·尼纳坦塔 (Chris Ninatanta) 说道。“华盛顿的劳动力短缺对果园来说非常不利。” 该夹钳重约三分之二磅,使用三根电缆来移动 3D 打印的硬塑料和硅橡胶头手指。手指必须足够柔和,不会损坏苹果,但又要足够有力,才能将苹果从树上拔下来。该夹钳的生产成本约为 30 美元,包括一个用于抓取和松开苹果的开关。它能够成功抓取果园中超过 87.5% 的苹果,而不会损坏它们。 机械与材料工程学院弗莱厄蒂助理教授 Ming Luo 表示:“我们一直致力于通过新设计提高这一水平。”Luo 和生物系统工程学教授兼华盛顿州立大学精准与自动化农业系统中心主任 Manoj Kakee 领导了这项工作。 华盛顿州的苹果产量居全美首位,2022 年,该行业为美国国内生产总值贡献了超过 20 亿美元。在整个华盛顿州,农场每年雇用十几到数百名工人进行果园作业,包括授粉、修剪、疏花和采摘果实。然而,随着人口老龄化和流动农场工人的减少,农民在收获季节很难满足对工人的需求。 近年来,研究人员已经开始开发机器人苹果采摘系统,但已开发的系统在果园中使用成本高昂且复杂。 尼纳坦塔在华盛顿州雅基马长大,童年时曾与父母一起摘水果。当他开始与罗合作开发苹果夹钳机器人时,他让父母录下他们的工作过程,这样他就可以模仿父母的手工来制作夹钳。 “所以这其中的一些设计实际上是受到我父母的启发,”他说。 华盛顿州立大学团队接下来将把他们的轻型夹持器连接到他们正在开发的低成本机器人系统上。与汽车经销商户外广告中经常使用的充气管人类似,机器人手臂由充满空气的柔软织物制成,与汽车经销商的版本类似,但更硬。 作为该项目的一部分,研究人员还在努力为系统添加一个机载摄像头,以便精确引导手臂,以及一个可以扭转的夹钳,类似于人手的旋转,以减少对苹果茎的损伤。他们希望在今年晚些时候在实验室和农田中试用该系统。 更多信息: Chris Ninatanta 等人,轻型软电动苹果采摘夹的设计与评估, 2024 IEEE 第七届软机器人国际会议(RoboSoft) (2024)。 DOI:10.1109/RoboSoft60065.2024.10521995 由华盛顿州立大学提供 引用:开发用于自动采摘苹果的新型机器人夹持器(2024 年 6 月 13 日)于 2024 年 6 月 […]

新算法仅通过观看视频就能发现语言

DenseAV 算法仅通过关联音频和视频信号来学习语言的含义。图片来源:Mark Hamilton 麻省理工学院电气工程和计算机科学博士生、麻省理工学院计算机科学和人工智能实验室 (CSAIL) 成员马克·汉密尔顿 (Mark Hamilton) 希望利用机器来了解动物的交流方式。为此,他首先着手创建一个可以“从零开始”学习人类语言的系统。 “有趣的是,灵感的关键时刻来自电影《帝企鹅日记》。电影中有一个场景,一只企鹅在穿越冰面时摔倒了,站起来时发出一声痛苦的呻吟。当你观看它时,几乎可以肯定,这声呻吟代表了一个四个字母的单词。正是在那一刻,我们想到,也许我们需要使用音频和视频来学习语言。”汉密尔顿说。“有没有办法让算法整天看电视,然后从中弄清楚我们在说什么?” “我们的模型 DenseAV 旨在通过根据听到的内容预测看到的内容来学习语言,反之亦然。例如,如果你听到有人说‘在 350 度下烤蛋糕’,那么你很可能看到的是蛋糕或烤箱。要想在数百万个视频的音频视频匹配游戏中取得成功,模型必须了解人们在谈论什么,”汉密尔顿说。 A 描述工作的论文 出现在 论文集 预印本服务器。 在他们训练 DenseAV 玩这个匹配游戏后,汉密尔顿和他的同事们开始观察模型在听到声音时寻找哪些像素。例如,当有人说“狗”时,算法会立即开始在视频流中寻找狗。通过查看算法选择了哪些像素,人们可以发现算法认为单词是什么意思。 有趣的是,当 DenseAV 听到狗叫时也会发生类似的搜索过程:它在视频流中搜索狗。 “这激起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗叫声之间的区别,”汉密尔顿说。该团队通过给 DenseAV 一个“双面大脑”来探索这一点。有趣的是,他们发现 DenseAV 的大脑一侧自然专注于语言,比如“狗”这个词,另一侧专注于吠叫之类的声音。这表明 DenseAV 不仅学会了单词的含义和声音的位置,还学会了区分这些类型的跨模态连接,所有这些都不需要人工干预或任何书面语言知识。 其中一个应用分支就是从每天发布到互联网的大量视频中进行学习。 汉密尔顿说:“我们希望系统能够从大量视频内容(例如教学视频)中学习。另一个令人兴奋的应用是理解新的语言,例如海豚或鲸鱼的交流,这些语言没有书面交流形式。我们希望 DenseAV 可以帮助我们理解这些从一开始就逃避人类翻译努力的语言。最后,我们希望这种方法可以用来发现其他信号对之间的模式,例如地球发出的地震声和它的地质。” 图片来源:麻省理工学院 团队面临着一项艰巨的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从一张白纸上重新发现语言的含义,避免使用预先训练的语言模型。这种方法的灵感来自于儿童通过观察和聆听周围环境来理解语言的方式。 为了实现这一壮举,DenseAV 使用两个主要组件分别处理音频和视觉数据。这种分离使算法无法作弊,因为视觉部分负责处理音频,反之亦然。它迫使算法识别物体,并为音频和视觉信号创建详细而有意义的特征。DenseAV 通过比较音频和视觉信号对来学习,以找出哪些信号匹配,哪些信号不匹配。这种方法称为对比学习,不需要标记示例,并允许 DenseAV 找出语言本身的重要预测模式。 DenseAV 与之前的算法之间的一个主要区别是,之前的研究只关注声音和图像之间的相似性这一单一概念。整个音频片段(例如某人说“狗坐在草地上”)与整张狗的图像相匹配。这使得之前的方法无法发现细粒度的细节,例如单词“草”与狗下面的草之间的联系。 该团队的算法会搜索并汇总音频片段和图像像素之间所有可能的匹配。这不仅提高了性能,还使该团队能够以以前的算法无法做到的方式精确定位声音。 “传统方法使用单一类别标记,但我们的方法会比较声音的每个像素和每一秒。这种细粒度的方法让 DenseAV 能够建立更详细的连接,从而实现更好的定位,”汉密尔顿说。 研究人员在 AudioSet 上训练了 DenseAV,其中包含 200 […]

用于机器人物体操控的开源通用模型

这些是我们测试 Octo 的机器人——你可以看到,机器人手臂种类繁多,从小型到大型,从单臂到双手。Octo 能够控制所有这些机器人。图片来源:Team et al。 ChatGPT 和其他大型语言模型 (LLM) 的公开发布,让世界各地的开发人员开始尝试使用这些模型来增强自己系统的交互能力。然而,类似的可通用的机器人操控模型仍然很少。 加州大学伯克利分校 (UC Berkeley)、斯坦福大学和 CMU 的研究人员最近推出了 Octo,这是一种开源的机器人操控通用模型,可以让不同的机器人系统有效地操控各种物体。该模型以 纸 在服务器 arXiv 上预先发布的文章可以为开发能够处理手动任务的机器人开辟新的途径。 Dibya Ghosh、Homer Walke、Karl Pertsch、Kevin Black 和 Oier Mees 告诉 Tech Xplore:“目前人工智能的进步很大程度上是由大型数据集和大型模型推动的。”“在机器人领域,我们最近组建了 Open X-Embodiment 数据集,这是一个汇集了来自许多研究机构的数据的大型操纵数据集。虽然这个新数据集是一个非常令人兴奋的资源,但当时还没有很多模型可以利用它。” 该研究团队近期的工作主要有两个目标。第一,开发一个可应用于各种机器人的通用机器人模型;第二,创建开源代码,以便其他研究人员将来可以构建类似的模型。 “Octo 是我们所说的‘通才’机器人模型,它是一种神经网络,可以控制许多不同类型的机器人,并使它们执行‘拿起勺子’、‘关上抽屉’、‘擦桌子’等要求,”Ghosh、Walke、Pertsch、Black 和 Mees 解释道。 “成为一名通才并研究多种机器人是关键,因为如果你看看世界各地的研究实验室,你会发现他们中的许多都使用不同的机器人,因此确保 Octo 能够被许多研究人员使用的唯一方法是支持多种机器人。” 在技​​术研发界,可应用于多个系统的高性能计算工具通常被称为基础模型。ChatGPT 就是此类模型的一个例子,它可用于为各种代理和系统配备自然语言处理 (NLP) 功能。 Ghosh、Walke、Pertsch、Black 和 Mees 表示:“我们希望建立类似的基础模型,但用于机器人控制,或者换句话说,可以控制许多机器人并使它们解决许多不同任务的模型。” “Octo 是朝着这一目标迈出的第一步。它的训练看起来与 ChatGPT 等模型非常相似:我们整理了一个庞大而多样化的数据集,在我们的例子中是机器人数据而不是文本,并训练一个大型模型来预测机器人在当前机器人状态和任务指令下应该执行的下一步动作。” […]