什么是桩? 桩是一个 825GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合而成。 下载 该桩由 眼。 是否有在 Pile 上使用或评估的模型? 让我们知道! 为什么 Pile 是一个很好的训练集? 最近的工作表明,特别是对于大型模型,数据源的多样性可以提高模型的一般跨领域知识以及下游泛化能力。 在我们的评估中,在 Pile 上训练的模型不仅在传统语言建模基准上显示出适度的改进,而且还在 Pile BPB 上显示出显着的改进。 为什么 Pile 是一个很好的基准? 为了在 Pile BPB(每字节位数)上取得好成绩,模型必须能够理解许多不同的领域,包括书籍、github 存储库、网页、聊天日志以及医学、物理、数学、计算机科学和哲学论文。 Pile BPB 是对这些领域的世界知识和推理能力的衡量标准,使其成为大型语言模型的通用跨领域文本建模能力的稳健基准。 引用 如果您使用 Pile 或任何组件,请引用我们! @article{pile, title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling}, author={Gao, Leo and Biderman, Stella and […]

考古学家在萨里亚德泰尔的罗马别墅中发现了一个与石油生产有关的区域

考古学家发现了一个与 位于萨里亚德泰尔 (Sarrià de Ter) 的罗马别墅 Pla de l’Horta 的石油生产,在吉罗内斯省。 在院子周围走廊的一角,他们发现了一个 加热室,在冬天,橄榄会被加热以提取汁液,另一个铺有灰浆,与罐相通,橄榄将在那里被压榨。 发掘负责人阿纳·科斯塔 (Ana Costa) 表示,这一发现被添加到了用于酿酒的整个部分(这一点已经众所周知),并证实了别墅的生产空间“具有在其他地点难以找到的尺寸” 。 与此同时,该遗址的高贵房间又恢复了辉煌,因为50多年前被拆除的马赛克又重新焕发光彩。 今年在萨里亚德泰尔罗马别墅进行的考古活动仍处于最后阶段,来自 UdG 的考古学家已经在那里工作了四个星期。 发掘的重点是曾经的区域 罗马别墅的制作 (位于住宅楼的另一端)。 在这里,一条走廊环绕着 还有 并且它还在继续 进一步开放存款。 新房间正是出现在这个区域。 有一个加热的地方,它们仍然被保存着 成堆的瓷砖 它支撑着人行道(并且创建了一个可以实现高温并且可以加热水的室)。 另一个房间有一个迫击炮地板——拉丁语“opussigninum”——还有一个小型的相关水箱。 两者的结合,以及它们是在城镇的生产区发现的这一事实,导致 UdG 考古学家提出了这样的假设: 他们将用于生产石油。 “过去,橄榄的收获和压榨是在十二月到一月之间进行的,这是最冷的月份;为了在压榨橄榄时提取最大量的油,罗马人 他们需要热水 并将它们保持在一定的温度,”科斯塔说,指的是加热的房间。 另一个房间——油箱的房间——是砂轮和提取油的压榨机所在的地方。 不仅是别墅里的居民消耗的东西,还有用来点灯或供应市场的东西。 “在古代世界,就像今天的情况一样,人们生产了不同品质和用途的油,”考古学家指出。 持续了相当长一段时间 当然,目前还很难确定这座罗马特鲁洛的确切年代。 因为 Pla de l’Horta 别墅持续了六个世纪(从公元前 1 世纪到公元 5 世纪),房间被重复使用,地层也重叠。 “然而,我们确实知道,这些生产空间持续了相当长的一段时间,直到别墅被遗弃之前的最后时期,”安娜科斯塔解释道。 […]