什么是桩?

桩是一个 825GiB 多样化的开源语言建模数据集,由 22 个较小的高质量数据集组合而成。

下载

该桩由

是否有在 Pile 上使用或评估的模型?
让我们知道

为什么 Pile 是一个很好的训练集?

最近的工作表明,特别是对于大型模型,数据源的多样性可以提高模型的一般跨领域知识以及下游泛化能力。 在我们的评估中,在 Pile 上训练的模型不仅在传统语言建模基准上显示出适度的改进,而且还在 Pile BPB 上显示出显着的改进。

为什么 Pile 是一个很好的基准?

为了在 Pile BPB(每字节位数)上取得好成绩,模型必须能够理解许多不同的领域,包括书籍、github 存储库、网页、聊天日志以及医学、物理、数学、计算机科学和哲学论文。 Pile BPB 是对这些领域的世界知识和推理能力的衡量标准,使其成为大型语言模型的通用跨领域文本建模能力的稳健基准。

引用

如果您使用 Pile 或任何组件,请引用我们!

@article{pile,
  title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}
                

1709840492
#桩
2024-03-07 17:14:51

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​