文件系统 - Mandarinian

Google Cloud Run Volume 预览版安装：更轻松地访问容器中的文件

谷歌最近宣布了一项新功能，名为卷安装在预览中。此功能旨在简化云原生应用程序与直接在 Cloud Run 实例中的共享数据存储解决方案（例如 Cloud Storage 存储桶和 NFS 共享）的集成。卷安装功能位于云跑，一个基于 Google 可扩展基础设施构建的完全托管容器平台。通过使容器能够像本地一样访问存储桶或文件服务器内容，Google 增强了文件系统语义，为开发人员提供了更熟悉的体验。这消除了需要复杂的解决方案或替代服务以前需要访问共享数据。使用卷挂载的示例包括存储应用程序配置文件、处理事件驱动的云存储操作、为应用程序加载矢量数据库文件，例如朗查恩，并更有效地为静态网站提供服务。例如，开发人员现在可以挂载 Cloud Storage 存储桶来为服务提供配置或直接为网站提供静态内容，而无需在每次更新后重建和重新部署容器映像。这种灵活性对于需要定期静态内容或配置更新的应用程序是有益的。向网站提供静态内容示例（来源：Google Cloud 博客文章）另一个例子是卷挂载有助于创建事件驱动的 Cloud Storage 处理程序，从而无需使用自定义代码从 Cloud Storage 获取文件。通过挂载相关的存储桶，可以直接通过文件系统访问文件，从而简化了流程。此外，还能够挂载 NFS 存储，例如云文件存储实例，对于依赖外部数据库的无状态服务至关重要，例如色度数据库。这确保了对动态变化的数据的一致访问，而无需将其嵌入到容器中。开发人员可以挂载 Cloud Storage 存储桶或任何 NFS 文件共享使用 gcloud 命令，更新 Cloud […]

AWS 为 PyTorch 提供“闪电般”的快速 LLM 检查点

由于 AWS 对其 Amazon S3 PyTorch Lightning Connector 进行了改进，正在训练大型语言模型 (LLM) 的 AWS 客户将能够以高达 40% 的速度完成模型检查点。该公司还更新了其他文件服务，包括 Mountpoint、弹性文件系统和 Outposts 上的 Amazon S3。法学硕士的检查点过程已成为开发生成式人工智能应用程序的最大瓶颈之一。虽然训练 LLM 时使用的数据集相对较小（大约 100GB），但 LLM 本身相当大，用于训练它们的 GPU 集群也很大。在这些庞大的 GPU 集群上训练大型法学硕士可能需要几个月的时间，因为模型会一次又一次地检查训练数据，完善其权重。为了保护他们的工作，GenAI 开发人员定期备份 LLM 或对其进行检查点。说这有点像 1980 年代的高性能计算 AWS 杰出工程师安迪·沃菲尔德。 Warfield 表示：“他们有一个大型分布式系统，可以在其上构建模型，并且有足够多的主机，以免 GPU 主机发生故障。” 数据名。 “要么他们自己的软件存在错误，要么服务失败。他们在数千台服务器上运行这些东西，对于一些大型法学硕士来说可能一次需要几个月的时间。如果 GPU 出现故障，您肯定不想在两周后失去整个工作。” S3是访问对象的标准协议检查点完成得越快，客户就能越快地恢复法学硕士培训和开发 GenAI […]

Tag: 文件系统

Google Cloud Run Volume 预览版安装：更轻松地访问容器中的文件

AWS 为 PyTorch 提供“闪电般”的快速 LLM 检查点

信息