Uber 利用 Google Cloud Platform 实现大数据基础设施现代化的历程

在一个 最近贴文 Uber 在其官方工程博客上披露了将批量数据分析和机器学习 (ML) 训练堆栈迁移到 谷歌云平台 (GCP)。Uber 运营着最大的 Hadoop 该公司在全球拥有 1000 多个安装点,管理着两个地区数万台服务器的 1EB 以上数据。开源数据生态系统,尤其是 Hadoop,一直是数据平台的基石。 战略迁移计划包括两个步骤:初始迁移和利用云原生服务。Uber 的初始策略是利用 GCP 的对象存储进行数据湖存储,同时将其余数据堆栈迁移到 GCP 的基础设施即服务 (IaaS)。这种方法可以快速迁移,对现有作业和管道的干扰最小,因为他们可以在 IaaS 上复制其本地软件堆栈、引擎和安全模型的精确版本。在此阶段之后,Uber 工程团队计划逐步采用 GCP 的平台即服务 (PaaS) 产品,例如 数据处理 和 BigQuery,充分利用云原生服务的弹性和性能优势。 移民范围(来源: Uber 的博客) 初始迁移完成后,团队将专注于集成云原生服务,以最大限度地提高数据基础设施的性能和可扩展性。这种分阶段的方法可确保 Uber 用户(从仪表板所有者到 ML 从业者)体验无缝过渡,而无需改变其现有的工作流程或服务。 为了确保顺利、高效的迁移,Uber 团队制定了几项指导原则: 通过将大部分批处理数据堆栈原封不动地迁移到云 IaaS 上,最大限度地减少使用中断;他们的目标是保护用户免受其工件或服务的任何更改的影响。他们使用众所周知的抽象和开放标准,努力使迁移尽可能透明。 他们将依赖一个云存储连接器,该连接器实现了 Hadoop FileSystem 接口与 Google Cloud Storage 的兼容,从而确保了 HDFS […]