Apache Hadoop - Mandarinian

Uber 利用 Google Cloud Platform 实现大数据基础设施现代化的历程

在一个最近贴文 Uber 在其官方工程博客上披露了将批量数据分析和机器学习 (ML) 训练堆栈迁移到谷歌云平台（GCP）。Uber 运营着最大的 Hadoop 该公司在全球拥有 1000 多个安装点，管理着两个地区数万台服务器的 1EB 以上数据。开源数据生态系统，尤其是 Hadoop，一直是数据平台的基石。战略迁移计划包括两个步骤：初始迁移和利用云原生服务。Uber 的初始策略是利用 GCP 的对象存储进行数据湖存储，同时将其余数据堆栈迁移到 GCP 的基础设施即服务 (IaaS)。这种方法可以快速迁移，对现有作业和管道的干扰最小，因为他们可以在 IaaS 上复制其本地软件堆栈、引擎和安全模型的精确版本。在此阶段之后，Uber 工程团队计划逐步采用 GCP 的平台即服务 (PaaS) 产品，例如数据处理和 BigQuery，充分利用云原生服务的弹性和性能优势。移民范围（来源： Uber 的博客）初始迁移完成后，团队将专注于集成云原生服务，以最大限度地提高数据基础设施的性能和可扩展性。这种分阶段的方法可确保 Uber 用户（从仪表板所有者到 ML 从业者）体验无缝过渡，而无需改变其现有的工作流程或服务。为了确保顺利、高效的迁移，Uber 团队制定了几项指导原则：通过将大部分批处理数据堆栈原封不动地迁移到云 IaaS 上，最大限度地减少使用中断；他们的目标是保护用户免受其工件或服务的任何更改的影响。他们使用众所周知的抽象和开放标准，努力使迁移尽可能透明。他们将依赖一个云存储连接器，该连接器实现了 Hadoop FileSystem 接口与 Google Cloud Storage 的兼容，从而确保了 HDFS […]

Tag: Apache Hadoop

Uber 利用 Google Cloud Platform 实现大数据基础设施现代化的历程

信息