Uber 利用 Google Cloud Platform 实现大数据基础设施现代化的历程

在一个 最近贴文 Uber 在其官方工程博客上披露了将批量数据分析和机器学习 (ML) 训练堆栈迁移到 谷歌云平台 (GCP)。Uber 运营着最大的 Hadoop 该公司在全球拥有 1000 多个安装点,管理着两个地区数万台服务器的 1EB 以上数据。开源数据生态系统,尤其是 Hadoop,一直是数据平台的基石。

战略迁移计划包括两个步骤:初始迁移和利用云原生服务。Uber 的初始策略是利用 GCP 的对象存储进行数据湖存储,同时将其余数据堆栈迁移到 GCP 的基础设施即服务 (IaaS)。这种方法可以快速迁移,对现有作业和管道的干扰最小,因为他们可以在 IaaS 上复制其本地软件堆栈、引擎和安全模型的精确版本。在此阶段之后,Uber 工程团队计划逐步采用 GCP 的平台即服务 (PaaS) 产品,例如 数据处理BigQuery,充分利用云原生服务的弹性和性能优势。

移民范围(来源: Uber 的博客

初始迁移完成后,团队将专注于集成云原生服务,以最大限度地提高数据基础设施的性能和可扩展性。这种分阶段的方法可确保 Uber 用户(从仪表板所有者到 ML 从业者)体验无缝过渡,而无需改变其现有的工作流程或服务。

为了确保顺利、高效的迁移,Uber 团队制定了几项指导原则:

  • 通过将大部分批处理数据堆栈原封不动地迁移到云 IaaS 上,最大限度地减少使用中断;他们的目标是保护用户免受其工件或服务的任何更改的影响。他们使用众所周知的抽象和开放标准,努力使迁移尽可能透明。
  • 他们将依赖一个云存储连接器,该连接器实现了 Hadoop FileSystem 接口与 Google Cloud Storage 的兼容,从而确保了 HDFS 兼容性。通过标准化他们的 Apache Hadoop HDFS 客户端,我们将抽象出本地 HDFS 实现的细节,从而实现与 GCP 存储层的无缝集成。
  • Uber 团队开发了数据访问代理,用于 普雷斯托火花, 和 蜂巢 抽象底层物理计算集群。这些代理将在测试阶段支持将测试流量选择性路由到基于云的集群,并在完全迁移期间将查询和作业完全路由到云堆栈。
  • 利用 Uber 的云无关基础设施。Uber 现有的容器环境、计算平台和部署工具在构建时就考虑到了云和本地之间的无关性。这些平台将使其能够轻松地将其批量数据生态系统微服务扩展到云 IaaS 上。
  • 该团队将构建和增强现有的数据管理服务,以支持选定和批准的云服务,确保强大的数据治理。该公司的目标是保持与本地相同的授权访问和安全级别,同时支持针对对象存储数据湖和其他云服务的无缝用户身份验证。
  • 迁移前后 Uber 的批量数据堆栈(来源: Uber 的博客

    Uber 团队专注于存储桶映射和云资源布局以进行迁移。将 HDFS 文件和目录映射到一个或多个存储桶中的云对象至关重要。他们需要在不同粒度级别应用 IAM 策略,考虑存储桶和对象的限制,例如读/写吞吐量和 IOPS 限制。该团队旨在开发一种满足这些限制的映射算法,并以组织为中心的分层方式组织数据资源,从而改善数据管理。

    安全集成是另一个工作流;将我们现有的基于 Kerberos 的令牌和 Hadoop 委托令牌调整为云 PaaS(尤其是 Google Cloud Storage (GCS))至关重要。此工作流旨在支持无缝的用户、组和服务帐户身份验证和授权,保持与本地一致的访问级别。

    该团队还专注于数据复制。HiveSync 是一种权限感知双向数据复制服务,它允许 Uber 在主动-主动模式下运行。它扩展了 HiveSync 的功能,将本地数据湖的数据复制到基于云的数据湖和相应的 Hive Metastore。这包括初始批量迁移和持续的增量更新,直到基于云的堆栈成为主堆栈。

    最后一个工作流是在 GCP Iaas 上提供新的 YARN 和 Presto 集群。Uber 数据访问代理将在迁移期间将查询和作业流量路由到这些基于云的集群,确保平稳过渡。

    Uber 将大数据迁移到 Google Cloud 时,预计会面临诸多挑战,例如存储性能差异以及由于其旧系统而导致的不可预见的问题。该团队计划通过利用开源工具、利用云弹性进行成本管理、将非核心用途迁移到专用存储以及主动测试集成和弃用过时的做法来解决这些问题。

    1719649475
    2024-06-29 08:00:23
    #Uber #利用 #Google #Cloud #Platform #实现大数据基础设施现代化的历程

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    近期新闻​

    编辑精选​