导读：亚马逊云科技如何让数据和机器学习融合？

提到全球云计算技术的风向标，就绕不开亚马逊云科技re:Invent全球大会。今年是亚马逊云科技第11年举办线下re:Invent峰会，共吸引了5万多个客户和合作伙伴参加线下大会，超过30万人线上参会。

(相关资料图)

re:Invent中文意思是重塑，每年亚马逊云科技将其对云计算前沿技术的探索，以及行业发展趋势的思考对外分享。今年re:Invent大会围绕数据、安全、计算性能和行业应用四大主题，发布了众多技术创新。其中，新推出的大量服务和功能是跟数据、机器学习相关的。

从re:Invent 2022，可以看到一个愈加明显的云计算发展趋势——数智融合。一方面，云计算的数据服务和功能不断创新，为机器学习服务；另一方面，机器学习新技术也不断应用于数据服务，帮助客户最大化数据价值。

亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士

什么是端到端数据战略

今年，在数据与机器学习领域，亚马逊云科技提出了“端到端数据战略”的理念。

数据是整个应用程序业务逻辑的核心，也是每个组织数字化转型的基石。但是今天的企业面临着宇宙一样广袤的数据。分析人士预测，未来五年产生的数据量将会是数字时代开始以来的两倍多。

亚马逊云科技认为，“端到端数据战略”能够帮助企业在数据全生命周期，从数据的采集、存储、查询、分析的各个环节，实现数据价值最大化。

亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士认为，构建“端到端数据战略”，需要三大要素：第一，建立面向未来的数据基础设施；第二，实现安全高效的跨组织数据链接；第三，通过工具和教育实现数据普惠化。

在数据基础设施方面，亚马逊云科技一直践行的理念是“专门构建”，即为每一类特定的数据场景定制化开发一个最合理的数据工具。无论是数据库、还是数据分析服务都是如此。

“当前，客户管理的数据既庞大又复杂，这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。确保能够使用正确的工具完成工作，对于企业成功非常重要。” Swami博士表示。

在市场落地中，“专门构建”理念早已得到了验证。今天，全世界有超过150万家公司来亚马逊云科技寻求数据服务上的帮助，包括数据库、数据分析和机器学习服务。在亚马逊云科技前1000名客户之中，有超过94%的客户使用了10种以上的数据库和分析的服务。

“TOP1000客户代表了当前云计算应用之中最复杂、最深入、最大规模的云业务应用。从核心客户的选择可以看出，选择针对特定场景的数据库和数据分析业务有多么重要。”亚马逊云科技大中华区产品部总经理陈晓建表示。

创新数据服务为机器学习铺平道路

数据是机器学习的燃料，数据准备也是各类数据分析项目的第一步。目前，数据科学家80％以上的时间都花在准备数据上。但是理想情况下，数据科学家应该将更多的时间花在与数据交互、高级分析、训练和评估模型以及部署到生产上。

今年re:Invent大会，亚马逊云科技推出了大量的数据新服务和新功能，帮助企业降低数据基础工作的难度，为更好的数据分析和机器学习训练铺平道路。

在数据集成整合方面，ETL 是一项基础的数据整合工作，耗时长且工程量巨大，一直是企业应用数据的痛点之一。ETL 是将业务系统的数据经过提取（Extract）、转换清洗（Transform）和加载（Load）到数据仓库、大数据平台的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

近年来，亚马逊云科技在“Zero ETL”理念下，开发了很多新服务，减少企业在不同服务间手动迁移或转换数据的工作。

比如，今年亚马逊云科技推出的Amazon Aurora zero-ETL to Amazon Redshift ，相当于将Amazon Zero ETL和Amazon Redshift的集成。这项新服务可以大大提高用户从不同的数据源摄取数据而交给Amazon Redshift去做处理的能力，提升ETL的效率。Amazon Aurora Zero ETL to Amazon Redshift（预览版）支持将交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制，使客户可以立即使用 Amazon Redshift开始分析数据，并且利用Amazon Redshift ML 等高级功能获得预测性洞察。

“无论企业和数据的规模有多大，复杂度有多高，通过为客户消除 ETL 和其它数据迁移任务，我们将助力客户专注于分析数据，面向业务获取新的洞察。” Swami博士表示。

在数据质量监控方面，企业需要监控其数据湖和数据管道中信息的数据质量，比如衡量数据的时效性、准确性和完整性等，确保将高质量的数据用于分析或机器学习应用。亚马逊云科技新推出的Amazon Glue Data Quality，可以自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量，将数据分析和规则识别的时间从几天缩短到几小时。

在复杂数据处理方面，亚马逊云科技提供了多种服务，比如EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift、Amazon Athena等，用户可以方便地通过这些工具使用Spark引擎。通过内置的优化，用户在亚马逊云科技上运行Spark，比运行原生的Apche Spark性能要提升三倍。新发布的Amazon Athena for Apache Spark可以在一秒钟之内，在Apache Spark运行一个交互式的数据分析服务，而用户无需准备任何基础架构。

将机器学习广泛应用于数据服务

在亚马逊云科技的“端到端数据战略”中，机器学习和商业智能（BI）是数据分析的重要手段。

在机器学习领域，端到端机器学习服务Amazon SageMaker推出五年来已经增加了260项新功能，不断降低机器学习的技术门槛，简化机器学习的前期工作。今年re:Invent大会，Amazon SageMaker发布八项新功能，其中对数据服务的扩展是重要内容之一。

Amazon SageMaker Studio Notebook发布了全新数据准备功能，可以让客户直观地通过几次点击检查和解决数据质量问题。这项功能会自动生成图表帮助用户识别数据质量问题，提供数据转换建议，帮助解决常见问题。

今年，Amazon SageMaker还新增了对 Geospatial ML的支持，即对地理空间数据的支持，能够为气候科学、城市规划、灾难响应、零售规划、精准农业等行业加速开发机器学习模型。

过去，地理空间数据很难被及时用于机器学习预测。这是因为地理空间数据规模庞大，专业人员需要先合并、准备数据，并编写代码将数据集划分为可管理的子集，整个过程可能需要几个月的时间。

Amazon SageMaker将数据准备和训练地理空间模型的时间从数月缩短到数小时，从而加速地理空间机器学习预测的生成。借助这项功能，土壤数据测量和制图公司EarthOptics已经为美国多地的农场和牧场部署了用于土壤固碳的地理空间解决方案。

Swami 博士表示：“长期以来，我们一直致力于使 SageMaker 成为一个能够容纳多种数据类型的平台，而您在地理空间中看到的绝对是正确的方向。”

在商业智能领域，云上无服务器BI服务Amazon Quicksight也推出了多项新功能。此次，Amazon QuickSight Q 新功能支持客户用自然语言追问预测依据，即针对QuickSight Q的预测结果问“为什么”，快速了解影响预测结果的主要因素。

例如，销售可以直接问Amazon QuickSight Q，“今年的销售预测中，哪一类商品销量最大？”，当Amazon QuickSight Q给出预测结果后，销售人员还可以追问，“为什么今年这类商品的销量大幅增加？”

Amazon QuickSight Q使得客户不用掌握数据分析技术，仅仅通过自然语言就可以实现业务洞察，大大降低了BI服务的使用门槛。

如果将数据比作广袤的宇宙，那么数据和机器学习服务就是企业探索太空的宇宙飞船。通过re:Invent 2022的众多技术创新，我们能够看到未来技术演进的方向之一就是数智融合。云计算技术的诸多创新，都指向一个目的：降低数据和机器学习应用的门槛，让更多企业可以从浩瀚的数据中获取价值。

END

本文为「智能进化论」原创作品。

关键词：如何解决

从re:Invent 2022看云计算趋势，数智融合如何解决数据挑战？

什么是端到端数据战略

创新数据服务为机器学习铺平道路

将机器学习广泛应用于数据服务