为您查询到 篇文章
(2021年11月17日,北京)今日,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持Apache Hudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速。
Alluxio 2.7版本新增以下功能:
使用Alluxio和NVIDIA的DALI进行机器学习训练
NVIDIA的数据加载库(DALI)是一个常用的Python库,支持通过CPU和GPU进行数据加载和预处理从而加速深度学习。在2.7版本中,Alluxio平台进行了优化,可以与DALI一起部署用于加速基于Python的ML应用,其中包括模型训练和推理之前的数据加载和预处理步骤。通过加速I/O密集型工作并允许并行处理后续的计算密集型训练,Alluxio数据平台上的端到端训练与传统解决方案相比实现了显著的性能提升。对于海量小文件的训练,与其他解决方案相比,该解决方案可以实现横向扩展(scale-out)。
大规模数据加载
Alluxio的核心定位是数据管理能力,这些能力包括对分散的数据源进行统一和实现缓存。随着Alluxio越来越多地用于计算和存储跨多个地理位置的场景,Alluxio自身也在不断扩展。本次更新采用新技术对数据进行批处理,从而增强其可扩展性。批处理通过使用内置执行引擎处理数据加载等任务,减少了管理控制器对资源的需求,从而减少了系统配置的工作量,降低了成本。
Kubernetes上的易用性
Alluxio现在支持用于Kubernetes的原生容器存储接口(CSI)驱动,以及用于ML的Kubernetes operator,这使得在容器化环境中的 Alluxio平台上操作 ML工作流比以往任何时候都更加容易。 Alluxio的卷类型现在可用于 Kubernetes 环境。敏捷性和易用性是本次新版本关注的重点。
在Presto上基于分析动态调整缓存
新版本还推出了智能缓存新功能,名为Shadow Cache,能够动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的平衡。对于大规模的多租户Presto环境,此新功能通过自助管理显著降低了管理开销。
[展开]