本文介绍云原生数据湖分析DLA的产品功能动态。
2021年6月
类别 | 功能点 | 描述 | 相关文档 |
---|---|---|---|
集群管理 | 监控报警 | Spark集群支持监控报警。 | 查看Spark监控 |
数据湖管理 | 从库读取 | Lakehouse支持RDS、PolarDB MySQL从库读取。 | 无 |
性能提升 | Lakehouse支持DB全量时表级并发拉取,性能提升2.5倍。 | 无 | |
解决时序问题 | Lakehouse解决DTS同秒多并发写入的时序问题。 | 无 | |
DLA Spark | 读取DLA Meta跨账号表 | 支持SparkSQL读取DLA Meta跨账号表。 | 无 |
默认开启OSS优化 | OSS优化默认开启,解决OSS深度拷贝的性能问题。 | 无 | |
配置Executor最大失败次数 | 支持配置Spark Executor最大失败次数,默认是Executor数量的2倍。 | 无 | |
作业重试 | Spark作业支持自动重试,修复因平台框架抖动引起的稳定性问题。 | 作业配置指南 | |
监控报警 | Spark作业支持监控报警。 | 查看Spark监控 | |
DLA Presto | 建表时不指定路径 | 支持建表的时候不指定表路径(不写Location)。 | 无 |
分区投影表性能提升 | 分区投影表LIST OSS目录性能提升。 | 无 | |
修复Meta问题 | 修复Meta中对于建表报错不明确的问题。 | 无 | |
修复分区投影表问题 | 修复分区投影表insert overwrite 之后查不到数据的问题。
|
无 | |
算子下推 | 支持Filter、Aggregation、Limit等算子下推到OTS。 | Tablestore计算下推 | |
参数控制 | 支持用户对task_writer_count 、task_concurrency 参数进行控制。
|
无 | |
改进读取方式 | 改进ADB3.0数据读取方式为流式,之前非流式会导致内存占用过高。 | 无 |
1.0.0
类别 | 功能点 | 描述 |
---|---|---|
数据分析 | OSS文件数据分析 | 支持针对单个OSS文件数据进行分析,或者多个OSS Bucket文件进行关联分析。 |
分析结果写入OSS | 支持将分析后的结果数据回流至OSS。 | |
Table Store数据分析 | 支持Table Store数据分析。 | |
RDS数据分析 | 支持RDS数据分析。 | |
跨数据源分析 | 支持OSS、Table Store、RDS跨数据源分析。 |
1.1.0
类别 | 功能点 | 描述 |
---|---|---|
核心功能 | PolarDB数据源 | 支持阿里云PolarDB数据源。 |
Redis Connector | 支持Redis Connector。 | |
读取MongoDB的数据 | 支持读取MongoDB的数据。 | |
逻辑View | 支持逻辑View。 | |
MySQL8.0协议 | 支持MySQL8.0协议。 | |
建表向导支持OSS | DDL建表向导支持OSS。 | |
Public Datasets | 支持Public Datasets。 | |
其他功能 | json_extract函数 | 支持针对MongoDB数据源的json_extract函数。 |
IP地址解析函数 | 新函数,IP地址解析函数,能够把IP地址翻译为对应的国家、省市。 | |
PreparedStatement | 支持PreparedStatement。 | |
OSS API调用次数 | 减少对OSS API的调用次数。 | |
Partition数量限制 | 一次性写入的Partition的数量限制。 | |
表和字段格式 | 支持表和字段以数字开头。 | |
Alter Partition | 支持Alter Partition的功能。 | |
Logstash | 支持Logstash。 |
1.2.0
类别 | 功能点 | 描述 |
---|---|---|
易用性 | 控制台重构优化 | 新版本云控制台对产品概览、账号管理、服务访问点管理进行了重构优化。 |
增加版本发布弹窗 | 增加release note弹窗,每次版本更新一览无余。 | |
重构账号管理流程 | 重构的账号管理流程,允许更便捷地管理账号密码,子账号备注等。 | |
新版SQL交互页面 | 开发了新版SQL交互页面,让用户快速进行数据湖探索,缩短交互路径。 | |
Schema向导功能 | 用户Schema向导功能,以及建表向导的研发与优化,极大的提升了数据湖构建和数据探索发现的效率。 | |
界面化库表操作 | 支持界面化的删除表,删除库功能操作。 | |
补齐分区写入功能 | 补齐了INSERT OVERWRITE SELECT 的ETL、目标分区写入功能,简化了用户ETL数据清洗处理的步骤。
|
|
深度集成的生态 | 接入融合分析和数据回流能力 | 目前支持如下数据源的接入融合分析和数据回流能力,包括对象存储OSS上7种以上结构化、半结构化、以及多种压缩格式的数据文件,表格存储,AnalyticDB,云数据库版或自建数据库(MySQL、PostgreSQL、SQL Server),云数据库版或自建Redis,云数据库版或自建MongoDB,PolarDB等。 |
接入DataWorks任务调度 | 接入DataWorks任务调度,使得用户能够可视化轻松定制数据湖分析的数据处理流程,实现云上大数据WorkFlow。 | |
接入函数计算 | 接入函数计算,使得用户能够基于这两款Serverless化云产品,构建云原生Serverless工作流。 | |
接入MNS和ONS消息系统 | 接入MNS和ONS消息系统,能够极大提升数据湖数据处理扭转和业务集成的便利性。 |