本文介绍如何通过向导创建SLS的OSS投递数据源发现任务,自动发现您当前区域下所有的Logstore投递到OSS的日志数据(包括新增的投递到OSS的日志数据,以及增量的分区及数据),并自动创建DLA库表映射到投递的OSS日志数据上。
业务场景
企业会把服务日志、行为日志等数据存储在日志服务SLS中,当数据量较大时,可以通过投递的方式把全量数据归档到OSS。以前这些数据不可进行分析计算,使用DLA的元信息发现功能,能够一键构建数据湖的元数据,接入DLA的统一数据分析平台。使用DLA的Serverless
Spark及Presto引擎能够计算和分析DLA元数据管理的全域数据,可以支持ETL后数据交付、低频全量日志数据分析、日志数据关联DB数据分析等业务场景。
操作步骤
- 登录Data Lake Analytics管理控制台。
- 在左侧导航栏,单击。
- 在元信息发现页面的SLS的OSS投递数据源区域,单击进入向导。
- 在SLS的OSS投递数据源页签,根据页面提示进行参数配置,配置说明如下:
参数 |
说明 |
数据源配置 |
您可以通过以下两种方式选择数据源:
- 自动发现:您无需做任何配置,自动发现所有Project的OSS投递,当有新的OSS投递设置时,在下一次执行时可以自动发现。
- 手动选择:当选择该方式时,您需要手动选择logstore。
|
调度频率 |
您可以根据需要设置调度SLS的OSS投递数据源发现任务的周期。 |
具体时间 |
设置SLS的OSS投递数据源发现调度任务的执行时间。 |
schema前缀 |
设置Schema的前缀,即映射到DLA中的数据库名称的前缀。Schema的名称规则为“前缀__Logstore投递的Bucket名称”。 |
配置选项 |
高级自定义设置项,如文件字段变更规则。 |
- 完成上述参数配置后,单击创建,开始创建SLS的OSS投递数据源发现任务。
- SLS的OSS投递数据源发现任务创建成功后,单击立即发现开始运行自动发现SLS的OSS投递数据源任务。
您也可以在
任务列表中看到创建成功的任务信息。SLS的OSS投递数据源发现任务将根据您设置的
调度频率,需要您手动执行或者定期自动调度该任务。
SLS的OSS投递数据源发现任务执行成功后,单击
schema名称/前缀列下面的数据库名称链接(如单击
muyuantestonline),跳转到页面。您可以看到DLA自动发现创建成功的库、表、列信息。
- 在页面编写SQL语句,单击同步执行或者异步执行,执行SQL语句。
例如在
muyuantestonline__dla_crawler_hangzhou下执行
select * from `muyuantestonline__dla_crawler_hangzhou`.`sls_crawler_test__csv_full_types`
limit 20;