数据集成

云数据库 SelectDB 版的数据集成是用于将外部数据导入实例数据库的可视化工具。本文介绍如何使用云数据库 SelectDB 版的数据集成。

前提条件

  • 已创建云数据库 SelectDB 版实例。具体操作,请参见创建实例

  • 实例版本大于等于3.0.7。

操作步骤

  1. 登录云数据库 SelectDB 控制台

  2. 在页面左上角,选择实例所在地域。

  3. 实例列表页面,单击目标实例ID,进入到实例详情页面。

  4. 单击页面右上角的数据开发与管理

    说明

    首次使用数据开发与管理,系统会提示将您本地公网IP添加到实例白名单分组webui_whitelist中,请仔细阅读,单击确定

  5. 单击下拉列表中的数据集成

    说明

    首次使用数据集成时,如果您还没有登录过WebUI系统,页面则会重定向到WebUI登录页面。

    • 您可以使用admin账号登录WebUI系统。

    • 如果您不知道或者忘记了admin账号的密码,可以进行密码重置操作。具体操作,请参见重置账号密码

  6. 集成页面,您可以进行以下操作。

    • 集成数据。

      对象存储(OSS)

      将鼠标放置在界面右上角的新建集成按钮,在悬浮框中单击对象存储,在新建集成-对象存储 OSS界面,填写以下参数,单击新建集成按钮。

      参数名称

      参数说明

      示例

      集成名称

      数据集成任务名称。

      test

      注释

      数据集成任务注释。

      test comment

      Bucket

      OSS Bucket名称。

      test_bucket_name

      访问授权

      访问OSS的授权方式。

      Access Key

      Access Key

      阿里云账号Access Key。

      akdemo

      Secret Key

      阿里云账号Secret Key。

      skdemo

      高级配置

      设置集成文件与导入文件时的默认属性。

      文件设置

      设置集成文件的属性。

      文件类型

      OSS上文件类型。

      参数值:JSON、ORC、CSV、Parquet和系统推荐。

      JSON

      压缩方式

      OSS上文件压缩方式。

      gz

      列分隔符

      OSS上文件中数据列分隔符。

      \t

      行分隔符

      OSS上文件中数据行分隔符。

      \n

      文件大小

      集成OSS上文件的大小约束。

      不限

      导入设置

      设置文件集成导入时的默认操作。

      遇到错误

      继续导入:遇到错误继续导入。

      终止导入:遇到错误终止导入。

      自定义:自定义遇到错误继续导入的策略。

      终止导入

      严格模式

      开启:过滤掉在列转换中错误的数据。这里的错误数据是指:

      • 原始数据并不为 null,而在进行列类型转换后结果为 null 的这一类数据,但不包括用函数计算得出的 null 值。

      • 对于导入的某列类型包含范围限制的,如果原始数据能正常通过类型转换,但无法通过范围限制的,严格模式对其也不产生影响。例如:如果类型是 decimal(1,0),原始数据为 10,则属于可以通过类型转换但不在列声明的范围内。针对这种数据,严格模式对其不产生影响。

      关闭:不会过滤掉在列转换中错误的数据。

      开启

      样例数据

      样例数据是数据分析数据库性能的基准测试数据,您可以通过以下步骤,进行新建样例数据

      1. 将鼠标放置在界面右上角的新建集成按钮,在悬浮框中选择样例数据

        样例数据名称

        样例数据说明

        ClickBench

        ClickBench数据集。

        TPC-H

        TPC-H数据集。

        Github Event

        Github Event数据集。

        SSB-FLAT

        SSB-FLAT数据集。

      2. 新建集成-样例数据页面,填写以下参数,单击新建集成并导入按钮。

        参数名称

        参数说明

        示例

        集成名称

        数据集成任务名称。

        test

        注释

        数据集成任务注释。

        test comment

        集群

        指定使用哪个集群执行数据集成任务。

        new_cluster

        样例数据大小

        选择样例数据大小。

        1GB等

    • 查询集成:在集成页面右上角的搜索框中填写目标集成名称,进行联动查询。

    • 删除集成:在集成页面的集成列表中,找到目标集成,单击image > 删除

      说明
      • 删除集成不会对已经导入的数据产生影响,但可能会对您正在导入的数据产生影响。

      • 删除的集成数据无法恢复。

相关API

ResetAccountPassword - 重置账号密码

DescribeSecurityIPList - 查询实例白名单IP

ModifySecurityIPList - 修改白名单

相关文档

新建实例

重置账号密码

设置白名单