Parquet

Parquet是Apache开源项目Hadoop支持的一种列存储文件格式,同一份数据以ORC格式和Parquet格式存储时,其数据扫描性能要优于普通文本CSV格式。本文介绍如何在DLA中为Parquet类型的文件创建表。

前提条件

请参见文档文件格式转换,准备Parquet格式的测试数据。

操作步骤

  1. 创建OSS Schema。

     CREATE SCHEMA dla_oss_db with DBPROPERTIES(
      catalog='oss',
      location 'oss://dlaossfile1/dla/'
      )
  2. 创建Parquet文件表。

    CREATE EXTERNAL TABLE customer_parqet_date (
     c_custkey int,
     c_name string,
     c_address string,
     c_nationkey int,
     c_phone string,
     c_acctbal double,
     c_mktsegment string,
     c_comment string
     )
     STORED AS PARQUET
     LOCATION 'oss://dlaossfile1/customer_parquet/'

    STORED AS PARQUET:指定文件格式为Parquet。

  3. 查看Parquet文件数据。

     SELECT * FROM customer_parqet_date
    结果parquet