Parquet是Apache开源项目Hadoop支持的一种列存储文件格式,同一份数据以ORC格式和Parquet格式存储时,其数据扫描性能要优于普通文本CSV格式。本文介绍如何在DLA中为Parquet类型的文件创建表。
前提条件
请参见文档文件格式转换,准备Parquet格式的测试数据。
操作步骤
创建OSS Schema。
CREATE SCHEMA dla_oss_db with DBPROPERTIES( catalog='oss', location 'oss://dlaossfile1/dla/' )
创建Parquet文件表。
CREATE EXTERNAL TABLE customer_parqet_date ( c_custkey int, c_name string, c_address string, c_nationkey int, c_phone string, c_acctbal double, c_mktsegment string, c_comment string ) STORED AS PARQUET LOCATION 'oss://dlaossfile1/customer_parquet/'
STORED AS PARQUET
:指定文件格式为Parquet。查看Parquet文件数据。
SELECT * FROM customer_parqet_date
文档内容是否对您有帮助?