ORC

ORC(Optimized Row Columnar)是Apache开源项目Hive支持的一种经过优化的列存储文件格式,与CSV文件相比,ORC文件不仅节省存储空间,而且数据查询性能更高。本文介绍如何在DLA中为ORC类型的文件创建表。

前提条件

请参见文档文件格式转换,准备测试数据。

操作步骤

  1. 创建OSS Schema。

     CREATE SCHEMA dla_oss_db with DBPROPERTIES(
      catalog='oss',
      location 'oss://dlaossfile1/dla/'
      )
  2. 创建ORC文件表。

     CREATE EXTERNAL TABLE orders_orc_date (
         O_ORDERKEY INT, 
         O_CUSTKEY INT, 
         O_ORDERSTATUS STRING, 
         O_TOTALPRICE DOUBLE, 
         O_ORDERDATE DATE, 
         O_ORDERPRIORITY STRING, 
         O_CLERK STRING, 
         O_SHIPPRIORITY INT, 
         O_COMMENT STRING
     ) 
     STORED AS ORC 
     LOCATION 'oss://dlaossfile1/orders_orc/'

    STORED AS ORC:指定文件格式为ORC。

  3. 查看ORC文件数据。

     SELECT * FROM orders_orc_date
    orc