查询Stage中的ORC文件
语法
SELECT [<alias>.]<column> [, <column> ...] | [<alias>.]$<col_position> [, $<col_position> ...]
FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
[(
[<connection_parameters>],
[ PATTERN => '<regex_pattern>'],
[ FILE_FORMAT => 'ORC | <custom_format_name>'],
[ FILES => ( '<file_name>' [ , '<file_name>' ] [ , ... ] ) ]
)]
教程
在本教程中,我们将引导您完成下载Iris数据集(以ORC格式)、将其上传到Amazon S3存储桶、创建外部Stage,并直接从ORC文件查询数据的过程。
1
下载Iris数据集
从 https://github.com/tensorflow/io/raw/master/tests/test_orc/iris.orc 下载iris数据集,然后将其上传到您的Amazon S3存储桶。
iris数据集包含3个类别的50个实例,每个类别指的是一种鸢尾植物。它有4个属性:(1)萼片长度,(2)萼片宽度,(3)花瓣长度,(4)花瓣宽度,最后一列包含类别标签。
2
创建外部Stage
使用存储iris数据集文件的Amazon S3存储桶创建一个外部Stage。
CREATE STAGE orc_query_stage
URL = 's3://databend-doc'
CONNECTION = (
AWS_KEY_ID = '<your-key-id>',
AWS_SECRET_KEY = '<your-secret-key>'
);