跳到主要内容

从 Stage 加载数据

Databend 允许您轻松导入从用户 Stage 或内部/外部 Stage 上传的文件数据。为此,您可以先使用 BendSQL 将文件上传至 Stage,然后使用 COPY INTO 命令从暂存文件加载数据。请注意,文件格式必须是 Databend 支持的格式,否则无法导入数据。有关 Databend 支持的文件格式的更多信息,请参阅 输入输出文件格式

image

以下教程提供了详细的分步指南,帮助您高效完成从 Stage 文件加载数据的过程。

开始之前

在开始之前,请确保已完成以下任务:

  • 下载示例文件 books.parquet 并保存到本地文件夹。该文件包含两条记录:
Transaction Processing,Jim Gray,1992
Readings in Database Systems,Michael Stonebraker,2004
  • 在 Databend 中使用以下 SQL 语句创建表:
USE default;
CREATE TABLE books
(
title VARCHAR,
author VARCHAR,
date VARCHAR
);

教程 1:从用户 Stage 加载

本教程将指导您将示例文件上传至用户 Stage,并从暂存文件加载数据到 Datab###### 步骤 1:上传示例文件

  1. 使用 BendSQL 上传示例文件:
root@localhost:8000/default> PUT fs:///Users/eric/Documents/books.parquet @~

┌───────────────────────────────────────────────┐
filestatus
│ String │ String │
├─────────────────────────────────────┼─────────┤
/Users/eric/Documents/books.parquet │ SUCCESS │
└───────────────────────────────────────────────┘
  1. 验证暂存文件:
LIST @~;

name |size|md5 |last_modified |creator|
-------------+----+----------------------------------+-----------------------------+-------+
books.parquet| 998|"88432bf90aadb79073682988b39d461c"|2023-06-27 16:03:51.000 +0000| |

步骤 2:将数据复制到表

  1. 使用 COPY INTO 命令将数据加载到目标表:
COPY INTO books FROM @~ files=('books.parquet') FILE_FORMAT = (TYPE = PARQUET);
  1. 验证加载的数据:
SELECT * FROM books;

---
title |author |date|
----------------------------+-------------------+----+
Transaction Processing |Jim Gray |1992|
Readings in Database Systems|Michael Stonebraker|2004|

教程 2:从内部 Stage 加载

本教程将指导您将示例文件上传至内部 Stage,并从暂存文件加载数据到 Databend。

步骤 1:创建内部 Stage

  1. 使用 CREATE STAGE 命令创建内部 Stage:
CREATE STAGE my_internal_stage;
  1. 验证创建的 Stage:
SHOW STAGES;

name |stage_type|number_of_files|creator |comment|
-----------------+----------+---------------+----------+-------+
my_internal_stage|Internal | 0|'root'@'%'| |

步骤 2:上传示例文件

  1. 使用 BendSQL 上传示例文件:
root@localhost:8000/default> CREATE STAGE my_internal_stage;

root@localhost:8000/default> PUT fs:///Users/eric/Documents/books.parquet @my_internal_stage

┌───────────────────────────────────────────────┐
filestatus
│ String │ String │
├─────────────────────────────────────┼─────────┤
/Users/eric/Documents/books.parquet │ SUCCESS │
└───────────────────────────────────────────────┘
  1. 验证暂存文件:
LIST @my_internal_stage;

name |size |md5 |last_modified |creator|
-----------------------------------+------+----------------------------------+-----------------------------+-------+
books.parquet | 998|"88432bf90aadb79073682988b39d461c"|2023-06-28 02:32:15.000 +0000| |

步骤 3:将数据复制到表

  1. 使用 COPY INTO 命令将数据加载到目标表:
COPY INTO books 
FROM @my_internal_stage
FILES = ('books.parquet')
FILE_FORMAT = (
TYPE = 'PARQUET'
);
  1. 验证加载的数据:
SELECT * FROM books;

---
title |author |date|
----------------------------+-------------------+----+
Transaction Processing |Jim Gray |1992|
Readings in Database Systems|Michael Stonebraker|2004|

教程 3:从外部 Stage 加载

本教程将指导您将示例文件上传至外部 Stage,并从暂存文件加载数据到 Databend。

步骤 1:创建外部 Stage

  1. 使用 CREATE STAGE 命令创建外部 Stage:
CREATE STAGE my_external_stage
URL = 's3://databend'
CONNECTION = (
ENDPOINT_URL = 'http://127.0.0.1:9000',
AWS_KEY_ID = 'ROOTUSER',
AWS_SECRET_KEY = 'CHANGEME123'
);
  1. 验证创建的 Stage:
SHOW STAGES;

name |stage_type|number_of_files|creator |comment|
-----------------+----------+---------------+------------------+-------+
my_external_stage|External | |'root'@'%'| |

步骤 2:上传示例文件

  1. 使用 BendSQL 上传示例文件:
root@localhost:8000/default> PUT fs:///Users/eric/Documents/books.parquet @my_external_stage

┌───────────────────────────────────────────────┐
filestatus
│ String │ String │
├─────────────────────────────────────┼─────────┤
/Users/eric/Documents/books.parquet │ SUCCESS │
└───────────────────────────────────────────────┘
  1. 验证暂存文件:
LIST @my_external_stage;

name |size|md5 |last_modified |creator|
-------------+----+----------------------------------+-----------------------------+-------+
books.parquet| 998|"88432bf90aadb79073682988b39d461c"|2023-06-28 04:13:15.178 +0000| |

步骤 3:将数据复制到表

  1. 使用 COPY INTO 命令将数据加载到目标表:
COPY INTO books
FROM @my_external_stage
FILES = ('books.parquet')
FILE_FORMAT = (
TYPE = 'PARQUET'
);
  1. 验证加载的数据:
SELECT * FROM books;

---
title |author |date|
----------------------------+-------------------+----+
Transaction Processing |Jim Gray |1992|
Readings in Database Systems|Michael Stonebraker|2004|