加载半结构化数据
什么是半结构化数据?
半结构化数据是一种数据形式,它不像传统数据库那样遵循严格的结构,但仍然包含标签或标记来分隔语义元素并强制记录和字段的层次结构。
Databend 促进了半结构化数据的高效且用户友好的加载。它支持多种格式,如 Parquet、CSV、TSV 和 NDJSON。
此外,Databend 允许在加载过程中即时转换数据。从半结构化数据格式复制是最常见的将数据加载到 Databend 的方式,它非常高效且易于使用。
支持的格式
Databend 支持使用 COPY INTO
命令加载的几种半结构化数据格式:
-
Parquet:一种列式存储格式,非常适合优化数据存储和检索。它最适合复杂的数据结构,并提供高效的数据压缩和编码方案。
-
CSV(逗号分隔值):一种广泛用于数据交换的简单格式。CSV 文件易于读写,但可能不适合复杂的层次数据结构。
-
TSV(制表符分隔值):类似于 CSV,但使用制表符作为分隔符。它通常用于具有简单结构的数据,这些数据需要除逗号以外的分隔符。
-
NDJSON(换行符分隔的 JSON):这种格式表示 JSON 数据,每个 JSON 对象由换行符分隔。它特别适用于流式传输大型数据集和处理频繁变化的数据。NDJSON 通过将其分解为可管理的、按行分隔的块来促进大量数据的处理。
有关如何加载半结构化数据的详细说明,请查看以下主题: