COVID-19 数据仪表板
在本教程中,我们将加载、分析并创建一个名为“纽约时报 COVID-19 数据”的数据集的仪表板。该数据集包含美国每日更新的 COVID-19 病例、死亡人数及其他相关统计信息。它全面展示了疫情在全国、州和县级别的影响,提供了 2022 年各地区 COVID-19 情况的详细洞察。
字段 | 描述 |
---|---|
date | 报告的 COVID-19 累计数据的日期。 |
county | 数据条目对应的县名称。 |
state | 数据条目对应的状态名称。 |
fips | 与地点关联的 FIPS 代码。 |
cases | 确认的 COVID-19 病例累计数量。 |
deaths | 因 COVID-19 导致的死亡累计数量。 |
步骤 1:准备数据
“纽约时报 COVID-19 数据”是一个内置的示例数据集,您只需点击几下即可加载。目标表会自动创建,因此您无需提前创建它。
1
加载数据集
- 在 Databend Cloud 中,点击 概览 页面上的 加载数据 按钮。
- 在打开的页面上,选择 新建表 单选按钮,然后从 加载示例数据 下拉菜单中选择 Covid-19 Data from New York Times.CSV:
- 在下一页,选择一个数据库并为要创建的目标表设置一个名称。
- 点击 确认。Databend Cloud 开始创建目标表并加载数据集。此过程可能需要几秒钟。
2
处理 NULL 值
在进行分析工作之前,建议检查表中的 NULL 和重复值,因为它们可能会影响结果。
- 创建一个工作表,并使用以下 SQL 语句检查表中是否存在 NULL 值:
SELECT COUNT(*)
FROM covid_19_us_2022_3812
WHERE date IS NULL OR country IS NULL OR state IS NULL OR flip IS NULL OR cases IS NULL OR deaths IS NULL;
此 SQL 语句返回 41571
,表示包含至少一个 NULL 值的行数。
- 从表中删除包含至少一个 NULL 值的行:
DELETE FROM covid_19_us_2022_3812
WHERE date IS NULL OR country IS NULL OR state IS NULL OR flip IS NULL OR cases IS NULL OR deaths IS NULL;