You are currently viewing 如何可视化地理时间数据——欧洲水质分析

如何可视化地理时间数据——欧洲水质分析

调查结果

对 2020 年欧洲水质的分析令人印象深刻,对海岸线、湖泊和过渡水域的评估将大多数地点评为“优秀”。明星国家塞浦路斯取得了 100% 的评分,而只有两个国家的成绩不尽如人意。

关注波兰的表现,我们发现只有 22% 的抽样地点被评为“优秀”,而且 602 个数据点中有 401 个从未提交过测量结果。过滤掉这些记录后,情况发生了变化:66% 的提交结果被评为“优秀”,这与该国过去 10 年的结果一致。值得注意的是,波兰在 2011 年取得了显着进步,从仅 24% 跃升至 67%。所以波兰的结果可以归因于数据记录方法,而不是实际表现不佳。

 

另一方面,在过去 10 年中,英国与欧洲邻国的战绩显着不佳,而该国仅在 2013 年的表现就超过了 80%。

据《卫报》报道,“由于人们担心污水排放的规模以及进入水系统的农业和工业化学品的规模,所有英国河流都未能通过污染质量测试。” 此外,“水务公司在 2019 年向河流倾倒了 20,000 多次未经处理的污水,并将数千吨未经处理的污水倾倒在海滩上。”

与波兰类似,640 个注册测量地点中只有一部分在 2020 年报告了结果(183 个)。当仅考虑这些结果时,评分为 60%,这仍然使英国在联盟中垫底。

这就引出了另一个问题——英国这个拥有12429公里海岸线的岛国,为什么只有640个注册的水质测量站?而希腊海岸长 13,676 公里,意大利的海岸线长约 7,500 公里。意大利人正在测量超过 5.5 千个地点的水质,法国超过 3.2 万个,德国 2.2 万个,希腊有 1,634 个。

最令人鼓舞的发现是,所有国家(除了英国)随着时间的推移都显示出显着的进步,尤其是在后期加入欧盟的国家,如罗马尼亚(“优秀”评级的比例在13年内从 6% 增加到 70% )。欧盟成员国候选国阿尔巴尼亚也从 2013 年的 51% 提高到 2020 年的 76%。

英国在英国退欧后选择退出欧洲经济区成员资格,因此该数据集将是最后一个包含英国并在同类基础上与其他欧洲国家进行比较的数据集。

我们是如何做到的:数据可视化挑战

每个数据可视化都有两个阶段:首先,分析师需要探索数据——排序、比较、隔离和识别关系或趋势。第二个任务是将调查结果有效地传达给听众。在第一个“探索”和探索阶段使用的图表和工具不一定是用于讲故事演示的相同可视化。

本报告中的一个挑战是在地理层面上对 2020 年的结果进行比较,然后提供有关一段时间内发展的观点,并解释这些国家是如何做到这一点的。好(坏)的结果是异常值还是符合长期趋势?

从宏观层面,我们可以放大每个单独的性能,并一直深入到每个测量位置的结果。在两个选项卡中,我们正在从大陆聚合向下移动到您当地的海滩、河流、湖泊。我们正在进行时空之旅。

在第一个选项卡上,带有 shapefile 的地图汇总了国家(地区)的最新结果,并立即识别出两个“违规者”——一个由两个条形图补充的视图:第一个排序百分比分数,另一个添加关于每个国家的测量地点数量。

在包含 30 个国家和 30 年数据的数据集中,创建基准效应并突出显示一个感兴趣的国家,同时将其他国家保持在灰色框架中是有用的——请参见由Country Choice变量驱动的分层线视图(在报告数据源中配置)。

在“国家(地区)”选项卡上,查看者可以一次跟踪一个国家(地区)的进展(过滤器选择限制为 1),并探索测量地点的空间分布,以及随着时间的推移在聚合级别和单个位置级别上的表现。

两个选项卡上的数据标题都是动态的,通过使用带有集成公式的内容视图创建,响应过滤;交互式热图是一个删除了单元格值的数据透视图。

在这份报告中,没有一个数据点被浪费——好奇的观众将能够在他们将脚趾浸入他们选择的河流、湖泊或海洋之前检查水质。

伦敦人将不得不对蛇形湖的结果感到满意(2020 年被评为“差”),并希望泰晤士河水能尽快被评为优秀!


数据转换和准备挑战

数据集来自欧洲环境署:每条记录代表一个测量位置,而每年的结果都被添加为一个新列。这是一个直接的反透视练习,我们从 43 个字段 x 22,276 条记录变为 14 个字段 x 690K 记录!

另一个挑战是处理 3 个位置管理状态字段(Management2018、Management2019、Management2020),这些字段仅在过去 3 年内适用和填充。将它们与数据集的其余部分一起去中心化不是一种好的选择。因此,这些字段被隔离,自行去中心化,然后与主数据集合并,因此它们仅加入相关记录(合并位置 ID 和年份字段)。

数据转换取决于可视化要求——一旦完成基础(字段格式化、清理、分类、验证)要求将来自可视化。数据方向是否适合图表,分析所需的数据粒度是多少?数据集中的所有字段都相关吗?Omniscope 最酷的地方在于 ETL(转换)和可视化组件齐头并进。可视化可以首先出现并用于数据诊断目的,以决定行动过程,然后在最后再次用于数据呈现. 分析人员可以无缝地来回切换,在两种模式之间切换,并对基础数据进行更改,即使在可视化工作的中间,也可以快速缩短标签、更改数据字段格式或添加新计算。


发表回复