印度疫情被低估？数据不说假话，手把手教你做疫情数据...

麦粉217286 · 发表于 2021-9-27 16:36:39

　　5月5日当天，印度新增新冠确诊病例41万，又刷新了单日确诊的新记录。自4月份以来，印度的疫情持续蔓延，从4月初的单日确诊2万多人，到现在已经突破了单日40万人，印度医疗系统已经濒临崩溃，医院病床、医护人员、呼吸机、氧气和药品已经严重匮乏，供不应求。就连火葬场也是不堪重负，很多公园、停车场、广场都被改造成露天焚烧场，遍地的尸体等着焚烧。一时间，印度已俨然成为了众人眼中的人间炼狱。

　　相信有不少人对印度的疫情也是非常关心的，为此我对印度疫情的数据进行了整理和分析，希望从数据分析的角度来观察印度的疫情，并把分析的过程分享给大家。下面开始教大家如何去对疫情数据进行分析。

一、数据源

　　做数据分析第一步，必不可少的当然是要有一份数据源。关于疫情的的数据源大家可以在github.com这个网站上找到，这个网站上有很多开源的数据源，都可以免费下载。在以下这个界面里可以找到关于新冠疫情的数据源，我们找到全球每日新冠确诊的这一份数据源下载即可：

　　数据源下载后，是一份CSV文件，由于都是英文，我们看起来会有点不方便，但是也不会太难，第一列是省份，第二列是国家名，第三、第四列是经纬度，后面剩下的就是日期。由于这份数据源是包括全球各个国家的数据，而且表格样式不是标准的数据源样式，所以我们要对数据源进行进一步的加工：

二、数据清洗

　　做数据清洗我们常用的工具有EXCEL、ETL或者编程软件，这里我推荐大家用ETL工具，因为ETL比较傻瓜式，而且功能十分强大，对于没有编程基础的同学非常适合。我这里选用的是智分析的ETL工具，是为数不多的ETL处理神器：

　　第一步：在ETL界面里找到EXCEL文件的组件，把组件拖拽到界面中：

　　在右边的上传文件界面里上传你的本地EXCEL文件，上传成功后选择“执行到此处”：

　　执行完程序后，对输出后的数据进行预览：

　　第二步：由于本地数据源包含了两个SHEET，我们可以利用“读取EXCEL SHEET”这个组件进行筛选：

　　第三步：数据源包含了世界上所有国家的数据，我们要先对国家的名字进行过滤，对行数据选择印度即可。我们把“行选择”这个组件拖拽进去，并与上面的组件进行相连：

　　执行后效果如下，印度这一行的数据被成功提取出来了：

第四步：数据源中省份以及经纬度这两列数据我们是不需要的，我们可以通过“列选择”这个组件把这几列给过滤掉：

　　执行后效果如下，把省份以及经纬度的列字段给过滤掉了：

　　第五步：由于日期分布在列字段里，我们需要对列字段进行逆透视的操作，把“列转行”的组件拖拽进去：

　　执行后效果如下:

　　第六步：因为确诊值这列的值是实时累计的数据，并非是新增的值，所以这里我们要新增一个派生列，取每一天的环比值：

　　派生列里输入函数语句，便可以得到以下的结果，新增了一列“环比昨天”的字段，也就是每天新增的值：

　　完成了数据清洗的工作后，把最终输出的结果保存在智分析的数据库中即可。

三、数据可视化

　　如要要对清洗后的数据源完成可视化的操作，需要用到仪表盘的功能，但是不能够直接在仪表盘里读取数据源，还需要进行数据集的加工。点击数据准备里的自助数据集，读取您的数据源文件，可对数据的字段属性进行修改或者调整，如无需调整直接保存为数据集文件即可：

　　打开分析展现里的自助仪表盘，读取刚刚保存好的数据集文件，把数据集中的字段拖拽到行、列里，再对配图进行设置，便可以制作出一个还不错的图形。例如下面，我把日期的字段拉拽到列区，行区是环比昨天（新增）的数据，搭配的图形是趋势图，通过鼠标的拉拽，便可以快速在仪表盘里得到分析结果：

　　以上便是疫情数据的一个简单的分析过程，当然分析维度还有很多，因篇幅有限这里就不多做介绍，有兴趣的同学可以根据以上的步骤去对疫情数据进行提取、清洗和可视化的操作，相信对你的数据工具的学习会有很大的提升。

0回帖数	0关注人数	4340浏览人数
最后回复于：2021-9-27 16:36

头像	昵称	操作
	小麦数据猿	邀请TA
	脑袋空空	邀请TA
	大傻boy	邀请TA
	赵亮	邀请TA
	红茶可乐	邀请TA
	努力挣麦豆	邀请TA

[热点新闻] 印度疫情被低估？数据不说假话，手把手教你做疫情数据...