三月上旬新内容速递丨选图攻略、内存优化与场景深化

春风送暖,学习相伴!三月上旬更新聚焦数据可视化选图、内存管理技巧、频率分析与桑基图应用,助你轻松驾驭数据分析新场景!

一、场景应用精选

【数析课堂】频率分析:用“数数”快速定位业务痛点》→通过频率统计,快速发现高频问题,精准定位业务改进点。
【桑基图】流动的“资金河流”,一眼看透业务流向》→学习桑基图绘制,追踪资金流动路径,洞察业务流转全貌。

二、技术经验分享

不止选类型,更要找对入口:数据分析选图全攻略》→深入讲解图表选择的核心逻辑,助你告别“图表选择困难症”。
内存溢出别慌张:教你如何看懂BI的“胃”,并管住它的“嘴”》→揭秘BI内存机制,掌握优化技巧,让分析更流畅。

四、社区日志更新

2026年「月更日志」社区更新合集 2.1 - 2.28》→汇总二月社区更新动态,记录成长每一步。

六、任务持续上线

【BI知识闯关】不止选类型,更要找对入口:数据分析选图全攻略》→通过闯关巩固选图知识,提升实战应用能力。
【数析课堂】频率分析知识巩固》→配套练习,加深频率分析理解,强化业务洞察。
【图表应用】桑基图追踪资金流向,发现业务奥秘》→动手实践桑基图,探索资金流向中的业务规律。
【BI知识闯关】内存溢出别慌张:教你如何看懂BI的“胃”,并管住它的“嘴”》→挑战内存管理知识,成为BI优化高手。


阳春三月,学习正当时,快来社区参与挑战,一起探索数据新视界!

麦粉社区
>
帖子详情

[热点新闻] 印度疫情被低估?数据不说假话,手把手教你做疫情数据...

智分析 发表于 2021-9-27 16:36
发表于 2021-9-27 16:36:39
  5月5日当天,印度新增新冠确诊病例41万,又刷新了单日确诊的新记录。自4月份以来,印度的疫情持续蔓延,从4月初的单日确诊2万多人,到现在已经突破了单日40万人,印度医疗系统已经濒临崩溃,医院病床、医护人员、呼吸机、氧气和药品已经严重匮乏,供不应求。就连火葬场也是不堪重负,很多公园、停车场、广场都被改造成露天焚烧场,遍地的尸体等着焚烧。一时间,印度已俨然成为了众人眼中的人间炼狱。

1.png

  相信有不少人对印度的疫情也是非常关心的,为此我对印度疫情的数据进行了整理和分析,希望从数据分析的角度来观察印度的疫情,并把分析的过程分享给大家。下面开始教大家如何去对疫情数据进行分析。

一、数据源
  做数据分析第一步,必不可少的当然是要有一份数据源。关于疫情的的数据源大家可以在github.com这个网站上找到,这个网站上有很多开源的数据源,都可以免费下载。在以下这个界面里可以找到关于新冠疫情的数据源,我们找到全球每日新冠确诊的这一份数据源下载即可:

2.png

  数据源下载后,是一份CSV文件,由于都是英文,我们看起来会有点不方便,但是也不会太难,第一列是省份,第二列是国家名,第三、第四列是经纬度,后面剩下的就是日期。由于这份数据源是包括全球各个国家的数据,而且表格样式不是标准的数据源样式,所以我们要对数据源进行进一步的加工:

3.png

二、数据清洗
  做数据清洗我们常用的工具有EXCELETL或者编程软件,这里我推荐大家用ETL工具,因为ETL比较傻瓜式,而且功能十分强大,对于没有编程基础的同学非常适合。我这里选用的是智分析的ETL工具,是为数不多的ETL处理神器:

4.png

  第一步:在ETL界面里找到EXCEL文件的组件,把组件拖拽到界面中:

5.png

  在右边的上传文件界面里上传你的本地EXCEL文件,上传成功后选择“执行到此处”:

6.png

  执行完程序后,对输出后的数据进行预览:

7.png

  第二步:由于本地数据源包含了两个SHEET,我们可以利用“读取EXCEL SHEET”这个组件进行筛选:

8.png

  第三步:数据源包含了世界上所有国家的数据,我们要先对国家的名字进行过滤,对行数据选择印度即可。我们把“行选择”这个组件拖拽进去,并与上面的组件进行相连:

9.png

  执行后效果如下,印度这一行的数据被成功提取出来了:

10.png

第四步:数据源中省份以及经纬度这两列数据我们是不需要的,我们可以通过“列选择”这个组件把这几列给过滤掉:


11.png

  执行后效果如下,把省份以及经纬度的列字段给过滤掉了:

12.png

  第五步:由于日期分布在列字段里,我们需要对列字段进行逆透视的操作,把“列转行”的组件拖拽进去:

13.png

  执行后效果如下:

14.png

  第六步:因为确诊值这列的值是实时累计的数据,并非是新增的值,所以这里我们要新增一个派生列,取每一天的环比值:

15.png

  派生列里输入函数语句,便可以得到以下的结果,新增了一列“环比昨天”的字段,也就是每天新增的值:

16.png

  完成了数据清洗的工作后,把最终输出的结果保存在智分析的数据库中即可。

三、数据可视化
  如要要对清洗后的数据源完成可视化的操作,需要用到仪表盘的功能,但是不能够直接在仪表盘里读取数据源,还需要进行数据集的加工。点击数据准备里的自助数据集,读取您的数据源文件,可对数据的字段属性进行修改或者调整,如无需调整直接保存为数据集文件即可:

17.png

  打开分析展现里的自助仪表盘,读取刚刚保存好的数据集文件,把数据集中的字段拖拽到行、列里,再对配图进行设置,便可以制作出一个还不错的图形。例如下面,我把日期的字段拉拽到列区,行区是环比昨天(新增)的数据,搭配的图形是趋势图,通过鼠标的拉拽,便可以快速在仪表盘里得到分析结果:

18.png

  以上便是疫情数据的一个简单的分析过程,当然分析维度还有很多,因篇幅有限这里就不多做介绍,有兴趣的同学可以根据以上的步骤去对疫情数据进行提取、清洗和可视化的操作,相信对你的数据工具的学习会有很大的提升。

高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

0回帖数 0关注人数 6139浏览人数
最后回复于:2021-9-27 16:36

社区

指南

AI

搜索

快速回复 返回顶部 返回列表