不知道你平时有没有留意过,最近这几年,无论是朋友圈还是各大网站上,到处都是铺天盖地的PYTHON、数据分析的广告,扬言只需要学一个星期,就可以让你月薪过万。作为一个在数据分析领域里超过5年的老鸟告诉你,这种广告是非常不切实际的,如果你是一个从未接触过数据分析的人,要在短期内掌握这些知识的难度比你想象中的难多了,虽然现在数据分析是一个非常热门的行业,工资也非常高,但是很多岗位也只是处于有价无市的状态,毕竟专业的数据分析师不仅要会使用大数据处理工具,也需要有具体很强的业务能力。
我最近有一个刚毕业的朋友去面试一家五百强公司的数据岗,人家现场问他怎么快速处理百万行级甚至是千万行级别的数据,他听完一下子就懵了,对于只会用简单EXCEL的他,根本没见过这么大的数据量,更不知道从何处下手了。做过数据行业的人都知道,处理这么大的数据量一定是要用到数据库的,用EXCEL根本是处理不了的,数据库的知识说简单也不简单,除了一大堆的语句要学之外,还得懂得数据库的存储。所以,要快速掌握数据库的知识也不是一件简单的事情。
现在稍微大一点的企业,每天的数据量都大的惊人,可能每天产生的数据量都超过百万行,就拿我所在的汽车行业来说吧,数据量都是按百万行以上的,如果用EXCEL去处理,绝对是会出现卡死的,因为EXCEL的处理能力非常有限,不要说百万行,十万行的数据也够呛。所以EXECL只能处理轻量级别的数据,如果真要处理百万行以上的数据,只能望洋兴叹了。不过现在始终是信息时代,总会有可以解决的技术,为此你必须掌握一门处理大数据的技术。
以我使用的智分析为例,在处理百万行级的EXCEL数据时,非常的简单和迅速,为什么会这么快呢?原因是我用了云端去处理。现在互联网都在提倡使用云储存和云处理,相信在不久的将来会逐渐替代一部分的本地的存储。简单来说,就是云端有一个数据库,你把本地的数据上传到了这个云端数据库后,只要有网络,你就可以随时在任何时间、任何地点去调用你的数据了。我记录了一下数据导入的时间,一分钟之内便完成了这份百万行数据的导入工作,整个过程只需要用到EXCEL就行,不需要用到其他的工具。如果用EXCEL打开,没个三、四分钟是打不开这么大的EXCEL数据的。我发现这样处理数据真的好快啊,都不用专门再去学习一门数据库的知识了。
解决数据量大的性能的问题后,就可以开始对数据进行分析了。我们大家都知道,透视图是EXCEL非常强大的一个功能,非常好用,但就是有时候数据量大的时候也很慢,数据量太大的话没办法完全进行透视,总之就是非常的不方便。而在云端上对100万行的数据进行透视时,速度完全不在一个级别上的,大概几秒钟就能够拉好一个透视表。
比如这里我想看以下每个车系、每个行业的销售数量情况,只要通过拉拽数据,便可以轻松得到你想要的数据,再把这些数据结果导出到EXCEL里便可以进行图表的制作了,完全不耗费你电脑的内存,又不必使用select语句去进行查询,一下子就解放了你的双手,让你可以有更多时间去关注数据和关注业务,数据分析无非就是用来指导业务的,如果花大量的时间在处理、筛选表格上,那将会是一件非常浪费的事情。
数据源处理了之后,剩下的工作就是做一份美观的表格了,关于EXCEL美化的教程,大家可以参考我以前发过的关于数据可视化的文章,这里就不再进行赘述。但是用EXCEL做数据可视化的能力还是有点欠缺,所以稍微厉害的人都开始用BI工具做数据可视化了,现在市场上也出现了很多数据可视化的工具,例如tableau、power bi等等,但是这些工具比较昂贵,入门也非常难,不太适合新手使用,另外就是用EXCEL做可视化的最大麻烦就是做各种调整,像字体、线条大小、颜色这些都要重新进行调整,要花费很多的时间。如果在智分析上去做数据可视化就不一样了,不需要调整这些复杂的东西,只需要拉拽数据到仪表盘就行了,数据还是动态的效果,非常绚丽。
数据可视化是一门非常高深的学问,涉及到工具使用、审美、和业务等诸多方面的能力,不仅要懂得使用合适图表去展示数据,更要挖掘出数据里隐含的意义。如果你能做出一份非常高逼格的报表,相信老板都会对你竖起大拇指,对你另眼相看。但是不会也没关系,你也可以参考一下其他人的作品,从中汲取一些思路,我个人觉得借鉴别人的做法也不失为一个好的方法。
说了这么多,数据分析要学的知识还是挺多的,如果仅是有技术没有业务经验是不行的,仅是有经验而没有技术也是不行的,两者一定要相辅相成。如果你要立志成为一名专业的数据分析师,不妨去学透一门工具,再运用到工作实践中,反正懂得处理大数据的知识是一定要具备的,因为大数据的时代已经来临了。
|