【微软数据管理】关注疫情数据,用Excel竟然只需这三步!
以下内容转载至数据化管理WeChat公众号(有少量删改)
原文连接:https://mp.weixin.qq.com/s/Uf4CDizLAbAmCiDB360huQ
大家好,近期有收到一些朋友留言,表示自己是做数据分析的工作,也想自己关注所在地区的疫情数据,问我怎么能方便地获取疫情的数据,本文就给大家介绍一下用Excel获取疫情数据的简单技能。
先搞清楚疫情数据的来源在哪里?
关注疫情的数据,官方的公布渠道就是通过国家卫健委、各省市区卫健委公布的信息,所以我们首先应该是考虑能不能从卫健委的网站获取数据?
例如下图是国家卫健委官网(http://www.nhc.gov.cn/)发布的页面:
如果你要用工具获取以上页面中的数据,就是需要抓取到上面的这串文本,然后通过文本关键字分析,提取出其中的关键数据出来,再整理成结构化数据,才能用于数据的分析。同理,如果你要获取某个省的疫情数据,也可以通过省级卫健委官网公布的数据,去提取整理。例如以下就是江西省卫健委公布的情况信息:
对于大多数人来说,这样去整理数据确实费时费力,技能也不一定跟得上,但是要自己获取这些数据的话,首先我们确实是这样考虑的,毕竟卫健委的是一手数据,质量也能保障。但是由于技术难度相对较大,所以这种方法本文就不介绍了。
如果暂时没有条件直接获取到官方数据的话,我们还可以获取别人整理好的数据,例如腾讯、阿里、新浪、丁香园、网易、百度等等,他们都有对应的疫情数据页面,而且是国家,省,市级的数据都已经整理好了,所以我们可以想办法从他们的页面中获取你要的数据。
以下就开始,给大家介绍简单的数据获取方法:
我们打开腾讯新闻的界面(https://news.qq.com/zt2020/page/feiyan.htm),里面是有全国的数据,有分省的数据,有市级的数据等,非常详细。(可以看到它们的数据来源,也是写着来源于卫健委发布的信息)
网页地址找到了,接下来就是用什么工具来获取?
工具其实是灵活的,看你熟悉使用哪个,Python可以,VBA也可以,或者其他编程语言都行。但我们今天用的工具,非常简单,直接用Excel的Power Query功能来实现(Excel 2016以上默认是内置此功能的),以下介绍操作的步骤:
Step1:找到数据的真正地址。刚才我们只是拿到了页面的地址,但这个地址中并没有包含我们要的数据。怎么找?
这就需要你具备一定的网站数据传输知识了,有兴趣的朋友可以百度“Chrome抓包分析”去了解更多。我在这里就直接提供我获取到的2个地址给大家参考使用:
省数据:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北
市数据:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北&city=武汉
Step2:用PQ来获取数据。如果你看不到以下界面,证明你没有PQ的功能。(没有这个功能也不用担心,文末提供了直接下载数据的方法)
PoweQuery下载连接:https://www.microsoft.com/zh-cn/download/details.aspx?id=39379
按下确定后,就可以进入以下界面了,事情就变得简单了,直接通过手工操作即可转换好数据。
关于PQ的具体操作,可参考下述连接:
Step3:最后一步就是“关闭并上载”到新工作表即可。