【资源分享】零基础入门大数据(数据分析)经验分享

声明:

开头还是要先申明一下的,博主纯粹是爱好,在业余时间学习相关的知识。希望能给博主一样情况的入门同学提供一个比较短的学习路径,提高学习效率。博主看过很多个学习的视频和数据,发现很多内容都是重复的,有些内容需要重点学,有些可以带过。所以,在下文会推荐一些自己认为比较好的学习资源。

 

1.R还是Python:

目前,数据分析很多都是用R或Python。博主2个都学了,发现刚开始学习时,还是用R比较好。虽然,R和别的语言相比,速度真的会很慢,但是,R的统计函数,各种R包真的很完善,语法也很简洁,易学易操作。所以,对于像博主这种业余的,还是推荐用R进行大数据学习的入门。

 

2.在学习前,一定要首先需要了解一下R StudioR Markdown

看了很多视频,发现很多大牛,老师讲课时,几乎只用R就能搞定一切工作和讲课。但是,作为初学者,我还是建议同时下个R Studio(界面舒适,操作方便)。还有就是R Markdown。一定一定要用R Markdown来做日常学习的摘记,真的非常非常好用。先花一点时间学习R studio和R Markdown的操作,然后再进行R语言的学习,这个是事半功倍的。

 

3.数据分析是什么?

先和大家分享一下博主对数据分析的学习后的个人感受吧。

个人认为数据分析主要有:数据导入,数据整理,数据进行统计描述,数据可视化。

虽然是简单的这么几个字,但是里面细节真的很多。举个例子:数据导入,就有Flat Files,Excel,Database,Web和其他统计软件数据的导入。其中,Flat Files的导入能用的工具就有R内置的utils包,readr包,data.table包。然后是数据整理,包括对数据初步的观察,如有没有NA,异常值,数据框有没有弄成tidy table的形式等等的。

毕竟,在现实生活中,你遇到的数据问题是千差万别的,很多问题都是人为导致的。例如,给你上个季度的公司销售额,然后需要和以前的数据进行比较。你可能会发现这些你认为的数字,可能被人为设置成字符串;或是某几天的营业额,没有填上内容;还有可能是有些部门统计是科学计数法。这些种种的问题产生数据格式不一致,经常导致后续数据分析总出错。

所以,数据整理有时可能占整个工作的3/4时间。等数据整理好后,就可以进行后续的工作,可以只是做个年度的销售额报表,或是把数据用于机器学习,差异分析,画图。这就看你自己的需求了,这些数据的应用的内容,博主可能会在以后的帖子中继续分享。

 

4.初步大致的理解R语言

如果和博主一样,R语言刚刚入门,看不进书。那么,首先推荐就是通过视频教学的方式,进入对R语言基础部分的大致学习。

博主看过很多不同的学习视频,这些视频一般都是免费的,且在B站就能搜索到。给大家推荐 炼数成金系列的视频,之前在B站上看了好多遍,老师讲的很好,不过后来链接失效了,大家可以再去搜索一下。

通过视频课程主要是对R有个基本认识,熟悉R语言基本函数。一般有数据处理和可视化2大部分大家看完就行,后面才是学习重点。

 

5.仔细的看几本书籍,对R语言的应用有大致的理解

不得不说,大家都说好的书真的是非常好的书。博主看了很多本关于R的书籍,发现真的是经典真就是最好的。

给大家推荐:1.R语言实战。大家下载时,需要注意一下,有很多版本下载后是不全的,缺少后面内容。这本书涵盖的内容很全面,看完后,你大致就能明白R语言能用在哪些方面。2.R数据科学。必看,非常好的数据处理书籍,全面,经典。3.统计建模与R软件。这个更偏向数学统计方面,大家可以选读,但是,如果真的要学习数据分析的话,数学统计方面的知识大家一定要回去回顾回顾。

一般这几本书看完后,对R的感觉就出来了。

 

6.R包和相应书籍

以上几本书看完后,我们对R的总体框架就有了。接下去就是真对一些经典的R包进行学习了。

R包一般分为3种:工具包,注释包和数据包。R语言在数据分析上非常好用,主要还是有丰富多彩的R包,方便了你对数据进行处理。常用的R包,在上面3本书中都有涉及,很多书籍对这些R包有详细的讲解。

等你看完这些书籍后,你会有种感觉:只要清楚相应的问题,只要去网站上找对应R包,然后可以使用就行,可以边学习边解决问题边工作了。不需要懂所有的知识点,只要清楚如果能找到解决你问题的方法。比如,你想话热图,确定好用pheat包,然后去网站上搜索对应的代码。你只要把你需要分析的数据格式转换为R包要求的那样,就能进行后续操作了。

但是,一些经典的R包还是需要好好看一遍的。

推荐网站

http://www.bioconductor.org

https://www.stat.auckland.ac.nz/~paul/RGraphics/rgraphics.html

http://www.ggobi.org

https://www.r-bloggers.com

 

7.cheatsheet

当你完成上面几步时,你会发现可以应对工作中一些初级的问题了。然后,可以免费下载几个cheatsheet贴在桌面上,方便平时查询。

推荐网站:

https://www.rstudio.com/resources/cheatsheets

http://www.cheat-sheets.org/#PostgreSQL

 

8.网站推荐

最后,给大家推荐一个收费网站:datacamp,不过也不贵。博主是之前网站搞活动时,用几百块就注册了1年的会员。里面的课程非常好,几乎涵盖了数据分析的各个方面。博主,花了几个月的时间,把里面的R相关的课程全学了,亲测过,可食用,资源非常非常香,强烈推荐。

 

其实,到这里,博主认为算是数据分析入门了。之后,还是得在日常工作项目中进行积累。之后,更加深入的数据分析,就涉及到了机器学习啊,统计算法啊,人工智能啊。这些进阶课程的经验贴,博主之后也会分享。

 

收集的资源链接:

https://pan.baidu.com/s/1NqD62BLpD1D5mOYQ330QzQ

 

希望这个帖子对数据处理感兴趣的朋友有用。节省出一定的学习时间。

 

 

 

 

 

 

posted @ 2019-07-25 16:17  魔法少女alex  阅读(569)  评论(0编辑  收藏  举报