摘要:
今天看了个新闻,说是中国社会科学院城市发展与环境研究所及社会科学文献出版社共同发布《房地产蓝皮书:中国房地产发展报告No.16(2019)》指出房价上涨7.6%,看得我都坐不住了,这房价上涨什么时候是个头啊。为了让自己以后租得起房,我还是好好努力吧。于是我打开了Kaggle,准备上手第一道题,正巧发 阅读全文
摘要:
概述 聚类属于机器学习的无监督学习,在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。它跟分类的最主要区别就在于有没有“标签”。比如说我们有一组数据,数据对应着每个“标签”,我们通过这些数据与标签之间的相关性,预测出某些数据属于哪些“标签”,这属于分类 阅读全文
摘要:
前阵子报名参加了一个数据比赛,题目是预测5月15号(星期三)招商银行的股价,截止时间是在5月12号(星期天)。在本次预测中,我用到的是岭回归。 一、岭回归 线性回归 先回顾一下普通线性回归。一般来说,线性回归方程:y=w1x1+w2x2...+wnxn。我们把这组变量 xn 定成一个矩阵 X,把回归 阅读全文
摘要:
前两篇博客分别对拉勾中关于 python 数据分析有关的信息进行获取(https://www.cnblogs.com/lyuzt/p/10636501.html)和对获取的数据进行可视化分析(https://www.cnblogs.com/lyuzt/p/10643941.html),这次我们就用 阅读全文
摘要:
上回说到我们如何如何把拉勾的数据抓取下来的,既然获取了数据,就别放着不动,把它拿出来分析一下,看看这些数据里面都包含了什么信息。(本次博客源码地址:https://github.com/MaxLyu/Lagou_Analyze) 一、前期准备 由于上次抓的数据里面包含有 ID 这样的信息,我们需要将 阅读全文
摘要:
为了了解跟python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,我决定从网上获取信息并进行分析。既然想要分析就必须要有数据,于是我选择了拉勾,冒着危险深入内部,从他们那里得到了信息。不得不说,拉勾的反爬技术还挺厉害的,稍后再说明。话不多说,直接开始。 一、明确目的 每次爬虫 阅读全文
摘要:
一、概述 线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在机器学习中属于监督学习。在数据分析等领域应用十分广泛。 很多情况下我们都用它进行预测,比如预测房屋价格。在这里用一个简单的例子来说明,假设有一组房屋数据,为了理解方便,假设决定价格的只有房 阅读全文
摘要:
一、概述 KNN(K-最近邻)算法是相对比较简单的机器学习算法之一,它主要用于对事物进行分类。用比较官方的话来说就是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例, 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。为了更好地理解,通过一个简单的例子说明。 阅读全文
摘要:
最近偶然到博客园看了一下,距离上次的博客已经过去很多天了,阅读量却少得可怜,对于博客园小白来说感觉不是很友好(主要是心理不平衡),而且有些博客被其他网站不带出处的转载了,它的阅读量却很多。于是灵光一闪,决定写个程序增加一下阅读量。(仅用于学术交流,实际上我就试了一下,没有真正刷过) 一、原理 一般来 阅读全文
摘要:
一、安装Python3.7 安装依赖包 yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel 上官网下载安装包 wget https://www.python.org/ftp/ 阅读全文