摘要:
明确: 算法是核心,数据和计算是基础 机器学习开发流程图: 机器学习模型是什么: 定义:通过一种映射关系从输入值到输出值 机器学习算法分类: 监督学习: 分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归:线性回归、岭回归 标注:隐马尔可夫模型 无监督学习: 聚类 k-mea 阅读全文
摘要:
特征选择: 特征选择的原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择是什么: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一 阅读全文
摘要:
爬取内容: 简书中每一篇文章的具体数据,主要包括文章标题、钻石数、发表日期、文章字数、文章阅读量、文章的评论量和点赞量等,这里爬取2000条左右保存至数据库 代码实现在文末! 分析思路: 首先,谷歌浏览器抓包,获取简书首页加载新文章的方式,当我们点击主页的加载更多的按钮的时候,后台发送了一个异步的P 阅读全文