摘要: 一个小小的地铁名,就是一座城市风貌的一部分,它反映着不同地方的水土,也承载着各个城市的文化和历史。 本文试图从地铁站名出发,一探这一个个名字能否反映出每一寸土地的性格,文化。 参考文章:183条地铁线路,3034个地铁站,发现中国地铁名字的秘密。 数据集准备: 爬取高德地图地铁图:http://ma 阅读全文
posted @ 2019-05-24 02:09 jvfjvf 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 项目要求: 爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。 项目要求: 爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。 什么是Scrapy框架: Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架 阅读全文
posted @ 2019-05-16 14:03 jvfjvf 阅读(811) 评论(0) 推荐(0) 编辑
摘要: k-means法与k-medoids法都是基于距离判别的聚类算法。本文将使用iris数据集,在R语言中实现k-means算法与k-medoids算法。 k-means聚类 k-means聚类 首先删去iris中的Species属性,留下剩余4列数值型变量。再利用kmeans()将数据归为3个簇 从聚 阅读全文
posted @ 2018-03-11 21:17 jvfjvf 阅读(4318) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍如何使用party包,rpart包及randomForest包来建立预测模型。 首先,我们将使用party包来建立决策树,并用决策树用于分类。其次,利用randomForest包来训练随机森林模型。 最后学习使用rpart包来建立决策树。 所使用的数据集为R中自带的iris数据集 使用pa 阅读全文
posted @ 2018-03-11 13:48 jvfjvf 阅读(1258) 评论(0) 推荐(0) 编辑
摘要: 当 回 归 模 型 包 含 一 个 因 变 量 和 一 个 自 变 量 时 , 我 们 称 为 简 单 线 性 回 归 。 当 只 有 一 个 预 测 变 量 , 但 同 时 包 含 变 量 的 幂 ( 比 如 , X 、X^2 、X^3 ) 时 , 我 们 称 为 多 项 式 回 归 。 当 有 阅读全文
posted @ 2018-01-15 15:10 jvfjvf 阅读(612) 评论(0) 推荐(0) 编辑
摘要: 数据为kaggle社区发布的数据分析从业者问卷调查分析报告,其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据,进行描述性展示。帮助新从业的人员更全方位地了解这个行业。 参考学习视频:http://www.tianshansoft.com/ 数据集:https://pan.ba 阅读全文
posted @ 2018-01-06 20:35 jvfjvf 阅读(5440) 评论(0) 推荐(0) 编辑
摘要: 本文探讨的是kaggle中的一个案例-员工离职分析,从数据集中分析员工的离职原因,并发现其中的问题。数据主要包括影响员工离职的各种因素(工资、绩效、工作满意度、参加项目数、工作时长、是否升职、等)以及员工是否已经离职的对应记录。 数据来源:Human Resources Analytics | Ka 阅读全文
posted @ 2018-01-04 18:36 jvfjvf 阅读(5990) 评论(0) 推荐(0) 编辑
摘要: 分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 1 libr 阅读全文
posted @ 2017-12-23 21:29 jvfjvf 阅读(3309) 评论(0) 推荐(0) 编辑