摘要: 两种推荐算法的实现 1.基于邻域的方法(协同过滤)(collaborative filtering): user-based, item-based。 2.基于隐语义的方法(矩阵分解):SVD。 使用python推荐系统库surprise。 surprise是scikit系列中的一个,简单易用,同时 阅读全文
posted @ 2019-03-19 18:55 albireo 阅读(5498) 评论(0) 推荐(0) 编辑
摘要: 学习数据挖掘的过程中,想试着实现一个文本分类的应用,对新闻进行分类,于是自己抓取数据,用不同分类模型试试效果如何。 目的很简单,就是根据新闻标题对新闻分类 大致思路:1.抓取数据抓取某个新闻网站的新闻标题和新闻分类写入本地,存放为CSV文件2.数据清洗因为要对中文文本进行分类,首先去重并删除每条标题 阅读全文
posted @ 2019-03-15 17:30 albireo 阅读(1335) 评论(0) 推荐(0) 编辑
摘要: 使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁。ip代理可以从这个网站获取:http://www.xicidaili.com/nn/。因此写一个python程序来获取ip代理,保存到本地。python版本:3.6.3 运行程序: 查看文件: 之后就可以直接使用了 阅读全文
posted @ 2019-03-14 20:03 albireo 阅读(2081) 评论(0) 推荐(0) 编辑