温良Miner - 博客园

2018年9月11日

摘要：新买一个用于机器学习的实例，镜像系统Ubuntu。想安装一个上传、下载的包。使用命令：结果一直报错：解决方法：使用命令：问题解决！阅读全文

posted @ 2018-09-11 15:38 温良Miner 阅读(9321) 评论(0) 推荐(0)

2018年9月4日

摘要：结合tfidf权重，对“达观杯”提供的文本，进行文本分类，作为baseline，后续改进均基于此。 1.比赛地址及数据来源 "达观杯"文本智能挑战赛 2.代码及解析 # -*- coding: utf-8 -*- """ @简介：tfidf特征/ SVM模型 @成绩： 0.77 """ #导入所需要阅读全文

posted @ 2018-09-04 16:21 温良Miner 阅读(1956) 评论(3) 推荐(0)

2018年7月14日

经典算法之K近邻（回归部分）

摘要： 1.算法原理 1.分类和回归分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。一般来说，回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。分类阅读全文

posted @ 2018-07-14 10:40 温良Miner 阅读(20187) 评论(1) 推荐(6)

2018年7月10日

04_seaborn基本使用

摘要： 1.seaborn设置整体风格 seaborn提供5中主题风格： darkgrid whitegrid dark white ticks 主要通过set()和set_style()两个函数对整体风格进行控制。准备工作：默认设置1 输入：输出：默认设置2 输入：输出：设置风格为ticks 阅读全文

posted @ 2018-07-10 23:26 温良Miner 阅读(10199) 评论(0) 推荐(1)

2018年7月7日

03_Matplotlib的基本使用

摘要： python利用Matplotlib.pyplot库绘制不同的图形，但是在显示中文时存在部分问题，一般在导入库后，添加如下代码： 1.折线图一般折线图输入：输出：折线图设置对折线图操作，添加标签、标题，并对坐标刻度进行设置输入：输出： 2.子图子图概念 fig.add_subplot 阅读全文

posted @ 2018-07-07 21:28 温良Miner 阅读(706) 评论(0) 推荐(0)

2018年7月6日

02_Pandas基本使用

摘要： 1.Pandas读取数据一般错误 out：使用read_csv（）函数时，可能会报错如上。显示以上错误，网上解答说可能是路径含有中文名，或者只能读取当前文件夹下的文件；设置：engine=“python”解决问题！！默认engine=“C”,使用C时速度较快，但是包含中文时出错。数据读取阅读全文

posted @ 2018-07-06 19:05 温良Miner 阅读(670) 评论(0) 推荐(0)

2018年7月4日

01_Numpy基本使用

摘要： 1.Numpy读取txt/csv文件读取数据结果输出：结果输出：帮助文档使用help命令查看帮助文档结果输出： 2.Numpy的矩阵操作构造矩阵结果输出：结果输出：类型转换结果输出：切片操作结果输出：结果输出：逻辑运算结果输出：结果输出：结果输出：一般函数结果阅读全文

posted @ 2018-07-04 19:49 温良Miner 阅读(550) 评论(0) 推荐(0)

2018年6月27日

scrapy抓取中国新闻网新闻

摘要：目标说明利用scrapy抓取中新网新闻，关于自然灾害滑坡的全部国内新闻；要求主题为滑坡类新闻，包含灾害造成的经济损失等相关内容，并结合textrank算法，得到每篇新闻的关键词，便于后续文本挖掘分析。网站分析目标网站：http://sou.chinanews.com/advSearch.do 阅读全文

posted @ 2018-06-27 17:15 温良Miner 阅读(3199) 评论(1) 推荐(0)

2018年6月8日

scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

摘要：利用scrapy抓取蛋壳公寓上的房源信息，以北京市为例，目标url：https://www.dankegongyu.com/room/bj 思路分析每次更新最新消息，都是在第一页上显示，因此考虑隔一段时间自动抓取第一页上的房源信息，实现抓取最新消息。利用redis的set数据结构的特征，将每次抓阅读全文

posted @ 2018-06-08 20:03 温良Miner 阅读(1363) 评论(0) 推荐(0)

2018年6月7日

使用scrapy-redis搭建分布式爬虫环境

摘要： scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征：  分布式爬取您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。  分布阅读全文

posted @ 2018-06-07 13:52 温良Miner 阅读(15040) 评论(1) 推荐(2)