摘要:
新买一个用于机器学习的实例,镜像系统Ubuntu。想安装一个上传、下载的包。 使用命令: 结果一直报错: 解决方法: 使用命令: 问题解决! 阅读全文
摘要:
结合tfidf权重,对“达观杯”提供的文本,进行文本分类,作为baseline,后续改进均基于此。 1.比赛地址及数据来源 "达观杯"文本智能挑战赛 2.代码及解析 # -*- coding: utf-8 -*- """ @简介:tfidf特征/ SVM模型 @成绩: 0.77 """ #导入所需要 阅读全文
摘要:
1.算法原理 1.分类和回归 分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。 一般来说,回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。 分类 阅读全文
摘要:
1.seaborn设置整体风格 seaborn提供5中主题风格: darkgrid whitegrid dark white ticks 主要通过set()和set_style()两个函数对整体风格进行控制。 准备工作: 默认设置1 输入: 输出: 默认设置2 输入: 输出: 设置风格为ticks 阅读全文
摘要:
python利用Matplotlib.pyplot库绘制不同的图形,但是在显示中文时存在部分问题,一般在导入库后,添加如下代码: 1.折线图 一般折线图 输入: 输出: 折线图设置 对折线图操作,添加标签、标题,并对坐标刻度进行设置 输入: 输出: 2.子图 子图概念 fig.add_subplot 阅读全文
摘要:
1.Pandas读取数据 一般错误 out: 使用read_csv()函数时,可能会报错如上。 显示以上错误,网上解答说可能是路径含有中文名,或者只能读取当前文件夹下的文件; 设置:engine=“python”解决问题!! 默认engine=“C”,使用C时速度较快,但是包含中文时出错。 数据读取 阅读全文
摘要:
1.Numpy读取txt/csv文件 读取数据 结果输出: 结果输出: 帮助文档 使用help命令查看帮助文档 结果输出: 2.Numpy的矩阵操作 构造矩阵 结果输出: 结果输出: 类型转换 结果输出: 切片操作 结果输出: 结果输出: 逻辑运算 结果输出: 结果输出: 结果输出: 一般函数 结果 阅读全文
摘要:
目标说明 利用scrapy抓取中新网新闻,关于自然灾害滑坡的全部国内新闻;要求主题为滑坡类新闻,包含灾害造成的经济损失等相关内容,并结合textrank算法,得到每篇新闻的关键词,便于后续文本挖掘分析。 网站分析 目标网站:http://sou.chinanews.com/advSearch.do 阅读全文
摘要:
利用scrapy抓取蛋壳公寓上的房源信息,以北京市为例,目标url:https://www.dankegongyu.com/room/bj 思路分析 每次更新最新消息,都是在第一页上显示,因此考虑隔一段时间自动抓取第一页上的房源信息,实现抓取最新消息。 利用redis的set数据结构的特征,将每次抓 阅读全文
摘要:
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布 阅读全文