摘要: 财经数据 http://tushare.org/trading.html#id2 阅读全文
posted @ 2018-01-25 09:29 巅峰之斗 阅读(943) 评论(0) 推荐(0) 编辑
摘要: from sklearn import preprocessing # normalize the data attributes normalized_X = preprocessing.normalize(X) # standardize the data attributes standard 阅读全文
posted @ 2018-01-24 14:49 巅峰之斗 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 为了理解和应用机器学 习技术,你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是,因为 Python 与 R 都比较年轻, 而且更加“远离”CPU,所以它们显得简单一些。相对于R 只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据, Pthon 阅读全文
posted @ 2018-01-22 18:51 巅峰之斗 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 注:本文是在http://www.111cn.net/sys/CentOS/63645.htm,http://www.cnblogs.com/kylinlin/p/5198233.html的基础上加以改动的!版权归alex.shu,kylinlin所有。 1.首先介绍一下:scrapy-redis框 阅读全文
posted @ 2018-01-19 18:44 巅峰之斗 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 一.目的。 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保 阅读全文
posted @ 2018-01-18 19:49 巅峰之斗 阅读(593) 评论(1) 推荐(0) 编辑
摘要: Python版本管理:pyenv和pyenv-virtualenvScrapy爬虫入门教程一 安装和基本使用Scrapy爬虫入门教程二 官方提供DemoScrapy爬虫入门教程三 命令行工具介绍和示例Scrapy爬虫入门教程四 Spider(爬虫)Scrapy爬虫入门教程五 Selectors(选择 阅读全文
posted @ 2018-01-17 10:30 巅峰之斗 阅读(1773) 评论(0) 推荐(0) 编辑
摘要: Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法 阅读全文
posted @ 2018-01-16 19:06 巅峰之斗 阅读(233) 评论(0) 推荐(0) 编辑
摘要: from PIL import Image import pytesseract from pytesseract import * rep={'O':'0', #替换列表 'I':'1','L':'1', 'Z':'2', 'S':'8' }; def initTable(threshold=14 阅读全文
posted @ 2018-01-16 19:02 巅峰之斗 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 1.安装Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract You can either Install Tesseract via pre-built binary package or bui 阅读全文
posted @ 2018-01-16 18:04 巅峰之斗 阅读(969) 评论(0) 推荐(0) 编辑
摘要: 最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 目前不会处理使用JS模板引擎生成的HTML页面,用POST的提交参数的话,接口统一,也没有必要使用Scrapy,所以就萌生了自己写一个简单的Python爬虫的想法。 本文中的部分链接可能需要FQ。 参考资料: 一个爬虫的 阅读全文
posted @ 2018-01-16 13:50 巅峰之斗 阅读(847) 评论(0) 推荐(0) 编辑