巅峰之斗

2018年1月25日

摘要：财经数据 http://tushare.org/trading.html#id2 阅读全文

posted @ 2018-01-25 09:29 巅峰之斗阅读(950) 评论(0) 推荐(0) 编辑

2018年1月24日

摘要： from sklearn import preprocessing # normalize the data attributes normalized_X = preprocessing.normalize(X) # standardize the data attributes standard 阅读全文

posted @ 2018-01-24 14:49 巅峰之斗阅读(180) 评论(0) 推荐(0) 编辑

2018年1月22日

开源的python机器学习模块

摘要：为了理解和应用机器学习技术，你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是，因为 Python 与 R 都比较年轻，而且更加“远离”CPU，所以它们显得简单一些。相对于R 只用于处理数据，使用例如机器学习、统计算法和漂亮的绘图分析数据， Pthon 阅读全文

posted @ 2018-01-22 18:51 巅峰之斗阅读(718) 评论(0) 推荐(0) 编辑

2018年1月19日

基于Python使用scrapy-redis框架实现分布式爬虫注

摘要：注：本文是在http://www.111cn.net/sys/CentOS/63645.htm，http://www.cnblogs.com/kylinlin/p/5198233.html的基础上加以改动的！版权归alex.shu，kylinlin所有。 1.首先介绍一下：scrapy-redis框阅读全文

posted @ 2018-01-19 18:44 巅峰之斗阅读(426) 评论(0) 推荐(0) 编辑

2018年1月18日

Scrapy研究探索（六）——自动爬取网页之II（CrawlSpider）

摘要：一.目的。在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中使用基于Spider实现了自己的w3cschool_spider，并在items.py中定义了数据结构，在pipelines.py中实现获得数据的过滤以及保阅读全文

posted @ 2018-01-18 19:49 巅峰之斗阅读(601) 评论(1) 推荐(0) 编辑

2018年1月17日

Scrapy爬虫入门教程六 Items（项目）

摘要： Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scrapy爬虫入门教程二官方提供DemoScrapy爬虫入门教程三命令行工具介绍和示例Scrapy爬虫入门教程四 Spider（爬虫）Scrapy爬虫入门教程五 Selectors（选择阅读全文

posted @ 2018-01-17 10:30 巅峰之斗阅读(1777) 评论(0) 推荐(0) 编辑

2018年1月16日

【scrapy】学习Scrapy入门

摘要： Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法阅读全文

posted @ 2018-01-16 19:06 巅峰之斗阅读(233) 评论(0) 推荐(0) 编辑

使用pytesseract识别简单验证码

摘要： from PIL import Image import pytesseract from pytesseract import * rep={'O':'0', #替换列表 'I':'1','L':'1', 'Z':'2', 'S':'8' }; def initTable(threshold=14 阅读全文

posted @ 2018-01-16 19:02 巅峰之斗阅读(336) 评论(0) 推荐(0) 编辑

Python验证码识别安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

摘要： 1.安装Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract You can either Install Tesseract via pre-built binary package or bui 阅读全文

posted @ 2018-01-16 18:04 巅峰之斗阅读(981) 评论(0) 推荐(0) 编辑

一个简单的多线程Python爬虫

摘要：最近想要抓取拉勾网的数据，最开始是使用Scrapy的，但是遇到了下面两个问题: 目前不会处理使用JS模板引擎生成的HTML页面，用POST的提交参数的话，接口统一，也没有必要使用Scrapy，所以就萌生了自己写一个简单的Python爬虫的想法。本文中的部分链接可能需要FQ。参考资料：一个爬虫的阅读全文

posted @ 2018-01-16 13:50 巅峰之斗阅读(851) 评论(0) 推荐(0) 编辑

公告