09 2017 档案

摘要:concurrent.futures的ThreadPoolExecutor类暴露的api很好用,threading模块抹油提供官方的线程池。和另外一个第三方threadpool包相比,这个可以非阻塞的运行主进程(前提是自己不主动调用shutdown(Tuue))。 这个包在py3种已经是官方自带了。py2种需要自己安装, pip install futures# coding=utf-8 im... 阅读全文
posted @ 2017-09-29 17:15 北风之神0509 阅读(2156) 评论(0) 推荐(0) 编辑
摘要:首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum tesseract安装包我下载的是3.0.4,安装的时候提示搭配的leptonica的版本必须是1.7.2以上,所以不能使用1.6 阅读全文
posted @ 2017-09-28 12:03 北风之神0509 阅读(905) 评论(0) 推荐(0) 编辑
摘要:这样做就能不做任何函数的错误了,而不必在每个函数里面去try except了。 阅读全文
posted @ 2017-09-27 16:47 北风之神0509 阅读(172) 评论(0) 推荐(0) 编辑
摘要:1 package com.entrym.crawler.test; 2 3 import java.util.HashMap; 4 import java.util.Map; 5 6 import org.apache.commons.lang.StringUtils; 7 import org.apache.http.client.methods.HttpGe... 阅读全文
posted @ 2017-09-26 00:15 北风之神0509 阅读(2339) 评论(3) 推荐(0) 编辑
摘要:登录央行征信 https://ipcrs.pbccrc.org.cn 1 # coding=utf-8 2 import requests 3 import time 4 import os 5 import re 6 from lxml import etree 7 import warnings 8 warnings.filterwarnings("ignore") ... 阅读全文
posted @ 2017-09-24 22:40 北风之神0509 阅读(3084) 评论(8) 推荐(1) 编辑
摘要:百度百科的规律是https://baike.baidu.com/item/xxxx 例如要爬取黄冈市的信息,就用https://baike.baidu.com/item/黄冈市,然后请求会自动重定向到该词条。注意结尾不要加一个/,否则会是一个错误的页面。 从excel读取要爬的城市,然后爬取城市信息 阅读全文
posted @ 2017-09-21 14:58 北风之神0509 阅读(12736) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示