09 2017 档案
摘要:concurrent.futures的ThreadPoolExecutor类暴露的api很好用,threading模块抹油提供官方的线程池。和另外一个第三方threadpool包相比,这个可以非阻塞的运行主进程(前提是自己不主动调用shutdown(Tuue))。 这个包在py3种已经是官方自带了。py2种需要自己安装, pip install futures# coding=utf-8 im...
阅读全文
摘要:首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum tesseract安装包我下载的是3.0.4,安装的时候提示搭配的leptonica的版本必须是1.7.2以上,所以不能使用1.6
阅读全文
摘要:这样做就能不做任何函数的错误了,而不必在每个函数里面去try except了。
阅读全文
摘要:1 package com.entrym.crawler.test; 2 3 import java.util.HashMap; 4 import java.util.Map; 5 6 import org.apache.commons.lang.StringUtils; 7 import org.apache.http.client.methods.HttpGe...
阅读全文
摘要:登录央行征信 https://ipcrs.pbccrc.org.cn 1 # coding=utf-8 2 import requests 3 import time 4 import os 5 import re 6 from lxml import etree 7 import warnings 8 warnings.filterwarnings("ignore") ...
阅读全文
摘要:百度百科的规律是https://baike.baidu.com/item/xxxx 例如要爬取黄冈市的信息,就用https://baike.baidu.com/item/黄冈市,然后请求会自动重定向到该词条。注意结尾不要加一个/,否则会是一个错误的页面。 从excel读取要爬的城市,然后爬取城市信息
阅读全文