上一页 1 ··· 7 8 9 10 11 12 13 下一页
摘要: 有时候一个项目,希望既提交到oschina又提交到公司内网的gitlab,或者是github什么的。 使用git remote -v 查看当前git的远程仓库。 添加一个远程仓库 阅读全文
posted @ 2017-10-23 16:06 北风之神0509 阅读(526) 评论(1) 推荐(1) 编辑
摘要: 跨语言的rpc框架 新建一个thrift文件 client.py 阅读全文
posted @ 2017-10-23 15:23 北风之神0509 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 一台电脑去控制另一台电脑干事情,最常见的就是web。 用户get/post一个url,服务端根据url地址和参数去做相应的事情把结果返回给客户端。 server.py client.py 运行server.py,运行client.py,client可以和server不在同一个机器,调用另一台机器做事 阅读全文
posted @ 2017-10-23 15:15 北风之神0509 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 人力部需要做互联网金融行业的从业人员薪酬分析,起初说的是写脚本,然后他们自己改。但这样不太好,让人事部来修改py脚本不太好,这需要安装py环境和一些第三方包,万一脚本改来改去弄错了,就运行不起来了。 利用pyqt写界面,把要爬的企业填在界面上,点击一个按钮就爬虫,最后生成excel,这样比较方便。p 阅读全文
posted @ 2017-10-11 12:36 北风之神0509 阅读(1241) 评论(1) 推荐(0) 编辑
摘要: 测试 使用wait_all_finish()的queue.join()方法阻塞主线程,当队列中有任务还要执行时候不往下执行。不想阻塞就不要写这句。 阅读全文
posted @ 2017-10-07 23:37 北风之神0509 阅读(208) 评论(0) 推荐(0) 编辑
摘要: concurrent.futures的ThreadPoolExecutor类暴露的api很好用,threading模块抹油提供官方的线程池。和另外一个第三方threadpool包相比,这个可以非阻塞的运行主进程(前提是自己不主动调用shutdown(Tuue))。 这个包在py3种已经是官方自带了。py2种需要自己安装, pip install futures# coding=utf-8 im... 阅读全文
posted @ 2017-09-29 17:15 北风之神0509 阅读(2121) 评论(0) 推荐(0) 编辑
摘要: 首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum tesseract安装包我下载的是3.0.4,安装的时候提示搭配的leptonica的版本必须是1.7.2以上,所以不能使用1.6 阅读全文
posted @ 2017-09-28 12:03 北风之神0509 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 这样做就能不做任何函数的错误了,而不必在每个函数里面去try except了。 阅读全文
posted @ 2017-09-27 16:47 北风之神0509 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 1 package com.entrym.crawler.test; 2 3 import java.util.HashMap; 4 import java.util.Map; 5 6 import org.apache.commons.lang.StringUtils; 7 import org.apache.http.client.methods.HttpGe... 阅读全文
posted @ 2017-09-26 00:15 北风之神0509 阅读(2313) 评论(3) 推荐(0) 编辑
摘要: 登录央行征信 https://ipcrs.pbccrc.org.cn 1 # coding=utf-8 2 import requests 3 import time 4 import os 5 import re 6 from lxml import etree 7 import warnings 8 warnings.filterwarnings("ignore") ... 阅读全文
posted @ 2017-09-24 22:40 北风之神0509 阅读(3021) 评论(8) 推荐(1) 编辑
摘要: 百度百科的规律是https://baike.baidu.com/item/xxxx 例如要爬取黄冈市的信息,就用https://baike.baidu.com/item/黄冈市,然后请求会自动重定向到该词条。注意结尾不要加一个/,否则会是一个错误的页面。 从excel读取要爬的城市,然后爬取城市信息 阅读全文
posted @ 2017-09-21 14:58 北风之神0509 阅读(12732) 评论(0) 推荐(0) 编辑
摘要: 针对py2,py3不需要这样。#coding=utf8import sysreload(sys)sys.setdefaultencoding('utf8')strx2='你好\u4e2d\u56fd,傻瓜\u65e5\u672c'print strx2print repr(strx2)finds=r 阅读全文
posted @ 2017-08-28 13:41 北风之神0509 阅读(974) 评论(0) 推荐(0) 编辑
摘要: 这几天行激活pycharm pro版会遇到问题,license server的网址都不可用了。包括各个网站的百度云的破解资源链接都被和谐了,发现最近jetbrains对盗版管得严。 首次安装在注册界面选择licence server激活模式 输入 http://elporfirio.com:1017 阅读全文
posted @ 2017-08-22 11:03 北风之神0509 阅读(10049) 评论(0) 推荐(0) 编辑
摘要: 这是舆情分析系统,一种泛提取的爬虫,主要是要爬取63个网站或搜索引擎的新闻。 爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。 还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实 阅读全文
posted @ 2017-08-18 16:06 北风之神0509 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 可以通过运行上一篇的代码就能发现。具体是什么,我不能说。大公司也有这种漏洞,哎。 阅读全文
posted @ 2017-08-15 17:13 北风之神0509 阅读(594) 评论(2) 推荐(0) 编辑
摘要: 附上引入的文件一: Logger.py 附上引入的文件二 myrequests.py文件,继承这个类,这样在ChinaUnicom中的self.post就是session类的post,每个请求都携带了登录和请求e3 checklogin接口的cookie。 阅读全文
posted @ 2017-08-15 17:11 北风之神0509 阅读(14652) 评论(1) 推荐(2) 编辑
摘要: 先登录再爬取。 关于时间戳,就我见过的淘宝 联通 房天下和一些杂七杂八的网站来看,时间戳基本是不造成任何影响,请求参数中直接用一个固定的时间戳也没关系,如果你喜欢你也可以用time.time()来获得时间戳。 20170921:登录现在的header里面要加入refer,否则返回9974. 阅读全文
posted @ 2017-08-12 18:32 北风之神0509 阅读(475) 评论(0) 推荐(0) 编辑
摘要: exception 能看到错误提示 traceback能看到具体的错误在哪一行,当try里面包含了上百行代码,包括功能现金的代码,如果只是用exception打印,可能不知道是哪出错了,而且不好调试定位,taraceback就十分好了。 sys.exc_info能看到错误类型和错误提示。 阅读全文
posted @ 2017-08-10 19:54 北风之神0509 阅读(880) 评论(0) 推荐(0) 编辑
摘要: 豆瓣的影评,每一页的页面链接不是可以预知的,url中start从0开始,第二页是20,第三页是40,这是理想状态,但真实不是这样。所以要从网页中提取下一页的链接,单线程,自己调用自己,每爬了几十分钟后报错maximum recursion depth exceeded in cmp,以为是个偶然,反 阅读全文
posted @ 2017-08-10 19:35 北风之神0509 阅读(412) 评论(0) 推荐(0) 编辑
摘要: mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process when we create the WebDriver object and it is termina 阅读全文
posted @ 2017-08-10 18:39 北风之神0509 阅读(376) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 下一页