摘要: 背景~ 在爬虫中,需要用到代理ip,本人写了一个模块来获取和过滤代理ip(用多线程过滤,),,,在主线程中判断可用的代理ip少于一定值了,获取新的可用ip,问题来了。。多次调用代理ip模块之后报错: can't start new thread !!!!!!!!!!!!!!!???????????? 阅读全文
posted @ 2018-10-10 14:04 自说自话唉 阅读(7830) 评论(1) 推荐(0) 编辑
摘要: 1.在linux上安装python3,参考链接:https://www.cnblogs.com/kimyeee/p/7250560.html 安装python3时候,建议不要更改默认的python ,,默认python指向python2,,linux有一些东西需要用到,,比如yum,,如果将pyth 阅读全文
posted @ 2018-10-18 12:22 自说自话唉 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 本文在网上找到有三种爬取方法 1.使用订阅号功能里的查询链接 , (此链接现在反扒措施严重,爬取几十页会封订阅号,仅供参考,) 详情请访问此链接:https://cuiqingcai.com/4652.html 2.使用搜狗搜索的微信搜索(此方法只能查看每个微信公众号的前10条文章) 详情请访问此链 阅读全文
posted @ 2018-07-09 17:01 自说自话唉 阅读(20635) 评论(9) 推荐(2) 编辑
摘要: 环境python3.6 模块win32 pykeyboarf 安装win32 > pip install pypiwin32 安装pykeyboarf > pip会报错,推荐安装包安装 链接:https://codeload.github.com/PyUserInput/PyUserInput/zi 阅读全文
posted @ 2018-06-25 11:04 自说自话唉 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: Queue.task_done() 在完成一项工作之后,Queue.task_done()函数向任务已经完成的队列发送一个信号 Queue.join() 实际上意味着等到队列为空,再执行别的操作 如果线程里每从队列里取一次,但没有执行task_done(),则join无法判断队列到底有没有结束,在最 阅读全文
posted @ 2018-06-19 15:03 自说自话唉 阅读(7301) 评论(1) 推荐(1) 编辑
摘要: 前边详细内容请看这个网址: https://blog.csdn.net/wwy11/article/details/51100432 在最后完成后程序运行不起来一直0X1 代码 0 或 0x0:操作成功完成。 代码 1 或 0x1:调用的函数不正确或调用了未知函数。 代码 10 或 0xa:环境不正 阅读全文
posted @ 2018-05-05 10:55 自说自话唉 阅读(2410) 评论(0) 推荐(0) 编辑
摘要: #百度线程 def baiduss(urls): for web in urls: if web: #百度site webToF = baiduwebJudge(web) #判断去留 T 为留 F为扔 if webToF == "T": prin... 阅读全文
posted @ 2018-05-02 15:25 自说自话唉 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 先模拟登陆获取cookie,再拿着cookie访问网站,获取想要的搜索结果 阅读全文
posted @ 2018-05-02 15:19 自说自话唉 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 1. 安装依赖环境 # yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel 阅读全文
posted @ 2018-04-21 16:36 自说自话唉 阅读(143) 评论(0) 推荐(0) 编辑
摘要: middlewares.py setting.py 小蜘蛛代码 阅读全文
posted @ 2018-04-21 16:26 自说自话唉 阅读(285) 评论(0) 推荐(0) 编辑