摘要:
背景~ 在爬虫中,需要用到代理ip,本人写了一个模块来获取和过滤代理ip(用多线程过滤,),,,在主线程中判断可用的代理ip少于一定值了,获取新的可用ip,问题来了。。多次调用代理ip模块之后报错: can't start new thread !!!!!!!!!!!!!!!???????????? 阅读全文
摘要:
1.在linux上安装python3,参考链接:https://www.cnblogs.com/kimyeee/p/7250560.html 安装python3时候,建议不要更改默认的python ,,默认python指向python2,,linux有一些东西需要用到,,比如yum,,如果将pyth 阅读全文
摘要:
本文在网上找到有三种爬取方法 1.使用订阅号功能里的查询链接 , (此链接现在反扒措施严重,爬取几十页会封订阅号,仅供参考,) 详情请访问此链接:https://cuiqingcai.com/4652.html 2.使用搜狗搜索的微信搜索(此方法只能查看每个微信公众号的前10条文章) 详情请访问此链 阅读全文
摘要:
环境python3.6 模块win32 pykeyboarf 安装win32 > pip install pypiwin32 安装pykeyboarf > pip会报错,推荐安装包安装 链接:https://codeload.github.com/PyUserInput/PyUserInput/zi 阅读全文
摘要:
Queue.task_done() 在完成一项工作之后,Queue.task_done()函数向任务已经完成的队列发送一个信号 Queue.join() 实际上意味着等到队列为空,再执行别的操作 如果线程里每从队列里取一次,但没有执行task_done(),则join无法判断队列到底有没有结束,在最 阅读全文
摘要:
前边详细内容请看这个网址: https://blog.csdn.net/wwy11/article/details/51100432 在最后完成后程序运行不起来一直0X1 代码 0 或 0x0:操作成功完成。 代码 1 或 0x1:调用的函数不正确或调用了未知函数。 代码 10 或 0xa:环境不正 阅读全文
摘要:
#百度线程 def baiduss(urls): for web in urls: if web: #百度site webToF = baiduwebJudge(web) #判断去留 T 为留 F为扔 if webToF == "T": prin... 阅读全文
先使用phantomJS(selenuim以后将不支持phantomJS,可使用无头chrome 和火狐插件)模拟登录用户,拿到登录后页面的cookie,再用cookie访问本网站,拿到想要的搜索结果
摘要:
先模拟登陆获取cookie,再拿着cookie访问网站,获取想要的搜索结果 阅读全文