outback123 - 博客园

2018年2月5日

摘要：爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结项目所需要的知识比较全面,很适合练手, 一程序目的爬取拉钩全站的职位信息存入mysql和mongodb中二所用到的方法一利用selenium登录拉钩取得cookies 二利用redis保存selenium登阅读全文

posted @ 2018-02-05 16:14 outback123 阅读(211) 评论(0) 推荐(0) 编辑

2018年2月2日

知乎用户信息的爬取

摘要：上一次爬取了知乎问题和答案,这一次来爬取知乎用户的信息一构造url 首先构造用户信息的url 知乎用户信息都是放在一个json文件中,我们找到存放这个json文件的url,就可以请求这个json文件,得到我们的数据. url="https://www.zhihu.com/api/v4/membe 阅读全文

posted @ 2018-02-02 19:52 outback123 阅读(5083) 评论(0) 推荐(0) 编辑

2018年2月1日

多进程学习总结

摘要： Python 解释器有一个全局解释器锁(PIL)，导致每个 Python 进程中最多同时运行一个线程，因此 Python 多线程程序并不能改善程序性能，不能发挥多核系统的优势，可以通过这篇文章了解。但是多进程程序不受此影响， Python 2.6 引入了 multiprocessing 来解决这个问阅读全文

posted @ 2018-02-01 19:29 outback123 阅读(235) 评论(0) 推荐(0) 编辑

多线程学习总结

摘要：一起线程以函数的方式以一个线程测试时间略大于2秒. 主线程和这个主线程所启动的子线程是并行的,主线程的执行和子线程无关,要想在程序中让主线程等待子线程的执行,只能加join() 方法. 二以类的方式起线程二守护线程如果没有设置守护线程, 可以看出,是先把print 语句执行完之后,程阅读全文

posted @ 2018-02-01 19:06 outback123 阅读(153) 评论(0) 推荐(0) 编辑

排序算法总结

摘要：再一次复习排序算法,总结记录一下一先看两个不同的递归 func3(5) 输出5,4,3,2,1 func4(5) 输出 1,2,3,4,5 要理解这两个递归的不同,func3是递归进去的时候进行打印,所以是5,4,3,2,1 . func4是递归出来的时候打印, 二插入排序将一个记录插入到已阅读全文

posted @ 2018-02-01 18:50 outback123 阅读(220) 评论(0) 推荐(0) 编辑

2018年1月31日

chromedriver禁用图片，禁用js，切换UA

摘要： selenium 模拟chrome浏览器，此时就是一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，所以爬取网页的速度很慢。如果可以不加载图片等操作，网页加载速度就会快不少，代码中列出了了禁用图片，禁用JS，切换UA的方法。 from selenium import webdriver f 阅读全文

posted @ 2018-01-31 08:45 outback123 阅读(4266) 评论(0) 推荐(0) 编辑

phantomjs集成到scrapy中，并禁用图片，切换UA

摘要： phantomjs是一个没有界面的浏览器，支持各种web标准，提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG，对于爬取一些经过js渲染的页面非常有用。但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了，鬼都知道用这个浏览器，都是来爬取网页的，阅读全文

posted @ 2018-01-31 08:43 outback123 阅读(817) 评论(0) 推荐(0) 编辑

2018年1月30日

该死的编码

摘要： s="你好" s_to_utf8=s.encode("utf8","ignore") print(s_to_utf8) print(type(s_to_utf8)) utf8_to_unicode=s_to_utf8.decode("utf8","ignore") print(utf8_to_uni 阅读全文

posted @ 2018-01-30 20:30 outback123 阅读(182) 评论(0) 推荐(0) 编辑

selenium模拟浏览器对搜狗微信文章进行爬取

摘要：在上一篇博客中使用redis所维护的代理池抓取微信文章，开始运行良好，之后运行时总是会报501错误，我用浏览器打开网页又能正常打开，调试了好多次都还是会出错，既然这种方法出错，那就用selenium模拟浏览器获取搜狗微信文章的详情页面信息，把这个详情页面信息获取后，仍然用pyquery库进行解析，之阅读全文

posted @ 2018-01-30 19:24 outback123 阅读(2020) 评论(0) 推荐(0) 编辑

使用redis所维护的代理池抓取微信文章

摘要：爬虫 requests 阅读全文

posted @ 2018-01-30 19:14 outback123 阅读(815) 评论(0) 推荐(0) 编辑

Outback

公告