摘要:
爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结 项目所需要的知识比较全面,很适合练手, 一 程序目的 爬取拉钩全站的职位信息存入mysql和mongodb中 二 所用到的方法 一 利用selenium登录拉钩取得cookies 二 利用redis保存selenium登 阅读全文
摘要:
上一次爬取了知乎问题和答案,这一次来爬取知乎用户的信息 一 构造url 首先构造用户信息的url 知乎用户信息都是放在一个json文件中,我们找到存放这个json文件的url,就可以请求这个json文件,得到我们的数据. url="https://www.zhihu.com/api/v4/membe 阅读全文
摘要:
Python 解释器有一个全局解释器锁(PIL),导致每个 Python 进程中最多同时运行一个线程,因此 Python 多线程程序并不能改善程序性能,不能发挥多核系统的优势,可以通过这篇文章了解。但是多进程程序不受此影响, Python 2.6 引入了 multiprocessing 来解决这个问 阅读全文
摘要:
一 起线程 以函数的方式以一个线程 测试时间略大于2秒. 主线程和这个主线程所启动的子线程是并行的,主线程的执行和子线程无关,要想在程序中让主线程等待子线程 的执行,只能加join() 方法. 二 以类的方式起线程 二 守护线程 如果没有设置守护线程, 可以看出,是先把print 语句执行完之后,程 阅读全文
摘要:
再一次复习排序算法,总结记录一下 一 先看两个不同的递归 func3(5) 输出5,4,3,2,1 func4(5) 输出 1,2,3,4,5 要理解这两个递归的不同,func3是递归进去的时候进行打印,所以是5,4,3,2,1 . func4是递归出来的时候打印, 二 插入排序 将一个记录插入到已 阅读全文
摘要:
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。 from selenium import webdriver f 阅读全文
摘要:
phantomjs是一个没有界面的浏览器,支持各种web标准,提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG,对于爬取一些经过js渲染的页面非常有用。但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了,鬼都知道用这个浏览器,都是来爬取网页的, 阅读全文
摘要:
s="你好" s_to_utf8=s.encode("utf8","ignore") print(s_to_utf8) print(type(s_to_utf8)) utf8_to_unicode=s_to_utf8.decode("utf8","ignore") print(utf8_to_uni 阅读全文
摘要:
在上一篇博客中使用redis所维护的代理池抓取微信文章,开始运行良好,之后运行时总是会报501错误,我用浏览器打开网页又能正常打开,调试了好多次都还是会出错,既然这种方法出错,那就用selenium模拟浏览器获取搜狗微信文章的详情页面信息,把这个详情页面信息获取后,仍然用pyquery库进行解析,之 阅读全文
摘要:
爬虫 requests 阅读全文