返回顶部
扩大
缩小

Zhang_derek

2018年2月15日

python爬虫入门(四)利用多线程爬虫

摘要: 多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程 阅读全文

posted @ 2018-02-15 23:26 zhang_derek 阅读(38178) 评论(0) 推荐(12) 编辑

python爬虫入门(三)XPATH和BeautifulSoup4

摘要: XML和XPATH 用正则处理HTML文档很麻烦,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据 阅读全文

posted @ 2018-02-15 18:06 zhang_derek 阅读(13877) 评论(0) 推荐(4) 编辑

python爬虫入门(二)Opener和Requests

摘要: Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener(也就是我们构建好的)。 但是urlopen()方法不支持代理、cookie等其他的HTTP/GTTP 阅读全文

posted @ 2018-02-15 00:48 zhang_derek 阅读(16272) 评论(0) 推荐(4) 编辑

导航