随笔分类 - 爬虫
摘要:什么是urllib urlopen 结果: <!DOCTYPE html> <!--STATUS OK--> <html> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"> <meta http-equ
阅读全文
摘要:什么是爬虫? 请求网站并提取数据的自动化程序 爬虫基本流程? 什么是Request和Response? Request中包含什么? Response中包含什么? 能抓怎样的数据? 怎样来解析? 怎样解决JavaScript渲染的问题? 怎样保存数据?
阅读全文
摘要:进行简单的操作 发送一个get请求 这样就发送了一个get请求,并且还打印了返回的内容,这个不再需要知道网页是哪个编码的,不过有时会出现编码问题,但是你也可以指定编码类型,如: 指定完成后就可以正常编码了,前提你得知道网页的编码类型。 出了上面这些,我们还可以获取下面的信息 是不是觉得很容易,一行代
阅读全文
摘要:使用urllib,request,和正则表达式,多线程进行秒抓,以及异常处理结果: D:\Anaconda3\python.exe C:/Users/Administrator/Desktop/project/test2.py {'index': '1', 'image': 'http://p1.m
阅读全文
摘要:urlib库为python3的HTTP内置请求库 urilib的四个模块: urllib.request:用于获取网页的响应内容 urllib.error:异常处理模块,用于处理异常的模块 urllib.parse:用于解析url urllib.robotparse:用于解析robots.txt,主
阅读全文
摘要:使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的魅力
阅读全文
摘要:构造Requset 其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。 比如上面的两行代码,我们可以这么改写: 运行结果是完全一样的,只不过中间多了一个request对象,推荐大家这么写,因为在构建请求时还需要
阅读全文
摘要:# coding=utf-8 import urllib params=urllib.urlencode({'t':1,'eggs':2,'bacon':0})#现在大多数网站都是动态网页,需要你动态地传递参数给它,它做出对应的响应。 print params ''' 所以,在访问时,我们需要传递数据给它。最常见的情况是什么?对了,就是登录注册的时候呀。 把数据用户名和密码传送到一个URL,然后...
阅读全文
摘要:# -*- coding: UTF-8 -*- # 正则表达式模块 import re # 获取路径模块 import urllib #时间模块 import time def getHtml(url): page=urllib.urlopen(url) print page.getcode() html=page.read() print html re...
阅读全文
摘要:# -*- coding: UTF-8 -*- # python2爬虫 import urllib f = urllib.urlopen("http://www.itcast.cn/") print f.readline() # 读取html页面的第一行 print f.read() # ,读取源代码,该网址源代码为utf-8格式 # read(),readline(),readlines...
阅读全文