爬虫 - 随笔分类 - 耐烦不急

系统学习爬虫_2_urllib

摘要：什么是urllib urlopen 结果： <!DOCTYPE html>  <html> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"> <meta http-equ 阅读全文

posted @ 2018-05-10 16:39 耐烦不急阅读(226) 评论(0) 推荐(0) 编辑

系统学习爬虫_1_爬虫基本原理讲解

摘要：什么是爬虫？请求网站并提取数据的自动化程序爬虫基本流程？什么是Request和Response？ Request中包含什么？ Response中包含什么？能抓怎样的数据？怎样来解析？怎样解决JavaScript渲染的问题？怎样保存数据？阅读全文

posted @ 2018-05-10 14:46 耐烦不急阅读(392) 评论(0) 推荐(0) 编辑

爬虫_python3_requests_2

摘要：进行简单的操作发送一个get请求这样就发送了一个get请求，并且还打印了返回的内容，这个不再需要知道网页是哪个编码的，不过有时会出现编码问题，但是你也可以指定编码类型，如：指定完成后就可以正常编码了，前提你得知道网页的编码类型。出了上面这些，我们还可以获取下面的信息是不是觉得很容易，一行代阅读全文

posted @ 2018-04-21 21:59 耐烦不急阅读(266) 评论(0) 推荐(0) 编辑

爬虫_python3_抓取猫眼电影top100

摘要：使用urllib,request，和正则表达式，多线程进行秒抓，以及异常处理结果： D:\Anaconda3\python.exe C:/Users/Administrator/Desktop/project/test2.py {'index': '1', 'image': 'http://p1.m 阅读全文

posted @ 2018-04-02 21:37 耐烦不急阅读(329) 评论(0) 推荐(0) 编辑

爬虫_python3_urllib

摘要：urlib库为python3的HTTP内置请求库 urilib的四个模块： urllib.request:用于获取网页的响应内容 urllib.error:异常处理模块，用于处理异常的模块 urllib.parse:用于解析url urllib.robotparse:用于解析robots.txt，主阅读全文

posted @ 2018-03-31 17:30 耐烦不急阅读(404) 评论(0) 推荐(0) 编辑

爬虫5_python2_使用 Beautiful Soup 解析数据

摘要：使用 Beautiful Soup 解析数据（感谢东哥）有的小伙伴们对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这一节就让我们一起来感受一下Beautiful Soup的魅力阅读全文

posted @ 2018-03-16 20:57 耐烦不急阅读(736) 评论(0) 推荐(0) 编辑

爬虫4_python2

摘要：构造Requset 其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，构造时需要传入Url,Data等等的内容。比如上面的两行代码，我们可以这么改写: 运行结果是完全一样的，只不过中间多了一个request对象，推荐大家这么写，因为在构建请求时还需要阅读全文

posted @ 2018-03-08 17:00 耐烦不急阅读(205) 评论(0) 推荐(0) 编辑

爬虫3_python2

摘要：# coding=utf-8 import urllib params=urllib.urlencode({'t':1,'eggs':2,'bacon':0})#现在大多数网站都是动态网页，需要你动态地传递参数给它，它做出对应的响应。 print params ''' 所以，在访问时，我们需要传递数据给它。最常见的情况是什么？对了，就是登录注册的时候呀。把数据用户名和密码传送到一个URL，然后... 阅读全文

posted @ 2018-03-08 16:34 耐烦不急阅读(166) 评论(0) 推荐(0) 编辑

爬虫2_python2

摘要：# -*- coding: UTF-8 -*- # 正则表达式模块 import re # 获取路径模块 import urllib #时间模块 import time def getHtml(url): page=urllib.urlopen(url) print page.getcode() html=page.read() print html re... 阅读全文

posted @ 2018-03-08 13:55 耐烦不急阅读(214) 评论(0) 推荐(0) 编辑

爬虫1_python2

摘要：# -*- coding: UTF-8 -*- # python2爬虫 import urllib f = urllib.urlopen("http://www.itcast.cn/") print f.readline() # 读取html页面的第一行 print f.read() # ，读取源代码，该网址源代码为utf-8格式 # read(),readline(),readlines... 阅读全文

posted @ 2018-03-08 13:51 耐烦不急阅读(173) 评论(0) 推荐(0) 编辑

随笔分类 - 爬虫

公告

搜索

随笔分类 (471)

阅读排行榜

最新评论