随笔分类 -  python爬虫

摘要:基于requests模块发起ajax的post请求 需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定某个城市地点的餐厅数据 点击肯德基餐厅查询页面 输入北京点击查询是一个提交form表单,异步ajax的post请求,使用抓包工具抓取请求 基 阅读全文
posted @ 2019-08-23 17:24 minger_lcm 阅读(7908) 评论(1) 推荐(2) 编辑
摘要:基于requests模块发起ajax的get请求 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面 阅读全文
posted @ 2019-08-19 23:28 minger_lcm 阅读(4067) 评论(0) 推荐(0) 编辑
摘要:需求:爬取搜狗首页的页面数据 requests模块如何处理携带参数的get请求,返回携带参数的请求 需求:指定一个词条,获取搜狗搜索结果所对应的页面数据 之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码 发起带参数的get请求 params可以是传字典或 阅读全文
posted @ 2019-08-19 18:41 minger_lcm 阅读(1535) 评论(0) 推荐(0) 编辑
摘要:urllib模块发起的POST请求 案例:爬取百度翻译的翻译结果 1.通过浏览器捉包工具,找到POST请求的url 针对ajax页面请求的所对应url获取,需要用到浏览器的捉包工具。查看百度翻译针对某个字条发送ajax请求,所对应的url 点击clear按钮可以把抓包工具,所抓到请求清空 然后填上翻 阅读全文
posted @ 2019-08-18 15:59 minger_lcm 阅读(5562) 评论(0) 推荐(0) 编辑
摘要:requests模块(response常用属性) 基于requests模块的get请求 基于requests模块发起ajax的get请求 基于requests模块发起ajax的post请求 阅读全文
posted @ 2019-08-17 22:19 minger_lcm 阅读(353) 评论(0) 推荐(0) 编辑
摘要:response常用属性 阅读全文
posted @ 2019-08-17 22:18 minger_lcm 阅读(1563) 评论(0) 推荐(0) 编辑
摘要:方法: 使用urlencode函数 urllib.request.urlopen() 开发者工具浏览器按F12或者右键按检查 ,有个抓包工具network,刷新页面,可以看到网页资源,可以看到请求头信息,UA 在抓包工具点击任意请求,可以看到所有请求信息,向应信息, 主要用到headers,resp 阅读全文
posted @ 2019-08-17 16:01 minger_lcm 阅读(879) 评论(0) 推荐(0) 编辑
摘要:案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦’的页面数据) 编码错误 【注意】上述代码中url存在非ascii编码的数据,则该url无效。如果对其发起请求,则会报如下错误: url的特性:url不可以存在非ASCII编码字符数据,url必须为ASCII编码的数据值。所以我们 阅读全文
posted @ 2019-08-14 16:32 minger_lcm 阅读(644) 评论(0) 推荐(0) 编辑
摘要:python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块 反爬虫机制UA python 爬虫 urllib模块 发起post请求 阅读全文
posted @ 2019-08-11 18:10 minger_lcm 阅读(166) 评论(0) 推荐(0) 编辑
摘要:一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 针对指 阅读全文
posted @ 2019-08-11 18:09 minger_lcm 阅读(681) 评论(0) 推荐(0) 编辑
摘要:爬虫 介绍 python 爬虫 urllib模块 python 爬虫 requests模块 阅读全文
posted @ 2019-08-11 18:02 minger_lcm 阅读(175) 评论(0) 推荐(0) 编辑
摘要:网络爬虫的介绍 网络爬虫的介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。这个过程也是爬取数据过程 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多 阅读全文
posted @ 2019-08-11 18:01 minger_lcm 阅读(400) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示