上一页 1 ··· 20 21 22 23 24
摘要: 工具:python3 解释:Ajax 是一种用于创建快速动态网页的技术,在无需重新加载整个网页的情况下,能够更新部分网页的技术。 目标:爬取使用Ajex结束的豆瓣网页 执行上述代码后,将得到的内容在json.cn中转码,出现如下错误: 说明文件格式不对,没能正确转码,尝试将返回值response进行 阅读全文
posted @ 2018-05-28 21:17 高圈圈 阅读(656) 评论(0) 推荐(1) 编辑
摘要: 工具:python3 过程:抓包得到有道翻页面的url;复制post请求头,得到headers中的信息;复制post请求的body,得到formdata中的信息。构造post请求,返回响应 返回error:50 修改url,去掉_o后仍然不能得到正确的信息,,,原来,有道有反爬虫机制! 哈哈哈哈,刚 阅读全文
posted @ 2018-05-28 20:50 高圈圈 阅读(332) 评论(0) 推荐(1) 编辑
摘要: 工具:python3 目标:将编写的代码封装,不同函数完成不同功能,爬取任意页数的html 新学语法:with open as 除了有更优雅的语法,with还可以很好的处理上下文环境产生的异常。 阅读全文
posted @ 2018-05-25 17:12 高圈圈 阅读(2340) 评论(0) 推荐(1) 编辑
摘要: 工具:python3 目标:传递关键字,爬取任意关键字的页面 阅读全文
posted @ 2018-05-25 15:51 高圈圈 阅读(1497) 评论(0) 推荐(1) 编辑
摘要: 工具:python3 阅读全文
posted @ 2018-05-24 21:12 高圈圈 阅读(2088) 评论(0) 推荐(1) 编辑
摘要: 工具:python3 目标:www.baidu.com 工作流程: 1)反爬虫第一步:抓包工具fiddler抓取页面请求信息,得到User-Agent的值,用于重构urllib.request.Request()。 2)爬取数据 3)存储数据 阅读全文
posted @ 2018-05-24 20:38 高圈圈 阅读(440) 评论(0) 推荐(1) 编辑
上一页 1 ··· 20 21 22 23 24