高圈圈

2018年5月28日

摘要：工具：python3 解释：Ajax 是一种用于创建快速动态网页的技术，在无需重新加载整个网页的情况下，能够更新部分网页的技术。目标：爬取使用Ajex结束的豆瓣网页执行上述代码后，将得到的内容在json.cn中转码，出现如下错误：说明文件格式不对，没能正确转码，尝试将返回值response进行阅读全文

posted @ 2018-05-28 21:17 高圈圈阅读(699) 评论(0) 推荐(1)

爬虫（POST）——有道翻译（有bug）

摘要：工具：python3 过程：抓包得到有道翻页面的url；复制post请求头，得到headers中的信息；复制post请求的body，得到formdata中的信息。构造post请求，返回响应返回error：50 修改url，去掉_o后仍然不能得到正确的信息，，，原来，有道有反爬虫机制！哈哈哈哈，刚阅读全文

posted @ 2018-05-28 20:50 高圈圈阅读(348) 评论(0) 推荐(1)

2018年5月25日

爬虫（GET）——爬取多页的html

摘要：工具：python3 目标：将编写的代码封装，不同函数完成不同功能，爬取任意页数的html 新学语法：with open as 除了有更优雅的语法，with还可以很好的处理上下文环境产生的异常。阅读全文

posted @ 2018-05-25 17:12 高圈圈阅读(2363) 评论(0) 推荐(1)

爬虫（GET）——传递要查询的关键字

摘要：工具：python3 目标：传递关键字，爬取任意关键字的页面阅读全文

posted @ 2018-05-25 15:51 高圈圈阅读(1520) 评论(0) 推荐(1)

2018年5月24日

爬虫（GET）——add_header()和get_header()

摘要：工具：python3 阅读全文

posted @ 2018-05-24 21:12 高圈圈阅读(2115) 评论(0) 推荐(1)

爬虫（GET）——爬baidu.com主页

摘要：工具：python3 目标：www.baidu.com 工作流程： 1）反爬虫第一步：抓包工具fiddler抓取页面请求信息，得到User-Agent的值，用于重构urllib.request.Request()。 2）爬取数据 3）存储数据阅读全文

posted @ 2018-05-24 20:38 高圈圈阅读(471) 评论(0) 推荐(1)

Your courage will reward you .

公告