摘要: 1.背景 一般我们进行小说网的爬取,大致思路都是先获取小说网页的html内容,然后使用正则表达式找到对应的章节以及其对应的url。BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(na 阅读全文
posted @ 2018-05-23 22:42 呆瓜真是呆 阅读(3451) 评论(0) 推荐(1) 编辑
摘要: 一.用Charles爬取数据 Charles是一个多平台的抓包工具,可以很方便的抓取http和https数据。 1.抓取数据 抓取数据前我们首先要清楚,由于有道词典的翻译使用的是post请求,所以我们要抓取的信息有:url链接、request headers(请求头)、format data(数据表 阅读全文
posted @ 2018-05-18 13:11 呆瓜真是呆 阅读(2985) 评论(2) 推荐(0) 编辑