随笔分类 -  Web spider

摘要:豆瓣上有图书的排行榜,所以这次写了一个豆瓣的爬虫。 首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/【类别】,所以我们首先要获得图书的类别信息。 这里可以将读书首页的热门标签给爬下来。 爬取标签内容并不难,代码如下: 接下来是进入排行榜页面进行信息爬取, 阅读全文
posted @ 2018-06-15 20:28 Kayden_Cheung 阅读(1254) 评论(1) 推荐(0) 编辑
摘要:1. 总述 慕课中这段代码的功能是首先从东方财富网上获得所有股票的代码,再利用我们所获得的股票代码输入url中进入百度股票页面爬取该只股票的详细信息。 2. 具体分析 2.1 获取源码 这段代码的功能就是使用requests库直接获得网页的所有源代码。 2.2 获取股票代码 在源码中可以看到每支股票 阅读全文
posted @ 2018-05-28 13:34 Kayden_Cheung 阅读(2101) 评论(0) 推荐(0) 编辑
摘要:1 import re 2 import requests 3 4 def getHTMLText(url): 5 try: 6 r = requests.get(url, timeout = 30) 7 r.raise_for_status() 8 r.encoding = r.apparent_encoding 9 ... 阅读全文
posted @ 2018-05-25 18:06 Kayden_Cheung 阅读(1312) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup是处理爬虫的一个强大工具,在HTML页面中,是由各种标签构成的,BeautifulSoup的功能就是从标签下手的,它是解析、遍历、维护“标签树”的功能库。 BeautifulSoup的基本元素如下: 1. 基本格式如下: 解析效果如下: 2. 具体使用方法如下: 3. 标签 阅读全文
posted @ 2018-05-24 18:35 Kayden_Cheung 阅读(269) 评论(0) 推荐(0) 编辑
摘要:爬取百度内容: 在URL中填上http://www.baidu.com/s?wd=keyword,keyword就是我们要百度搜索的内容,在requests中有params参数,可以把参数追加到URL中。 爬取图片 阅读全文
posted @ 2018-04-27 21:33 Kayden_Cheung 阅读(264) 评论(0) 推荐(0) 编辑

//目录
点击右上角即可分享
微信分享提示