随笔分类 - Web spider

爬虫系列之豆瓣图书排行

摘要：豆瓣上有图书的排行榜，所以这次写了一个豆瓣的爬虫。首先是分析排行榜的url 根据这个可以很容易的知道不同图书的排行榜就是在网站后面加上/tag/【类别】，所以我们首先要获得图书的类别信息。这里可以将读书首页的热门标签给爬下来。爬取标签内容并不难，代码如下：接下来是进入排行榜页面进行信息爬取，阅读全文

posted @ 2018-06-15 20:28 Kayden_Cheung 阅读(1257) 评论(1) 推荐(0) 编辑

爬虫系列之股票信息爬取

摘要：1. 总述慕课中这段代码的功能是首先从东方财富网上获得所有股票的代码，再利用我们所获得的股票代码输入url中进入百度股票页面爬取该只股票的详细信息。 2. 具体分析 2.1 获取源码这段代码的功能就是使用requests库直接获得网页的所有源代码。 2.2 获取股票代码在源码中可以看到每支股票阅读全文

posted @ 2018-05-28 13:34 Kayden_Cheung 阅读(2108) 评论(0) 推荐(0) 编辑

爬虫系列之淘宝商品爬取

摘要：1 import re 2 import requests 3 4 def getHTMLText(url): 5 try: 6 r = requests.get(url, timeout = 30) 7 r.raise_for_status() 8 r.encoding = r.apparent_encoding 9 ... 阅读全文

posted @ 2018-05-25 18:06 Kayden_Cheung 阅读(1312) 评论(0) 推荐(0) 编辑

爬虫系列之BeautifulSoup

摘要：BeautifulSoup是处理爬虫的一个强大工具，在HTML页面中，是由各种标签构成的，BeautifulSoup的功能就是从标签下手的，它是解析、遍历、维护“标签树”的功能库。 BeautifulSoup的基本元素如下： 1. 基本格式如下：解析效果如下： 2. 具体使用方法如下： 3. 标签阅读全文

posted @ 2018-05-24 18:35 Kayden_Cheung 阅读(271) 评论(0) 推荐(0) 编辑

爬虫系列之requests

摘要：爬取百度内容：在URL中填上http://www.baidu.com/s?wd=keyword，keyword就是我们要百度搜索的内容，在requests中有params参数，可以把参数追加到URL中。爬取图片阅读全文

posted @ 2018-04-27 21:33 Kayden_Cheung 阅读(265) 评论(0) 推荐(0) 编辑

公告

昵称： Kayden_Cheung
园龄： 8年4个月
粉丝： 80
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

Kayden_Cheung's Blog

对未来的真正慷慨，是把一切献给现在。

随笔分类 - Web spider

公告

搜索

常用链接

积分与排名

随笔分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论