摘要: 爬取我爱竞赛网的大量数据 首先获取每一种比赛信息的分类链接 然后获取每一个分类连接中的总页数 最后获取每一页中各个比赛的信息 阅读全文
posted @ 2019-05-06 18:46 谋莽台 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 使用mongoDB 下载地址:https://www.mongodb.com/dr/fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.9.zip/download 百度链接:https://pan.baidu.com/s/1 阅读全文
posted @ 2019-05-06 18:44 谋莽台 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 爬取58同城 阅读全文
posted @ 2019-05-06 18:42 谋莽台 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 连续爬取多页数据 分析每一页url的关联找出联系 例如虎扑 第一页:https://voice.hupu.com/nba/1 第二页:https://voice.hupu.com/nba/2 第三页:https://voice.hupu.com/nba/3...... 这样就获得了30页的url 在 阅读全文
posted @ 2019-05-06 18:41 谋莽台 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 用BeatuifulSoup和Requests爬取猫途鹰网 服务器与本地的交换机制 我们每次浏览网页都是再向网页所在的服务器发送一个Request,然后服务器接受到Request后返回Response给网页。 当前Http1.1版本共有get、post、head、put、options、connec 阅读全文
posted @ 2019-05-06 18:40 谋莽台 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 使用BeautifulSoup解析网页 Soup = BeautifulSoup(urlopen(html),'lxml') Soup为汤,html为食材,lxml为菜谱 描述要爬取的东西在哪 选择要爬取的页面进行检查或按F12可以调出网页的源代码,对要爬取的部分可以选择copy,以当前博客首页大标 阅读全文
posted @ 2019-05-06 18:39 谋莽台 阅读(157) 评论(0) 推荐(0) 编辑