随笔分类 -  Python网络爬虫与信息提取

摘要:[A]股票数据定向爬虫实例介绍 功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 候选网站: 1. 新浪股票:https://finance.sina.com.cn/ 2. 百度股票:https://gupiao.baidu.com/stock/ 候选网站选取: 选取原 阅读全文
posted @ 2020-11-22 10:59 CarreyB 阅读(195) 评论(0) 推荐(0) 编辑
摘要:[A] 淘宝商品比价定向爬虫实例介绍 功能描述 目标: 获取淘宝搜索页面的信息,提取其中的商品名称和价格 分析: 1. 淘宝的搜索接口, 2. 翻页处理 技术路线: requests,re 程序结构设计: 步骤1:提交商品搜索请求,循环获取页面 步骤2:对于每个页面,提取商品名称和价格信息 步骤3: 阅读全文
posted @ 2020-11-21 13:46 CarreyB 阅读(353) 评论(0) 推荐(0) 编辑
摘要:[A] 待续 阅读全文
posted @ 2020-11-21 13:44 CarreyB 阅读(87) 评论(0) 推荐(0) 编辑
摘要:[A] 中国大学排名定向爬虫实例介绍 功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:request,bs4 定向爬虫:仅对输入URL进行爬取,不拓展爬取 程序的结构设计: 步骤1:从网络上获取大学排名网页内容 定义函数:getHTMLText() 阅读全文
posted @ 2020-11-19 21:25 CarreyB 阅读(398) 评论(0) 推荐(0) 编辑
摘要:[A] 信息标记的三种形式 信息标记:通过网络爬虫,我们可以获取各式各样的信息,比如地址信息,姓名信息,日期信息,年代信息等,这些信息会很冗杂 通过对信息的标记,可以帮助我们更好的组织和管理这些信息 信息标记的好处: 1. 标记后的信息可形成信息组织结构,增加了信息维度 2. 标记后的信息可用于通信 阅读全文
posted @ 2020-11-17 17:07 CarreyB 阅读(173) 评论(0) 推荐(0) 编辑
摘要:Beautiful Soup库的中文文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html# [A] Beautiful Soup库简介 Beautiful Soup库,也叫 beautifulsoup4 库 或 阅读全文
posted @ 2020-11-16 22:27 CarreyB 阅读(160) 评论(0) 推荐(0) 编辑
摘要:[A] 京东商品页面的爬取 代码示例: import requests url = 'https://item.jd.com/70076567438.html' try: r = requests.get(url) r.raise_for_status() r.encoding = r.appare 阅读全文
posted @ 2020-11-16 12:15 CarreyB 阅读(146) 评论(0) 推荐(0) 编辑
摘要:[A] 网络爬虫引发的问题 1. 当前网络爬虫根据规模可分为三种: 1. 小型规模,主要用于爬取网页,玩转网页,数据量小,并且对于爬取速度不敏感,这种爬虫可以直接通过Python提供的第三方库Requests即可实现 2. 中等规模,主要用于爬取网站,系列网站,数据量大,并且对于爬取速度有敏感性,如 阅读全文
posted @ 2020-11-16 10:23 CarreyB 阅读(135) 评论(0) 推荐(0) 编辑
摘要:[A] Requests库的安装 Pycharm中自行安装第三方库 [B] Requests库的七个主要方法 方法 说明 requests.request() 构造一个请求,支持一下个方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的get方法 request 阅读全文
posted @ 2020-11-15 21:26 CarreyB 阅读(214) 评论(0) 推荐(0) 编辑
摘要:[A] 主要课程内容 1. 学习 Requests 库:自动爬取HTML页面,自动发送完网络请求 2. 学习 robots.txt :网络爬虫排除标准 3. 学习 Becautiful Soup 库:能很好的解析HTML页面,并且提取相关信息 4. 实战项目A/B Projects 5. 学习正则表 阅读全文
posted @ 2020-11-15 13:45 CarreyB 阅读(76) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示