随笔分类 - 爬虫
摘要:Scrapy 介绍:一个快速功能强大的网络爬虫框架。官网:https://scrapy.org/ Scrapy的安装 pip install scrapy #安装后小测试: scrapy -h Scrapy爬虫框架结构 数据流的三个路径 Engine从Spider处获得爬取请求(Request) E
阅读全文
摘要:信息组织与提取 信息标记: 标记后的信息可以形成信息组织结构,增加了信息维度 标记后的信息可用于通信、存储或展示的形式 标记的结构与信息一样具有重要价值 标记后的信息更有利于程序理解和运用 信息标记的三种形式 XML(扩展标记语言) 空元素的缩写形式: 注释书写形式: JSON 有类型的键值对key
阅读全文
摘要:BeautifulSoup库 概述 BeautifulSoup库(beautifulsoup4)是解析、遍历、维护、“标签树”的功能库。 官方:https://www.crummy.com/software/BeautifulSoup/ BeautifulSoup库的安装 pip install b
阅读全文
摘要:Python爬虫实列(格式为参考) import requests url = "https://item.jd.com/2967929.html" try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_enc
阅读全文
摘要:Requests库 概述 简介:Requests库是Python的第三方库。 Requests库官网:http://www.python-requests.org Requests库的安装 以管理身份运行command控制台。 pip install requests Requests库的2个重要对
阅读全文