爬虫 - 随笔分类 - ShineLe

Python：lxml

摘要：学习自： python3解析库lxml - Py.qi - 博客园 lxml官方文档 lxml官方文档——lxml中的类、方法使用，如果需要查看某些方法的具体用法，就到这个网页下 python爬虫系列--lxml（etree/parse/xpath)的使用 0、简介 lxml是Python的一个解析阅读全文

posted @ 2021-04-18 11:20 ShineLe 阅读(679) 评论(0) 推荐(0)

Python：爬取一个可下载的PDF链接并保存为本地pdf文件

摘要：问题：网页http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2中有一个PDF需要下载，开发者模式下该PDF的链接为http://gk.chengdu.gov.cn/uploadfiles/07180246020404/20200 阅读全文

posted @ 2021-04-09 17:52 ShineLe 阅读(4769) 评论(0) 推荐(0)

Python：Scrap爬虫过程中遇到的各种错误

摘要：1、KeyError: 'Spider not found: BDS' 原因：settings.py中缺少了几项与spider名字配置相关的项： BOT_NAME = 'BDS' SPIDER_MODULES = ['County.spiders'] NEWSPIDER_MODULE = 'Coun 阅读全文

posted @ 2021-04-08 16:49 ShineLe 阅读(327) 评论(0) 推荐(0)

Scrapy（五）：Response与Request、数据提取、Selector、Pipeline

摘要：学习自Requests and Responses — Scrapy 2.5.0 documentation Request在Spider中生成，被Downloader执行，之后会得到网页的Response 1、Request 1）构造 scrapy.http.Request(*args,**kw) 阅读全文

posted @ 2021-04-06 19:51 ShineLe 阅读(979) 评论(0) 推荐(0)

Python：Scrapy（四）命令行相关

摘要：学习自Scrapy 2.4.1 documentation 这一部分是对官方文档的学习，主要是理解翻译，来对之前的应用部分进行详细的理论补充。 1、保存爬取到的要素的方式： ①运行scrapy指令时，添加参数-o、-O；（大小写字母o而不是数字） ②写Pipelines.py进行更详细的要素输出；阅读全文

posted @ 2021-04-05 23:54 ShineLe 阅读(221) 评论(0) 推荐(0)

Python：输入关键字进行百度搜索并爬取搜索结果

摘要：学习自：手把手教你用Python爬取百度搜索结果并保存 - 云+社区 - 腾讯云如何利用python模拟百度搜索,Python交流,技术交流区,鱼C论坛指定关键字，对其进行百度搜索，保存搜索结果，记录下搜索的内容和标题思路：首页：https://www.baidu.com/s?wd=* （将阅读全文

posted @ 2021-04-05 21:58 ShineLe 阅读(5252) 评论(0) 推荐(1)

Python：Scrapy（三）进阶：额外的一些类ItemLoader与CrawlSpider，使用原理及总结

摘要：学习自：Python Scrapy 爬虫框架实例（一） - Blue·Sky - 博客园这一节是对前两节内容的补充，涉及内容为一些额外的类与方法，来对原代码进行改进原代码：这里并没有用前两节的代码，而是用了另一个爬虫的代码，作用是爬取千图网的图片信息。该爬虫的基本信息：项目名：AdilCraw 阅读全文

posted @ 2021-04-05 15:39 ShineLe 阅读(220) 评论(0) 推荐(0)

XPath

摘要：学习自： XPath官方文档 XPath 教程 lxml+Xpath实现爬虫ck784101777的博客-CSDN博客 0、简介 XPath是一门在XML文档中查找信息的语言。 Xpath可以用于在XML文档中对元素和属性进行遍历。 XPath是W3C XSLT标准的主要元素，并且XQuery和XP 阅读全文

posted @ 2021-03-30 18:51 ShineLe 阅读(203) 评论(0) 推荐(0)

在用Scrapy进行爬虫时碰到的错误

摘要：1、module() takes at most 2 arguments (3 given) 解决方法：导入Spider类时，是from scrapy import Spider而不是from scrapy.spiders import Spider；个人猜测可能是因为Python2和3版本差异引起阅读全文

posted @ 2021-03-30 10:50 ShineLe 阅读(373) 评论(0) 推荐(0)

Python：Scrapy（二）实例分析与总结、写一个爬虫的一般步骤

摘要：学习自：Scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250 - 知乎 Python Scrapy 爬虫框架实例（一） - Blue·Sky - 博客园 1、声明Item 爬虫爬取的目标是从非结构性的数据源提取结构性的数据，例如网页。Spider可以以Dict类型来返回提取的数据。然而，虽然阅读全文

posted @ 2021-03-29 23:46 ShineLe 阅读(702) 评论(0) 推荐(0)

Python：Scrapy（一）基础知识与实例

摘要：学习自： Scrapy爬虫框架教程（一）-- Scrapy入门 - 知乎 Scrapy爬虫框架，入门案例（非常详细）_ck784101777的博客-CSDN博客_scrapy爬虫案例爬虫框架Scrapy个人总结（详细）熟悉 - 简书本章介绍Scrapy使用时的基本要素构成。 1、简介 Scrap 阅读全文

posted @ 2021-03-26 22:02 ShineLe 阅读(609) 评论(0) 推荐(0)

2020.10.20 利用POST请求模拟登录知乎

摘要：前两天学习了Python的requests模块的相关内容，对于用GET和PSOT请求访问网页以抓取需要的内容有了初步的了解，想要再从一些复杂的网站积累些经验。最开始我采用最简单的get(url)方法想要抓取知乎热搜的标题，想着是个很简单的任务。但是耗费了我五天的时间才堪堪解决模拟登录知乎的问题，期间阅读全文

posted @ 2020-10-21 19:58 ShineLe 阅读(1662) 评论(1) 推荐(2)

利用POST请求模拟登录豆瓣

摘要：需要用requests库豆瓣上次更新后，就不能通过直接的requests.post()方式直接传递参数登录了。必须新建session，先GET请求，然后POST才能成功。原因未知 data参数中的四个Key-Value的顺序任意 import requests url='https://accou 阅读全文

posted @ 2020-10-17 16:05 ShineLe 阅读(446) 评论(0) 推荐(0)

requests

摘要：requests。它是一个Python第三方库，处理URL资源特别方便。 GET 用with语句块通过GET访问一个网页 import requests url='https://www.python.org' with requests.get('https://www.python.org') 阅读全文

posted @ 2020-10-16 13:01 ShineLe 阅读(86) 评论(0) 推荐(0)

Python:HTTP请求头headers信息的查询

摘要：GET和POST请求后会返回一个response对象，可通过key、values等访问字典中元素的方式来访问该response对象headers中的各种属性 r=requests.get(url,headers={'User-Agent':'...'}) for key,value in r.hea 阅读全文

posted @ 2020-10-16 12:52 ShineLe 阅读(1326) 评论(0) 推荐(0)

两种方式提取网页信息——爬虫初步

摘要：问题：对网页Python会议，用浏览器查看源码；尝试解析HTML，输出Python官网发布的会议时间、名称和地点准备工作： ①打开网页后，需要提取的信息 ②按F12进入开发者模式，找到这部分的源代码 <li> <h3 class="event-title"><a href="/events/pyt 阅读全文

posted @ 2020-10-13 11:01 ShineLe 阅读(2425) 评论(0) 推荐(0)

urllib(补充)

摘要：urllib提供了一系列用于操作URL的功能。 GET urllib的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应：例如，对豆瓣的一个URL https://api.douban.com/v2/book/2129650 进行抓取，并返阅读全文

posted @ 2020-10-12 16:22 ShineLe 阅读(137) 评论(0) 推荐(0)

urllib-访问网页的两种方式：GET与POST

摘要：学习自：https://www.jianshu.com/p/4c3e228940c8 使用参数、关键字访问服务器访问网络的两种方法： 1、GET 利用参数给服务器传递信息参数data为dict类型，然后用parse.urlencode()编码为str类型，用编码后的data+baseURL构成完阅读全文

posted @ 2020-10-12 15:59 ShineLe 阅读(2285) 评论(0) 推荐(0)

ShineLee

随笔分类 - 爬虫

公告