随笔分类 -  爬虫

摘要:scrapy架构介绍 # 引擎(EGINE) 引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分。 # 调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来 阅读全文
posted @ 2022-12-07 21:47 dy12138 阅读(45) 评论(0) 推荐(0) 编辑
摘要:1 xpath的使用 # html中选择标签,可以使用的通用方式 css选择 xpath选择 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言 # 语法的简单介绍 nodename 选取此节点的所有子节点 -/ 从根节点选取 /body 阅读全文
posted @ 2022-12-06 21:24 dy12138 阅读(37) 评论(0) 推荐(0) 编辑
摘要:1 bs4搜索文档树 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdfa 阅读全文
posted @ 2022-12-06 21:23 dy12138 阅读(37) 评论(0) 推荐(0) 编辑
摘要:一、request高级用法 1.1 ssl认证 # 证书验证(大部分网站都是https) import requests res = requests.get('https://www.12306.cn') # 如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端 # 改进1:去掉报错,但 阅读全文
posted @ 2022-11-24 21:25 dy12138 阅读(97) 评论(0) 推荐(0) 编辑
摘要:一、爬虫介绍 # 爬虫介绍: 网络爬虫(webcrawler)又称为网络蜘蛛(webspider)或网络机器人(webrobot),另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或蠕虫,同时它也是“物联网”概念的核心之一。网络爬虫本质上是一段计算机程序或脚本,其按照一定的逻辑和算法规则自动地抓取 阅读全文
posted @ 2022-11-23 20:37 dy12138 阅读(443) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示