爬虫 - 随笔分类 - dy12138

【2022-12-07】爬虫从入门到入狱(五)

摘要：scrapy架构介绍 # 引擎(EGINE) 引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。有关详细信息，请参见上面的数据流部分。 # 调度器(SCHEDULER) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来阅读全文

posted @ 2022-12-07 21:47 dy12138 阅读(74) 评论(0) 推荐(0)

【2022-12-06】爬虫从入门到入狱(四)

摘要：1 xpath的使用 # html中选择标签，可以使用的通用方式 css选择 xpath选择 XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言 # 语法的简单介绍 nodename 选取此节点的所有子节点 -/ 从根节点选取 /body 阅读全文

posted @ 2022-12-06 21:24 dy12138 阅读(64) 评论(0) 推荐(0)

【2022-12-06】爬虫从入门到入狱(三)

摘要：1 bs4搜索文档树 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p id="my p" class="title">asdfa 阅读全文

posted @ 2022-12-06 21:23 dy12138 阅读(68) 评论(0) 推荐(0)

【2022-11-24】爬虫从入门到入狱(二)

摘要：一、request高级用法 1.1 ssl认证 # 证书验证(大部分网站都是https) import requests res = requests.get('https://www.12306.cn') # 如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端 # 改进1:去掉报错,但阅读全文

posted @ 2022-11-24 21:25 dy12138 阅读(145) 评论(0) 推荐(0)

【2022-11-23】爬虫从入门到入狱(一)

摘要：一、爬虫介绍 # 爬虫介绍：网络爬虫（webcrawler）又称为网络蜘蛛（webspider）或网络机器人（webrobot），另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或蠕虫，同时它也是“物联网”概念的核心之一。网络爬虫本质上是一段计算机程序或脚本，其按照一定的逻辑和算法规则自动地抓取阅读全文

posted @ 2022-11-23 20:37 dy12138 阅读(470) 评论(0) 推荐(0)

dy12138

随笔分类 - 爬虫

公告