上一页 1 2 3 4 5 6 7 8 ··· 24 下一页
摘要: scrapy项目架构 -project # 项目名 -project # 跟项目一个名,文件夹 -spiders # spiders:放着爬虫 genspider生成的爬虫,都放在这下面 -__init__.py -chouti.py # 抽屉爬虫 -cnblogs.py # cnblogs 爬虫 阅读全文
posted @ 2020-04-10 18:36 Hank·Paul 阅读(403) 评论(0) 推荐(0) 编辑
摘要: scrapy 框架的安装 安装的详细过程:https://cuiqingcai.com/5421.html Windows平台 如果 pip3 install scrapy 安装不上,则执行下列步骤安装 1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel 阅读全文
posted @ 2020-04-10 17:58 Hank·Paul 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: selenium的使用 声明浏览器对象 Selenium支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackBerry等手机端的浏览器。此外,我们可以用如下方式进行初始化: from selenium import webdriver browser = w 阅读全文
posted @ 2020-04-09 21:53 Hank·Paul 阅读(239) 评论(0) 推荐(0) 编辑
摘要: selenium的介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 安装 pip 阅读全文
posted @ 2020-04-09 19:44 Hank·Paul 阅读(194) 评论(0) 推荐(0) 编辑
摘要: xpath路径 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 1、选取节点 表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点 阅读全文
posted @ 2020-04-09 10:26 Hank·Paul 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 模拟自动登录网站 import requests ret = requests.post('http://www.aa7a.cn/user.php', data={ 'username': '616564099@qq.com', 'password': 'lqz123', 'captcha': 'f 阅读全文
posted @ 2020-04-09 06:04 Hank·Paul 阅读(609) 评论(0) 推荐(0) 编辑
摘要: 爬虫的规定 Robots协议 网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守 Robots协议:在网页的根目录+/robots.txt 如www.baidu.com/robots.txt Robots协议的基本语法: #*代表所有,/代表根目录 User-agent: 阅读全文
posted @ 2020-04-09 01:22 Hank·Paul 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: 单链表 class Hero(): def __init__(self,num=None,name=None,nickname=None,pNext=None): self.num = num self.name = name self.nickname = nickname self.pNext 阅读全文
posted @ 2020-04-09 01:19 Hank·Paul 阅读(134) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/liuqingzheng/articles/9079192.html 官方文档 阅读全文
posted @ 2020-04-09 01:16 Hank·Paul 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 爬取糗事百科,微信自动发送 # https://www.qiushibaike.com/text/ # https://www.qiushibaike.com/text/page/1/ import requests from bs4 import BeautifulSoup ret=request 阅读全文
posted @ 2020-04-09 01:12 Hank·Paul 阅读(207) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 24 下一页