随笔分类 -  python爬虫

摘要:#尚硅谷当当网爬取#dangpy.pyimport scrapyfrom scrapy_dangdang.items import ScrapyDangdangItemclass DangpySpider(scrapy.Spider): name = 'dangpy' #如果多页下载,要调整允许域名 阅读全文
posted @ 2022-04-05 13:46 wzc6 阅读(93) 评论(0) 推荐(0) 编辑
摘要:https://www.bilibili.com/video/BV1Yh411o7Sz?p=60&spm_id_from=pageDriver#scrapy框架'''什么是框架? 集成了很多功能并且具有很强通用性的一个项目模板如何学习框架? 专门学习框架封装的各种功能的详细用法什么是scrapy? 阅读全文
posted @ 2022-03-29 19:29 wzc6 阅读(47) 评论(0) 推荐(0) 编辑
摘要:#能不能让我的程序连接到浏览器,让浏览器完成各种复杂操作,我们只接受最终结果,不然人家一加密,你人傻了#selenium:自动化测试工具#可以打开浏览器,像人一样操纵浏览器#我们可以从selenum中直接提取网页中的各种信息#环境搭建:pip install selenium -i 清华源# 下载浏 阅读全文
posted @ 2022-03-25 16:30 wzc6 阅读(106) 评论(0) 推荐(0) 编辑
摘要:原地址:https://pythonav.com/wiki/detail/6/91/ 视频:https://www.bilibili.com/video/BV1dD4y127bD?p=7 import asyncioasync def func(): print(1) await asyncio.s 阅读全文
posted @ 2022-03-21 19:55 wzc6 阅读(59) 评论(0) 推荐(0) 编辑
摘要:import timedef func(): print('i love dawn') time.sleep(3)#让当前线程处于阻塞状态,cpu暂时不为此工作 print('i love dawn true')if __name__ == '__main__': func()# input()程序 阅读全文
posted @ 2022-03-19 18:44 wzc6 阅读(195) 评论(0) 推荐(0) 编辑
摘要:#多线程,多进程#进程:资源单位,线程:执行单位,每一个进程至少要有一个线程#启动一个程序默认都会有一个主线程#多线程#第一套写法'''from threading import Threaddef func(): for i in range(1000): print('func',i)t=Thr 阅读全文
posted @ 2022-03-18 18:47 wzc6 阅读(65) 评论(0) 推荐(0) 编辑
摘要:#登录得到cookie#带着cookie去请求到书架,得到书架上的内容#把上面两个操作连起来#使用session进行请求,session可以认为是一连串的请求,在此过程中cookie不会丢失,cookie相当于一种信物,让网站知道你是谁,而requests是一次性的,会丢失cookieimport 阅读全文
posted @ 2022-03-17 18:57 wzc6 阅读(81) 评论(0) 推荐(0) 编辑
摘要:''''#xpath是在xml文档中搜索内容的一门语言#xml是html的母集#安装lxml模块 pip install lxml -ixpath解析 '''from lxml import etreexml='''...'''#tree=etree.parse()#加载一个文件tree=etree 阅读全文
posted @ 2022-03-16 16:33 wzc6 阅读(45) 评论(0) 推荐(0) 编辑
摘要:'''bs4进行数据解析数据解析的原理:-1.标签定位- 2.提取标签、标签属性中存储的数据值bs4数据解析的原理:- 1.实例化一个BeautifuLSoup对象,并且将页面源码数据加载到该对象中- 2.通过调用BeautifuLSoup对象中相关的属性或者方法进行标签定位和数据-环境安装: pi 阅读全文
posted @ 2022-03-14 20:33 wzc6 阅读(226) 评论(0) 推荐(0) 编辑
摘要:聚焦爬虫:爬取页面中指定的页面内容 编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析分类 正则 bs4 xpath(***)通用性强 数据解析原理概述: 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 进行指定标签定位 标签或者标签对应的属性中存储的数据 阅读全文
posted @ 2022-03-12 20:10 wzc6 阅读(144) 评论(0) 推荐(0) 编辑
摘要:'''requests模块:python中原生的一款基于网络请求的模块作用:模拟浏览器发请求如何使用:requests模块编码流程 指定url 发起请求 获取响应数据 持久化存储环境安装:pip install requests实战编码: 需求:搜狗首页页面数据 实战巩固需求:爬取搜狗指定词条对应的 阅读全文
posted @ 2022-03-10 20:47 wzc6 阅读(74) 评论(0) 推荐(0) 编辑
摘要:#什么是爬虫:编写程序模拟浏览器上网,让其去互联网抓取数据过程#爬虫的价值:实际应用,就业'''爬虫究竟是合法还是违法的?在法律中是不被禁止具有违法风险善意爬虫恶意爬虫爬虫带来的风险可以体现在如下2方面:爬虫干扰了被访问网站的正常运营爬虫抓取了收到法律保护的特定类型的数据或信息如何在使用编写爬虫的过 阅读全文
posted @ 2022-03-10 20:15 wzc6 阅读(87) 评论(0) 推荐(0) 编辑
摘要:常见语法 content = '''苹果是绿色的 橙子是橙色的 香蕉是黄色的 乌鸦是黑色的''' import re p = re.compile(r'.色') for one in p.findall(content): print(one) 运行结果如下 字符串前+r表示对字符串不进行任何pyt 阅读全文
posted @ 2022-02-18 01:01 wzc6 阅读(85) 评论(0) 推荐(0) 编辑