Loading

随笔分类 -  Python-爬虫

摘要:最近在使用scrapy框架时总是会遇到一下坑,发现这篇博客总结的很好记录一下。。。。 https://www.cnblogs.com/sjfeng1987/p/10601273.html 阅读全文
posted @ 2021-06-24 15:07 就学45分钟 阅读(35) 评论(0) 推荐(0) 编辑
摘要:Scrapy项目运行和debug断点调试 在项目的文件夹下增加一个文件debug.py #debug.py from scrapy.cmdline import execute import os import sys # 添加当前项目的绝对地址 sys.path.append(os.path.di 阅读全文
posted @ 2021-04-23 11:15 就学45分钟 阅读(181) 评论(0) 推荐(0) 编辑
摘要:反爬虫系列 Scrapy爬虫搞定随机User-Agent fake_useragent是github上的开源项目,官网 fake-useragent 爬虫过程中的反爬措施非常重要,其中设置随机 User-Agent 是一项重要的反爬措施 比较流行的办法还是在配置文件中手动添加一些 UA,然后通过 r 阅读全文
posted @ 2021-04-08 16:11 就学45分钟 阅读(504) 评论(0) 推荐(0) 编辑
摘要:今日内容 1.安装与配置 2.创建项目 # scrapy scrapy startproject 项目名 #创建项目 scrapy genspider 文件名 baidu.com #创建爬虫 #运行 scrapy crawl 文件名 scrapy crawl 文件名 --nolog #运行命令 no 阅读全文
posted @ 2020-09-29 21:41 就学45分钟 阅读(145) 评论(0) 推荐(0) 编辑
摘要:多线程爬虫 今日内容 1. 并发与并行(**) 2. 多线程导致数据的不安全(**) --> 理解不了, 那就记住结论(多线程共同操作数据会导致数据不安全) 3. 多线程爬虫架构(*****) 4. 多线程爬虫的代码(*****) 1.并发与并行 1.并发: 在同一时间段内, 所有任务同时运行. 2 阅读全文
posted @ 2020-09-29 21:28 就学45分钟 阅读(283) 评论(0) 推荐(0) 编辑
摘要:###BeautifulSoup 1.BeautifulSoup库介绍(了解) # BeautifulSoup库介绍: BeautifulSoup也是一个解析库 BS解析数据是依赖解析器的, BS支持的解析器有html.parser, lxml, xml, html5lib等, 其中lxml解析器解 阅读全文
posted @ 2020-09-29 21:26 就学45分钟 阅读(133) 评论(0) 推荐(0) 编辑
摘要:lxml库 #编码流程 #导包 from lxml import etree #请求 res=requests.get() #解析的是一个html文件 #实例化,加载响应数据 tree=etree.HTML(res.text) #etree 加载的是响应数据的文本形式 #调用xpath解析数据 获取 阅读全文
posted @ 2020-09-29 21:19 就学45分钟 阅读(135) 评论(0) 推荐(0) 编辑
摘要:1.requests模块发送post请求 #代码示例 编写一个小翻译器 # 导包 import requests def translate(kw): # 缺定url 发起请求 获取响应 url = 'https://fanyi.baidu.com/sug' data = { "kw":kw } # 阅读全文
posted @ 2020-09-29 21:07 就学45分钟 阅读(314) 评论(0) 推荐(0) 编辑
摘要:open (文件名,访问模式) 示例如下: f = open("1.txt","w") r 以读方式打开文件,文件的指针将会放在文件的开头,这是默认模式 w 打开一个文件夹用于写入,如果该文件已存在则将其覆盖,如果该文加不存在,创建文件夹 a 打开一个文件夹用于追加,如果该文件已存在,文件指针将会放 阅读全文
posted @ 2020-09-29 21:00 就学45分钟 阅读(105) 评论(0) 推荐(0) 编辑
摘要:爬虫 1、爬虫的概念 什么是爬虫 爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 爬虫分类 通用爬虫 通用网络爬虫:是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 工作原理: 聚焦爬虫 聚焦爬虫:聚焦 阅读全文
posted @ 2020-09-29 20:57 就学45分钟 阅读(190) 评论(0) 推荐(0) 编辑
摘要:虚拟环境 一、为什么安装虚拟环境 问题: 如果在一台电脑上, 想开发多个不同的项目, 需要用到同一个包的不同版本, 如果使用上面的命令, 在同一个目录下安装或者更新, 新版本会覆盖以前的版本, 其它的项目就无法运行了. 解决办法: 虚拟环境 虚拟环境可以搭建独立的python运行环境, 使得单个项目 阅读全文
posted @ 2020-09-29 20:54 就学45分钟 阅读(143) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示