随笔分类 - 爬虫入门到入狱
爬虫基本相关知识
摘要:一、scrapy介绍和安装 # requests,selenium,bs4(模块) >专业爬虫:爬虫框架(scrapy),在固定位置写固定代码,就能完成爬虫的功能 # Scrapy是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式
阅读全文
摘要:一、 xpath的基本使用 简介:XPath 是一门在 XML 文档中查找信息的语言 # 一般解析库都会有子的的搜索标签的方法,一般都会支持css和xpath # 一般使用: div 找div标签 / 找当前路径下的标签 /div/a // 找当前路径子子孙孙下的标签 -/div//a . 表示当前
阅读全文
摘要:一、 selenium基本使用 # 由于requests不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有 》selenium模块:模拟操作浏览器,完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScrip
阅读全文
摘要:一、 BeautifulSoup4 介绍 # (1)Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # (2)使用requests发请求拿回来的html,就可以使用bs4解析出咱们想要的数据 # (3)BeautifulSoup(要解析的字符串, "解析方式
阅读全文
摘要:一、 代理 1使用代理发送requests请求 import requests proxies = { 'http': '112.14.47.6:52024', } # 180.164.66.7 respone=requests.get('https://www.cnblogs.com/',prox
阅读全文
摘要:1 爬虫介绍 # 所有的软件,90%以上,cs,bs,主流都是用http协议通信,模拟发送http请求 》服务端把数据返回(html,xml,json) >数据的清洗(re,bs4) >入库(文件,mysql,redis,es,mongo) -mysql:tcp自定定制的协议 -redis:tcp自
阅读全文