摘要: 一 介绍 "scrapy官网链接https://docs.scrapy.org/en/latest/topics/commands.html" Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但 阅读全文
posted @ 2020-01-08 19:10 豆瓣酱瓣豆 阅读(137) 评论(0) 推荐(0) 编辑
摘要: [TOC] 一 介绍 "官网:http://selenium python.readthedocs.io" 二 安装 1、有界面浏览器 selenium+chromedriver 2、无界面浏览器 PhantomJS不再更新 selenium+phantomjs 3 、使用 在 PhantomJS 阅读全文
posted @ 2020-01-08 19:09 豆瓣酱瓣豆 阅读(531) 评论(0) 推荐(0) 编辑
摘要: xpath 简介: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 安装: pip install lxml 调 阅读全文
posted @ 2020-01-08 19:07 豆瓣酱瓣豆 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 3.2 常用解析语法 css选择器 ​ 1、类选择器 ​ .类名 ​ 2、id选择器 ​ id值 ​ 3、标签选择器 ​ 标签名 ​ 4、后代选择器 ​ 选择器1 选择器2 ​ 5、子选择器 ​ 选择器1 选择器2 ​ 6、属性选择器 ​ [属性名] 只要有这个属性名的,都会被选中 ​ [属性名 = 阅读全文
posted @ 2020-01-08 19:04 豆瓣酱瓣豆 阅读(162) 评论(0) 推荐(0) 编辑
摘要: render方法 我们先理一下关系 和的作者是同一个人, 是`nodejs puppeteer`的非官方实现 调用的 与浏览器进行交互, 的中文文档 "点这里传送" 的文档 "博文参考" 调用render 方法启动 使用之前要先下载 "下载地址" 你懂的,天朝网络环境很复杂,如果要用 自己绑定的 , 阅读全文
posted @ 2020-01-08 19:03 豆瓣酱瓣豆 阅读(986) 评论(1) 推荐(1) 编辑
摘要: 牛逼的requests html ​ 安装: pip install requests html 我们可以在安装的时候看到他安装了lxml,reuqests,bs4......我们常用的解析和爬取的库都分装在他里面 Python上有一个非常著名的HTTP库—— "requests" ,相信大家都听说 阅读全文
posted @ 2020-01-08 19:02 豆瓣酱瓣豆 阅读(437) 评论(0) 推荐(0) 编辑
摘要: [TOC] Beautifulsoup selector soup.select() nth child(1) 换成 nth of type(1) Beautiful Soup 1. 解析Html页面 2. 提取相关信息 3. BeautifulSoup 4. 基本元素内容 5. 遍历 下行遍历 上 阅读全文
posted @ 2020-01-08 19:00 豆瓣酱瓣豆 阅读(208) 评论(0) 推荐(0) 编辑
摘要: http协议里需要关注的 请求需要关注的东西 requests url : 告诉浏览器,你要去哪里 Method: ​ get:传递数据:?&拼在url后面 ​ 数据:url?key=value&key=value ​ post: ​ 请求体: ​ form data ​ 文件类型files ​ j 阅读全文
posted @ 2020-01-08 18:36 豆瓣酱瓣豆 阅读(231) 评论(0) 推荐(0) 编辑
摘要: HTTP协议 HTTP,Hypertext Transfer Protocol 超文本传输协议 HTTP是一个基于"请求与响应"模式的,无状态的应用层协议 HTTP协议采用URL作为定位网络资源的标识。 URL格式:http://host[:post]\[path] URL是通过HTTP协议存取资源 阅读全文
posted @ 2020-01-08 18:31 豆瓣酱瓣豆 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 常用的re模块的正则匹配的表达式 re库的主要功能 5.3最小匹配 正则表达式使用 re模块常用的功能函数 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Pyt 阅读全文
posted @ 2020-01-08 18:21 豆瓣酱瓣豆 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 1 什么是互联网 互联网是由于网络设备(网线,路由器,交换机,防火墙等等)和计算机连接而成,像一张网一样。 1.1 互联网建立的目的? 互联网的核心价值在于数据的共享和传递,数据是放在一台计算机上 的,而将计算机互联到一起的目的就是为了能够方便彼此之间数据的共享和传递,否则你只能拿优盘取别人计算机上 阅读全文
posted @ 2020-01-08 10:09 豆瓣酱瓣豆 阅读(282) 评论(0) 推荐(0) 编辑
摘要: robots.txt 协议 1. Robits Exclusion Standard网络爬虫排除标准 2. 作用:网站告知网络爬虫那些页面可以爬取,那些不行。 3. 形式:在网站根目录下的robots.txt文件 百度的robots协议: https://www.baidu.com/robots.t 阅读全文
posted @ 2020-01-08 10:06 豆瓣酱瓣豆 阅读(675) 评论(0) 推荐(0) 编辑