爬虫学习（python） - 随笔分类 - Norni

十六、 IO多路复用,异步非阻塞

摘要：总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文

posted @ 2020-07-25 10:36 Norni 阅读(128) 评论(0) 推荐(0) 编辑

十五、cookies和session的使用

摘要：1、cookie和session的区别（1）cookie数据存放在客户的浏览器上，session数据放在服务器上。（2）cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。（3）session会在一定时间内保存在服务器上。当访问增多，会比较占用服务器的性能。（阅读全文

posted @ 2020-05-14 17:36 Norni 阅读(180) 评论(0) 推荐(0) 编辑

十四、Selenium入门

摘要：1、Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的,可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们的指令，让浏览器自动加载页阅读全文

posted @ 2020-05-10 21:41 Norni 阅读(252) 评论(0) 推荐(0) 编辑

十三、CSS选择器：BeautifulSoup4

摘要：（1）和lxml一样,Beautifu Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。（2）lxml只会局部遍历，而Beautiful Soup是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lx 阅读全文

posted @ 2020-05-10 13:49 Norni 阅读(218) 评论(0) 推荐(0) 编辑

十二、多线程案例（糗事百科）

摘要：1、Queue（队列对象） Queue是python中的标准库，可以直接impot Queue引用。队列是线程间最常用的交换数据的形式。 1.1 初始化 class Queue.Queue(maxsize) #FIFO 先进先出 1.2 包中的常用方法 Queue.qsize() 返回队列的大小阅读全文

posted @ 2020-05-10 00:12 Norni 阅读(110) 评论(0) 推荐(0) 编辑

十一、数据提取之Json与JsonPath

摘要：JSON(JavaScript Object Notaion)是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成，适用于进行数据交互的场景。官方文档：https://docs.python.org/3/library/json.html 1、JSON js 阅读全文

posted @ 2020-05-09 21:35 Norni 阅读(484) 评论(0) 推荐(0) 编辑

十、XPath与lxml类库

摘要：1、XML语言（1）XML指可扩展标记语言（EXtensible Markup Language）（2）XML是一中标记语言，类似于HTML （3）XML的设计宗旨是传输数据，而非显示数据（4）XML的标签需要我们自行定义（5）XML被设计为具有自我描述性（6）XML是W3C的推荐标准官阅读全文

posted @ 2020-05-09 19:35 Norni 阅读(135) 评论(0) 推荐(0) 编辑

九、HTTP/HTTPS抓包工具-Fiddler

摘要：1、简介 Fiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器需要手动设置。 2、下载和安装 2.1 下载 https://www.telerik.com/fiddler 2.2 阅读全文

posted @ 2020-05-09 17:16 Norni 阅读(333) 评论(0) 推荐(0) 编辑

八、urllib库的基本使用

摘要：1、基本使用所谓网页抓取，就是把url地址中指定的网络资源从网络流中读取出来，保存到本地。 2、urlopen urlopen的参数是一个url地址时 # 导入urllib.rquest库 from urllib import request # 向指定的url发送请求，并返回服务器响应的类文件对阅读全文

posted @ 2020-05-09 16:50 Norni 阅读(433) 评论(0) 推荐(0) 编辑

七、Requests库

摘要：1、Requests的目的：让HTTP服务人类 python的标准库中urllib模块包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不太好，而Requests自称"HTTP for Humans",让使用更简洁方便。 Requests 继承了urllib的所有特性。Requests支阅读全文

posted @ 2020-05-09 00:03 Norni 阅读(139) 评论(0) 推荐(0) 编辑

六、HTTP和HTTPS(爬虫部分)

摘要：`HTTP协议`(HyperText Transfer Protocol，超文本传输协议)：是一种发布和接收HTML页面的方法。 `HTTPS协议`(HyperText Transfer Protocol over Secure Socket Layer)，是HTTP协议的安全版，在HTTP下加入了阅读全文

posted @ 2020-05-08 21:26 Norni 阅读(869) 评论(0) 推荐(0) 编辑

五、request模块

摘要：描述：requests是python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库，它比python自带的网络库urllib更加简单、方便和人性化；使用requests可以让python实现访问网页并获取源代码的功能；使用requests获取网页的源阅读全文

posted @ 2020-02-09 15:03 Norni 阅读(209) 评论(0) 推荐(0) 编辑

四、Python文件操作

摘要：描述：Python的文件操作涉及对文件的读/写与编码的处理。 1、两种写法 1.1 第一种 1 f = open('文件路径', '文件操作方式', encoding='utf-8') 2 对文件操作 3 f.close() 1.2 第二种 1 with open('文件路径', '文件操作方式', 阅读全文

posted @ 2020-02-09 14:54 Norni 阅读(175) 评论(0) 推荐(0) 编辑

三、正则表达式

摘要：描述:正则表达式能够从一段文本中提取有用的信息。 0、使用正则表达式有如下步骤：（1）寻找规律；（2）使用正则符号表示规律（3）提取信息 1、正则表达式的基本符号 1.1 点号“.” 一个点号可以代替除了换行符以外的任何一个字符，包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。阅读全文

posted @ 2020-02-09 13:49 Norni 阅读(297) 评论(0) 推荐(0) 编辑

二、Python基础

摘要：1、Python的安装和运行 2、Python开发环境 3、Python的数据结构和控制结构数据结构 3.1 整数、浮点数和变量 3.1.1 整数和浮点数整数浮点数：带有小数点 3.2 变量 3.3 字符串、列表、元组、集合、字典 3.3.1 字符串（string）任何被单引号或则双引号括阅读全文

posted @ 2020-02-09 11:44 Norni 阅读(165) 评论(0) 推荐(0) 编辑

一、爬虫简介

摘要：描述：介绍爬虫相关概念 1、爬虫：本质上是一种计算机程序，取数据时的行为和蜘蛛在网上逐条逐行爬行一样，即Spider。 2、爬虫的作用：(1)收集数据。（2）调查目标（3）刷流量和秒杀阅读全文

posted @ 2020-02-09 11:32 Norni 阅读(293) 评论(0) 推荐(0) 编辑

随笔分类 - 爬虫学习（python）

公告

搜索

积分与排名

随笔分类 (276)

Mysql