打赏

2018年11月28日

6-Python爬虫-分布式爬虫/Redis

摘要: 分布式爬虫 单机爬虫的问题: 单机效率 IO吞吐量 多爬虫问题 数据共享 在空间上不同的多台机器,可以成为分布式 需要做: 共享队列 去重 Redis 内存数据库 同时可以落地保存到硬盘 可以去重 可以把他理解成一共dict,set,list的集合体 可以对保存的内容进行生命周期控制 内容保存数据库 阅读全文

posted @ 2018-11-28 12:25 XuCodeX 阅读(92) 评论(0) 推荐(0) 编辑

5-Python爬虫-scrapy shell

摘要: scrapy shell https://segmentfault.com/a/1190000013199636?utm_source=tag newest shell 启动 Linux: ctr+T,打开终端,然后输入scrapy shell "url:xxxx" windows: scrapy 阅读全文

posted @ 2018-11-28 12:23 XuCodeX 阅读(118) 评论(0) 推荐(0) 编辑

4-Python爬虫框架-Scrapy

摘要: scrapy 爬虫框架 框架 爬虫框架 scrapy pyspider crawley scrapy框架介绍 https://doc.scrapy.org/en/latest/ http://scrapy chs.readthedocs.io/zh_CN/latest/index.html 安装 利 阅读全文

posted @ 2018-11-28 12:19 XuCodeX 阅读(192) 评论(0) 推荐(0) 编辑

3-Python爬虫-动态HTML/Selenium+PhantomJS/chrome无头浏览器-chromedriver

摘要: 动态HTML 爬虫跟反爬虫 动态HTML介绍 JavaScrapt jQuery Ajax DHTML Python采集动态数据 从Javascript代码入手采集 Python第三方库运行JavaScript,直接采集你在浏览器看到的页面 Selenium + PhantomJS Selenium 阅读全文

posted @ 2018-11-28 12:17 XuCodeX 阅读(605) 评论(0) 推荐(0) 编辑

2.1-Python爬虫-正则/XML/XPath/CSS选择器-案例演示

摘要: Python爬虫 正则/XML/XPath/CSS选择器 正则表达式 案例v23,re的基本使用流程 案例v24,match的基本使用 正则常用方法: match: 从开始位置开始查找,一次匹配 search:从任何位置查找,一次匹配, 案例v25 findall: 全部匹配,返回列表, 案例v26 阅读全文

posted @ 2018-11-28 12:10 XuCodeX 阅读(214) 评论(0) 推荐(0) 编辑

2-Python爬虫-正则表达式/XML/XPath/CSS

摘要: 页面解析和数据提取 结构数据: 先有的结构,在谈数据 JSON文件 JSON Path 转换成Python类型进行操作(json类) XML文件 转换成python类型(xmltodict) XPath CSS选择器 正则 非结构化数据:先有数据,再谈结构 文本 电话号码 邮箱地址 通常处理此类数据 阅读全文

posted @ 2018-11-28 11:55 XuCodeX 阅读(611) 评论(0) 推荐(0) 编辑

操作系统

摘要: 操作系统 管理软硬件资源,给运行软件提供一个统一调用平台 操作系统分类 windows Unix Minix,Linus Linux MacOS 如果内存大于等于8G,尝试使用虚拟机 否则,windows 如果是苹果系统,那就苹果系统 虚拟机 虚拟的机器,是软件模拟出来的软件环境,是一个完全独立的系 阅读全文

posted @ 2018-11-28 11:52 XuCodeX 阅读(107) 评论(0) 推荐(0) 编辑

2018年11月27日

6.6-数据结构&算法-列表/堆栈/队列

摘要: 五、列表 4.merge - 合并 void merge (list& lst); void merge (list& lst, Comp compfunction); 将有序的参数列表合并到调用列表中,保证合并后的调用列表依然有序。 注意:任何容器,在结构性修改之前获得的迭代器,有可能因为这种修改 阅读全文

posted @ 2018-11-27 19:31 XuCodeX 阅读(164) 评论(0) 推荐(0) 编辑

6.5-数据结构&算法-标准模板STL/STL容器/向量

摘要: 一、标准模板库(STL) 1.定义了一系列的容器模板,实现泛型化的数据结构。 1)向量(vector),内存连续,支持下标访问和随机迭代,只有在尾部进行插入和删除效率才比较高。 2)列表(list),内存不连续,不支持下标访问和随机迭代,在任何位置进行插入和删除效率都很高。 3)双端队列(deque 阅读全文

posted @ 2018-11-27 19:25 XuCodeX 阅读(174) 评论(0) 推荐(0) 编辑

6.4-数据结构&算法-模板/函数模板/类模板/特化

摘要: 一、为什么要有模板? 将类型参数化,可以实现算法与类型的分离,编写针对类型更加抽象的函数或者类。 二、函数模板 通用定义: template<typename 类型形参1, ...> 返回类型 函数模板名 (形参表) { ... } 特化定义: template<> 返回类型 函数模板名<类型实参1 阅读全文

posted @ 2018-11-27 19:21 XuCodeX 阅读(270) 评论(0) 推荐(0) 编辑

导航