09 2018 档案
摘要:【学习目标】 Scrapy-redis分布式的运行流程 Scheduler与Scrapy自带的Scheduler有什么区别 Duplication Filter作用 源码自带三种spider的使用 6. Scrapy-redis分布式组件 Scrapy 和 scrapy-redis的区别 Scrap
阅读全文
摘要:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 223: ordinal not in range(128) 解决方法 1 import sys 2 reload(sys) 3 sys.setdefaulten
阅读全文
摘要:下载Mongodb安装包: 官方链接: windows下配置: 在MongoDB/data下再创建db , log两个文件夹。 因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功。 启动MongoDB服务 1.打开cmd命令行 2.进入D:\Mo
阅读全文
摘要:(案例一)手机App抓包爬虫 1. items.py import scrapy class DouyuspiderItem(scrapy.Item): # 存储照片的名字 nickName = scrapy.Field() # 照片的url路径 imageUrl = scrapy.Field()
阅读全文
摘要:Scrapy 中文手册: https://docs.pythontab.com/scrapy/scrapy0.24/index.html Scrapy的项目结构 Scrapy框架的工作流程 Scrapy Shell Item Pipeline Scrapy项目的Spider类 Scrapy项目的Cr
阅读全文
摘要:机器视觉与Tesseract介绍 机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 Python库来识别和使用在线图片中的文字。 我们可以很轻松的阅读图
阅读全文
摘要:会使用BeatifulSoup4解析和提取HTML/XML 数据 Python类型和JSON类型的相互转化 JsonPath解析和提取JSON文档 使用队列进行多线程爬虫 使用Selenium和PhantomJS爬取动态页面信息 BeautifulSoup4解析器 CSS 选择器:Beautiful
阅读全文
摘要:1、Handler处理器和Opener的作用 # encoding=utf-8 import urllib2 # cookielib 模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。 import cookielib a_u
阅读全文
摘要:1、urllib和urllib2区别 urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能,最显著的区别如下: (1)urllib仅可以接受URL,不能创建,设置headers的request类实例; (2)但是urllib提供urlencode()方法用来GET查询字符串
阅读全文
摘要:Python 的 re 模块 re 模块的一般使用步骤如下: 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。 最后使用 Match 对象提供的属性和方法获得信
阅读全文
摘要:选择类 Ctrl+D 选中光标所占的文本,继续操作则会选中下一个相同的文本。 Alt+F3 选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑。举个栗子:快速选中并更改所有相同的变量名、函数名等。 Ctrl+L 选中整行,继续操作则继续选择下一行,效果和 Shift+↓ 效果一样。 Ctr
阅读全文
摘要:一、根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 聚焦爬虫 聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,
阅读全文
摘要:一、NoSQL简介 NoSQL,全名为Not Only SQL,指的是非关系型的数据库 随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来 优点/缺点 优点: 高可扩展性 分布式计算 低成本 架构的灵活性,半结构化数据 没有复杂的关系 缺点: 没有标准化 有限的查询功能(到目前为
阅读全文
摘要:一、安装pymongo 注意 :当同时安装了python2和python3,为区分两者的pip,分别取名为pip2和pip3。 推荐:https://www.cnblogs.com/thunderLL/p/6643022.html 二、MongoDB与python 交互 2.1、打开黑屏终端,启动m
阅读全文
posted @ 2018-09-08 11:06
薄荷味日记
摘要:一、 MongoDB安装 mongodb官网: https://www.mongodb.com/ 1.window安装 1.1 将MongoDB安装为windows服务(cd 到 Mongodb中bin路径下 ) mongod.exe --dbpath="E:\MongoDB_data\db" --
阅读全文
摘要:一、MongoDB特点 模式自由 :可以把不同结构的文档存储在同一个数据库里 面向集合的存储:适合存储 JSON风格文件的形式 完整的索引支持:对任何属性可索引 复制和高可用性:支持服务器之间的数据复制,支持主-从模式及服务器之间的相互复制。复制的主要目的是提供冗余及自动故障转移 自动分片:支持云级
阅读全文
摘要:一、安装mysql 二、安装第三方模块(python2.7下) 三、新建数据库 四、数据库的增、删、改、查 五、封装 1.1 首先安装mysql sudo apt-get install mysql-server mysql-client 1.2 mysql的启动、停止、重启 service mys
阅读全文