03 2018 档案
摘要:我们在用python开发的时候,随着开发应用的增多,比如这个项目用django开发后台,之后又用scrapy来开发爬虫应用等,如果不用虚拟环境这些软件包都会被放到python的site-package目录下,为了项目整洁最好给每个项目各自创建一个独立的python虚拟环境。 1.pip instal
阅读全文
摘要:1.Scrapy是蜘蛛爬虫框架,我们用蜘蛛来获取互联网上的各种信息,然后再对这些信息进行数据分析处理。 2.Scrapy的组成 引擎:处理整个系统的数据流处理,出发事务 调度器: 接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回 下载器: 下载网页内容,并将网页内容返回给蜘蛛 蜘蛛: 蜘
阅读全文
摘要:1.官网下载python安装包(eg:python-3.6.3-embed-win32),并解压文件 2.配置环境变量 3.cmd里查看python版本并设置服务路径 4. 访问查看
阅读全文
摘要:1.初识Scrapy Scrapy是为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或者存储历史数据等一系列的程序中。 2.选择一个网站 当需要从某个网站获取信息时,但该网站未提供API或者能通过程序获取信息的机制时,Scapy可以助你一臂之力。 3.定义想抓去的数
阅读全文
摘要:1.什么是war文件? 如果一个Web应用程序的目录和文件非常多,那么将这个Web应用程序部署到另一台机器上,就不是很方便了,我们可以将Web应用程序打包成Web归档(WAR)文件。这个过程和把Java类文件打包成jar文件的过程类似。利用WAR文件可以把Servlet类文件和相关的资源集中在一起进
阅读全文
摘要:1.登录 $ ssh username@ip ssh 是Secure Shell的缩写,是建立在应用层基础上的安全协议。ssh是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用ssh协议可以有效防止远程管理过程中的信息泄露问题。 2.Linux命令 文件和目录 cd /home 进入
阅读全文
摘要:1.基本的爬虫工作原理 ①)网络爬虫定义,又称Web Spider,网页蜘蛛,按照一定的规则,自动抓取网站信息的程序或者脚本。 蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到网页中的其他链接地址, 然后通过这些链接地址寻找下一个网页,直到把这个额昂展所有的网页都抓取完为
阅读全文
摘要:1) 点 (.)去匹配任意字符的时候,不能匹配换行符 在这个模式中(?:.|\n)是指定了一个非捕获组(仅仅用来做匹配,部能通过单独捕获或者编号的组) 2) re.DOTALL re.compile()函数接受一个标志参数叫re.DOTALL,在这里非常有用,它可以让正则表达式中的点(.)匹配包括换
阅读全文
摘要:用正则表达式匹配某个文本模式 1.只取双引号内的值 2.长短匹配模式对比 贪婪模式: 模式r'\"(.*)\" '的意图是匹配被双引号包含的文本,但是这个表达式中*是贪婪的,因此匹配操作会查找最长的可能匹配。 非贪婪模式: 模式r'\"(.*?)\" ' 可以强制匹配算法改成寻找最短的可能匹配。 1
阅读全文
摘要:compile(pattern,flags=0) 1.编译一个正则表达式模式,返回一个模式对象 2.第二个参数flags是匹配模式,可以使用按位或‘|'表示同时生效,也可以在正则表达式字符串中指定 Pattern对象是不能直接实例化的,只能通过compile方法得到 1)re.I(re.IGNORE
阅读全文
摘要:正则表达式中,group()用来提出分组截获的字符串,()用来分组 eg:
阅读全文
摘要:为了在文本操作时忽略大小写,需要在使用re 模块的时候给这些操作提供re.IGNORECASE 标志参数。比如 >>> text = 'UPPER PYTHON, lower python, Mixed Python'>>> re.findall('python', text, flags=re.I
阅读全文
摘要:re.sub的功能 re是regular expression的缩写,表示正则表达式;sub是substitude的缩写,表示替换 re.sub是正则表达式的函数,实现比普通字符串更强大的替换功能 sub(pattern,repl,string,count=0,flag=0) 1))pattern正
阅读全文