09 2018 档案
摘要:chkconfig命令 软件包管理 chkconfig命令 软件包管理 《Linux就该这么学》是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量预期超过10万本。点此免费在线阅读。 《Linux就该这么学》是一本基于最新Linux系统
阅读全文
摘要:CentOS下Redis的安装 目录 CentOS下Redis的安装 前言 下载安装包 解压安装包并安装 启动和停止Redis 启动Redis 停止Redis 参考资料 CentOS下Redis的安装 前言 安装Redis需要知道自己需要哪个版本,有针对性的安装,比如如果需要redis GEO这个地
阅读全文
摘要:from selenium import webdriver from selenium.common.exceptions import TimeoutException, NoSuchElementException import time # 声明浏览器对象 driver = webdrive
阅读全文
摘要:一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit
阅读全文
摘要:# *_*coding:utf-8 *_* import pymysql conn = pymysql.connect(host='192.168.33.10', user='root', passwd='root', db='spider', charset='utf8') cur = conn.cursor(cursor=pymysql.cursors.DictCursor) sql =...
阅读全文
摘要:# *_*coding:utf-8 *_* import requests url = 'http://test.yeves.cn/test_header.php' params = {'id':'1','name':'test'} params = {'key1': 'value1', 'key2
阅读全文
摘要:# *_*coding:utf-8 *_* import requests payload = {'key1': 'value1', 'key2': 'value2'} headers = {'user-agent': 'my-app/0.0.1'} page_size = "1000" page = "1" for page in range(1,11): #url = "http...
阅读全文
摘要:第二种方式 写一个自己的randomUseragent中间件 并且在setting里面启用 ,但是要修改顺序靠前,比如100 或者直接把默认启用的user_agent 设置为None 第三种方式 直接继承默认的userAgent中间件,然后改写方法 中间件可以用faker来实现 或者自己招个列表也可
阅读全文
摘要:normalize,字面意思就是正规化 加入space 大概意思就是空格的处理了 官方解释是这样的: 通过去掉前导和尾随空白并使用单个空格替换一系列空白字符,使空白标准化。如果省略了该参数,上下文节点的字符串值将标准化并返回。 刚好在实际项目中碰到了这样的一个问题, 定位一个下来的时候,最开始的时候
阅读全文
摘要:总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通
阅读全文
摘要:scrapy下使用item才是正经方法。在item中定义需要保存的内容,然后在pipeline处理item,爬虫流程就成了这样: 抓取 --> 按item规则收集需要数据 -->使用pipeline处理(存储等) 定义item,在items.py中定义抓取内容 我们将数据库的配置信息保存在setti
阅读全文
摘要:scrapy错误:yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request()方法里面添加这么一个东东:yield Request(url, callback=self.parse_item, dont_filte
阅读全文
摘要:一、首先我们来看scrapy spider如何打开页面:要打开页面,我们用的是手,同样scrapy也有一个得力助手:spider;至于spider如何打开页面,且听我娓娓道来,如果一上来就噼里啪啦的给诸位说scrapy spiders需要继承神马类、神马方法、神马常量,我想很多喷油都会觉得莫名其妙,
阅读全文
摘要:如果要文件管道保存为原有的文件名 需要重写文件管道的方法 pipeitem文件 setting配置 spider文件 item文件
阅读全文
摘要:图片管道启用: item中必须包含image_urls和images属性 image_urls中必须是列表,每个元素是一个带有http的链接 images里面数据任意,经过图片管道后会被重新赋值 图片管道必须被启用 配置文件中的选项: ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline':2, # 'images.pipeline...
阅读全文
摘要:# *_*coding:utf-8 *_* import urllib.request from lxml import etree import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = ba...
阅读全文
摘要:scrapy shell https:///www.baidu.com 会启动爬虫请求网页 view(response) 会在浏览器打开请求到的临时文件 response.xpath("//*[@id="lh"]/a[2]/text()").extract() 使用xpath解析
阅读全文
摘要:# *_*coding:utf-8 *_* import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = base_url.encode() content = response.content....
阅读全文
摘要:1、重点理解 response.text返回的类型是str response.content返回的类型是bytes,可以通过decode()方法将bytes类型转为str类型 推荐使用:response.content.decode()的方式获取相应的html页面 2、扩展理解 response.t
阅读全文
摘要:Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建。 主要涉及到三个函数 1、os.path.exists(path) 判断一个目录是否存在 2、os.makedirs(path) 多层创建目录 3、os.mkdir(path) 创建目录 DEMO 直接上代
阅读全文
摘要:发现好像这个方法不好使。。。。。。。~~!还是会失败 如果有人或者自己失误把不该同步的大文件如数据或日志或其他中间文件给commit了并且push了,然后你删掉了,但是其实他仍然在你的git记录中,你的整个项目仍然会非常大,主要是当时的那个删除你没有用git rm,但总之你想清理就很麻烦了现在,或者
阅读全文
摘要:本文讲的是把git在最新2.9.2,合并pull两个不同的项目,出现的问题如何去解决 如果合并了两个不同的开始提交的仓库,在新的 git 会发现这两个仓库可能不是同一个,为了防止开发者上传错误,于是就给下面的提示 fatal: refusing to merge unrelated historie
阅读全文
摘要:异常:'latin-1' codec can't encode characters in position 62-66: ordinal not in range(256) 用Python通过pymysql往MySQL数据库中插入数据时,插入的字段含有中文,出现异常: 'latin-1' code
阅读全文
摘要:在操作数据库的时候,python2中一般使用mysqldb,但在python3中已经不在支持mysqldb了,我们可以用pymysql和mysql.connector。本文的所有操作都是在python3的pymysql下完成的。 一、基本操作 (1) 查询 import pymysql conn =
阅读全文
摘要:SQLlte数据类型 创建数据库,创建表 如果要使用SQL必须要导入sqlite3库。 添加数据 要添加一些数据到表中,需要使用insert命令和一些特殊的格式。 查询数据 (*) 告诉数据库给出所有内容。 code:
阅读全文
摘要:一、list转字符串 命令:''.join(list)其中,引号中是字符之间的分割符,如“,”,“;”,“\t”等等如:list = [1, 2, 3, 4, 5]''.join(list) 结果即为:12345','.join(list) 结果即为:1,2,3,4,5 二、字符串转list pri
阅读全文
摘要:首先导入模块,用help查看相关文档 1 意思就是将基地址与一个相对地址形成一个绝对地址,然而讲的太过抽象 1 意思就是将基地址与一个相对地址形成一个绝对地址,然而讲的太过抽象 1 意思就是将基地址与一个相对地址形成一个绝对地址,然而讲的太过抽象 意思就是将基地址与一个相对地址形成一个绝对地址,然而
阅读全文
摘要:栗 子 1、id 获取id 的属性值 2、starts-with 顾名思义,匹配一个属性开始位置的关键字 -- 模糊定位 3、contains 匹配一个属性值中包含的字符串 -- 模糊定位 4、text() 函数文本定位 5、last() 函数位置定位 eg <a id="setf" href="/
阅读全文
摘要:#coding=utf-8 import requests from lxml import etree import urllib url = 'http://www.7160.com/zhenrenxiu/56786/' def parse_content(content): tree = etree.HTML(content) title = tree.xpath("/h...
阅读全文
摘要:File》Setting》Editor》Code Style》File and Code Templates》Python Script 后面加上 # *_*coding:utf-8 *_* 即可 File》Setting》Editor》Code Style》File and Code Templa
阅读全文
摘要:写在前面: 目前,Go语言已经发布了1.5的版本,已经有不少Go语言相关的书籍和教程了,但是看了一些后,觉得还是应该自己写一套Go语言的教程。给广大学习Go语言的朋友多一种选择。因为,咱写的教程,向来和其他的不一样。 尊重劳动,如果转载,请注明出处:常城的专栏 Go语言在Centos下的安装: 注意
阅读全文
摘要:<td><?php echo ((key+1); ?></td>
阅读全文
摘要:/** * 查询数据 * @param get_rows 或者总数 * @param bool master 是否主表查询 */ public function get_list_by_where(array $param...
阅读全文
摘要:function is_https() { if ( !empty(_SERVER['HTTPS']) !== 'off') { return true; } elseif ( isset(_SERVER['HTTP_...
阅读全文