摘要: 在item的Filed()中设置参数函数,可以用来预处理item字段的数据,另一方面也方便程序代码的管理和重用 item中 from scrapy.loader.processors import MapCompose, TakeFirstimport scrapyfrom scrapy.loade 阅读全文
posted @ 2017-11-02 19:41 言守中 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: scrapy中response提取的没有主域名的url拼接 # 1.导入urllib的parse # 2.调用parse.urljoin()进行拼接,例子中response.url会自动提取出当前页面url的主域名,get_url是从response中的元素中提取的没有主域名的url from ur 阅读全文
posted @ 2017-11-02 11:01 言守中 阅读(4505) 评论(0) 推荐(0) 编辑
摘要: Logging Scrapy提供了log功能,可以通过 logging 模块使用 可以修改配置文件settings.py,任意位置添加下面两行 Scrapy提供5层logging级别: CRITICAL - 严重错误(critical) ERROR - 一般错误(regular errors) WA 阅读全文
posted @ 2017-10-18 11:33 言守中 阅读(16630) 评论(0) 推荐(1) 编辑
摘要: # -*- coding:utf-8 -*- from scrapy.cmdline import execute import sys import os '''在爬虫文件夹下面自定义一个main.py的文件 __file__指的是当前main.py文件 os.path.abspath(__file__)获取当前main.py文件所在路径 os.path.dirname(os.path.ab... 阅读全文
posted @ 2017-10-18 10:54 言守中 阅读(1524) 评论(0) 推荐(0) 编辑
摘要: # -*- coding:utf-8 -*-from selenium import webdriver '''设置页面不加载图片,这样可以加快页面的渲染,减少爬虫的等待时间,提升爬取效率固定配置如下:'''chrome_opt = webdriver.ChromeOptions()prefs = 阅读全文
posted @ 2017-10-14 15:26 言守中 阅读(3748) 评论(0) 推荐(0) 编辑
摘要: 现代密码体制中加密和解密采用不同的密钥(公钥和私钥),也就是非对称密钥密码系统,是从前对称加密方式的提高与增强。 每个通信方均需两个密钥:公钥和私钥。 公钥:加密/验章 私钥:解密/签章 阅读全文
posted @ 2017-10-13 17:08 言守中 阅读(405) 评论(0) 推荐(0) 编辑
摘要: # -*- coding:utf-8 -*- import re '''python 3.5版本 正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大学' regex_str = ".*?([\u4E00-\u9FA5]+大学)" match_obj = re.match(regex_str, words) if match_obj: ... 阅读全文
posted @ 2017-10-08 11:08 言守中 阅读(37077) 评论(0) 推荐(0) 编辑
摘要: TCP/IP协议中,TCP协议提供可靠的连接服务,采用“三次握手”建立一个连接。 (1)第一次握手:客户端发送SYN包(SYN=j)到服务器,并进入SYN_SEND状态,等待服务器确认。 (2)第二次握手:服务器收到SYN包,必须确认客户的SYN(ACK=j+1),同时自己也发送一个SYN包(SYN 阅读全文
posted @ 2017-09-30 12:19 言守中 阅读(887) 评论(0) 推荐(0) 编辑
摘要: 安装虚拟环境的时候遇到的问题,解决的过程很闹心,在这里简单直接的分享出来,就是为了解决问题。 安装虚拟环境(须在联网状态下) 安装完虚拟环境后,如果提示找不到mkvirtualenv命令,须配置环境变量: 创建虚拟环境(ubuntu里须在联网状态下,自己定义环境名字) 进入相应的虚拟环境,使用pip 阅读全文
posted @ 2017-09-10 17:55 言守中 阅读(810) 评论(0) 推荐(0) 编辑
摘要: mongoDB安装完成后,运行sudo service mongod start 查看程序状态:ps ajx | grep mongod ,启动失败 查看失败信息提示,终端命令:tail -f /var/log/mongodb/mongod.log 错误提示:Failed to unlink soc 阅读全文
posted @ 2017-09-10 17:25 言守中 阅读(2400) 评论(0) 推荐(0) 编辑