摘要: re模块是python中处理正在表达式的一个模块 正则表达式知识储备:http://www.cnblogs.com/huamingao/p/6031411.html 1. match(pattern, string, flags=0) 从字符串的开头进行匹配, 匹配成功就返回一个匹配对象,匹配失败就 阅读全文
posted @ 2017-08-10 03:07 0x03 阅读(291) 评论(1) 推荐(0) 编辑
摘要: 文件操作: os.mknod("test.txt") 创建空文件fp = open("test.txt",w) 直接打开一个文件,如果文件不存在则创建文件 关于open 模式: w 以写方式打开,a 以追加模式打开 (从 EOF 开始, 必要时创建新文件)r+ 以读写模式打开w+ 以读写模式打开 ( 阅读全文
posted @ 2017-08-10 03:02 0x03 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 在日常工作中经常遇见在文本中提取特定位置字符串的需求.python的正则性能好,很适合做这类字符串的提取,这里讲一下提取的技巧,正则表达式的基础知识就不说了,有兴趣的可以看re的教程. 提取一般分两种情况,一种是提取在文本中提取单个位置的字符串,另一种是提取连续多个位置的字符串.日志分析会遇到这种情 阅读全文
posted @ 2017-08-10 02:44 0x03 阅读(1009) 评论(0) 推荐(0) 编辑
摘要: 这周开始了实习, 由于公司的数据组使用的hadoop的数据仓库, 所以作为爬虫组的一般是把文件写入到文件中, 然后给数据组再次清洗。在选择文件的格式中, 选择了json。为什么呢? json的优势: 1. 数据体积方面。 JSON相对于XML来讲,数据的体积小,传递的速度更快些。 2. 传输速度方面 阅读全文
posted @ 2017-08-10 02:41 0x03 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 早就听说requests的库的强大,只是还没有接触,今天接触了一下,发现以前使用urllib,urllib2等方法真是太搓了…… 这里写些简单的使用初步作为一个记录 安装 http://cn.python-requests.org/en/latest/user/install.html#instal 阅读全文
posted @ 2017-08-10 02:35 0x03 阅读(151) 评论(0) 推荐(0) 编辑
摘要: python将dict中的unicode打印成中文 import jsona = {u'content': {u'address_detail': {u'province': u'\u5409\u6797\u7701', u'city': u'\u957f\u6625\u5e02', u'stree 阅读全文
posted @ 2017-08-10 01:29 0x03 阅读(428) 评论(0) 推荐(0) 编辑