摘要: 1:创建表 2:构建测试数据 在/home/cphmvp下vim文件 aaas.com 内容如下 两列以\t分割 构建初始导入 3: 查询 select * from tbl_spider where site='aaaa.com'; 数据上传备份方案1: load方式 2:put方式 2.1 判断 阅读全文
posted @ 2016-07-21 20:16 cphmvp 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 验证python-mysql是否安装 1:python 2: import MySQLdb 安装步骤: 1、sudo apt-get install python-setuptools 2、sudo apt-get install libmysqld-dev 3、sudo apt-get insta 阅读全文
posted @ 2016-07-21 16:17 cphmvp 阅读(377) 评论(0) 推荐(0) 编辑
摘要: python的正则表达式模块是re,替换相关的方法是sub。 例如我们要做如下的替换将所有的 替换为空格,可以通过下面代码实现: 如果要做分组替换需要在替换的字符串中指定分组\1, 反斜杠+数字表示替换第n个分组 例如假定我要把abc此处在&nbsp和;之间的字符串需要保留。这样就需要分组替换了,正 阅读全文
posted @ 2016-07-21 15:49 cphmvp 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 做爬虫经常会有这样的引用场景 ,原始网页存储格式为 url+\t+ html php 有个explode的 拆分文本行方法,比较方便直接接收列值 与之对应的python写法 下面的是备忘 阅读全文
posted @ 2016-07-21 15:34 cphmvp 阅读(304) 评论(0) 推荐(0) 编辑
摘要: python 按行读取文件 ,网上搜集有N种方法,效率有区别,先mark最优答案,下次补充测试数据 阅读全文
posted @ 2016-07-21 15:00 cphmvp 阅读(242) 评论(0) 推荐(0) 编辑
爬虫在线测试小工具: http://tool.haoshuju.cn/