五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年11月7日

摘要: 2.匹配邮箱: 3.正则匹配电话 阅读全文
posted @ 2018-11-07 18:44 五杀摇滚小拉夫 阅读(125) 评论(0) 推荐(0) 编辑

摘要: 正则 :规则表达式一般在匹配非结构化的数据时用的比较多,结构化的数据一般用xpath,bs4。但具体使用起来都是视情况而定,相对而言。正则规则平时涉及最多也就是匹配邮箱,电话,及特殊字符串。规则相对用的少一些,也只是大概了解。网上教程总结规则,这里直接拿下来收藏:非打印字符: 字符描述 \cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 ... 阅读全文
posted @ 2018-11-07 18:12 五杀摇滚小拉夫 阅读(182) 评论(0) 推荐(0) 编辑

摘要: 采集速询网站数据:网站地址:http://www.suxun0752.com/index.html网站是需要账号登录才给返回信息的,我这里是直接拿的登录后的cookies请求的数据,cookies我也给了注释,没做深层的采集只是试采集了某一月份的。简单分析一下 :1.首先要先拿到cookies这样你才有权限去访问返回的数据。2.分析页面翻页请求的参数,及需要筛选的标签年份、月份等。把这几个参数综... 阅读全文
posted @ 2018-11-07 17:57 五杀摇滚小拉夫 阅读(392) 评论(1) 推荐(0) 编辑