随笔分类 - 爬虫
网络蜘蛛
爬虫
防爬技术
正则表达式
摘要:之前项目里面一直使用正则表达式,然而对于正则的语法只有基本的了解,这二天采点时间学习一下基本知识1. 正则表达式字符含义 1.1. 元字符 元字符语法 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 ...
阅读全文
摘要:防爬总结一、针对Http协议在浏览器访问网站的时候伴随着相关的Http协议User-Agent:用户浏览器与版本信息如:Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9.2.6) Gecko/20100625 Firefox/3.6.6 (.NET CLR 3.5.30729)Referer:请求URL的源地址如果用户直接请求URL时则Referer不能被发送显示。Cookie:用于辨别用户身份,存储在用户的数据在用户浏览网站网页时,首次访问时,服务端可以给它添加默认值,通过这个值了解用户登录信息。根据一般程序编写的爬虫器不会添加U.
阅读全文