摘要: 本来晚上是准备写贴吧爬虫的,但是在分析页面时就遇到了大麻烦!选取了某个帖子,在爬取的时候,发现正则匹配不全..很尴尬!!先来看看吧, 本来都以为大功告成了,结果..结果在提取含有@的content的时候,不是少这个就是缺那个...心塞,正则的功夫还是没下够,但是今天白天学得那些方法还是现学现用了,G 阅读全文
posted @ 2016-05-16 23:44 夜雨寄北丶 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 今天,学习了爬虫的基础知识,尝试着写了本人的第一个小爬虫——爬取糗百上的热门段子。一开始自己做的是爬取1-35页,每页20条段子的作者、点赞数和内容,代码很简陋,贴在下面: 后改进如下(自己对类和函数的把握还是太差,中间错了好多~~): 学到了: 模拟浏览器请求,一定要添加‘headers’验证,正 阅读全文
posted @ 2016-05-16 20:53 夜雨寄北丶 阅读(529) 评论(0) 推荐(0) 编辑