随笔分类 - Python爬虫
摘要:转: 正则表达式在爬虫中的应用,可以更好的取自己想要的数据,有些时候也可以应对那些反爬取的网站。 后边多一个?表示懒惰模式。 必须跟在*或者+后边用 如:<img src="test.jpg" width="60px" height="80px"/> 如果用正则匹配src中内容非懒惰模式匹配 src
阅读全文
摘要:转:https://blog.csdn.net/SpringRolls/article/details/80554610 User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被
阅读全文