随笔分类 -  Python爬虫

摘要:1.将headers键值对拷贝到notepad++里 2.匹配正则表达式 搜寻 (.*?):(.*) 替换 '1:2' 12代表第二个括号中的内容 阅读全文
posted @ 2020-02-26 20:50 sgggr 阅读(654) 评论(0) 推荐(0) 编辑
摘要:转: 正则表达式在爬虫中的应用,可以更好的取自己想要的数据,有些时候也可以应对那些反爬取的网站。 后边多一个?表示懒惰模式。 必须跟在*或者+后边用 如:<img src="test.jpg" width="60px" height="80px"/> 如果用正则匹配src中内容非懒惰模式匹配 src 阅读全文
posted @ 2020-02-26 20:38 sgggr 阅读(2000) 评论(0) 推荐(0) 编辑
摘要:转:https://blog.csdn.net/SpringRolls/article/details/80554610 User-Agent:简称UA,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被 阅读全文
posted @ 2020-02-23 15:00 sgggr 阅读(556) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示