随笔分类 -  爬虫

摘要:检查网页源代码 首先让我们来检查豆瓣top250的源代码,一切网页爬虫都需要从这里开始。F12打开开发者模式,在元素(element)页面通过Ctrl+F直接搜索你想要爬取的内容,然后就可以开始编写正则表达式了。 如下是我们将要爬取内容的html局部区域: <div class="item"> <d 阅读全文
posted @ 2022-08-09 13:43 孤飞 阅读(1388) 评论(2) 推荐(5) 编辑
摘要:| 匹配单个字符 | | | | | | d? | d出现0/1次 | | a* | a可以出现0/多次 | | a+ | a出现一次以上 | | a{6} | a出现6次 | | a{2,} | a出现2次以上 | | a{2,6} | a出现2-6次 | | 匹配多个字符 | | | | | | 阅读全文
posted @ 2022-08-06 00:10 孤飞 阅读(131) 评论(0) 推荐(0) 编辑
摘要:什么是正则表达式? 正则表达式是一组由字母和符号组成的特殊文本,它可以用来从文本中找出满足你想要的格式的句子。 一个正则表达式是一种从左到右匹配主体字符串的模式。 “Regular expression”这个词比较拗口,我们常使用缩写的术语“regex”或“regexp”。 正则表达式可以从一个基础 阅读全文
posted @ 2022-08-05 23:54 孤飞 阅读(2770) 评论(3) 推荐(11) 编辑