摘要: [toc] 本文使用的是正则表达式爬取古诗文网,爬取的信息有:标题、朝代、作者、内容等信息 1.网站分析 通过上图,我已将需要爬取的信息与标签的对应位置根据不同的颜色标记出来,标题位于 ,朝代与作者都位于 的p标签下的a标签中,内容信息位于 的div标签中,知道这些后,我们便可以使用正则表达式来匹配 阅读全文
posted @ 2020-04-03 15:36 OLIVER_QIN 阅读(387) 评论(0) 推荐(0) 编辑