2021 年 2月 25 日随笔档案 - nliuc

2021年2月25日

摘要：一般来说当我们爬取网页的整个源代码后,是需要对网页进行解析的。正常的解析方法有三种 ①:正则匹配解析 ②：BeatuifulSoup解析 ③:lxml解析正则匹配解析：在之前的学习中,我们学习过爬虫的基本用法，比如/s,/d,/w,*,+,?等用法，但是在对爬取到的网页进行解析的时候，仅仅会这阅读全文

posted @ 2021-02-25 22:38 nliuc 阅读(294) 评论(0) 推荐(0) 编辑

Python爬虫系统化学习(2)

摘要： Python爬虫系统学习(2) 动态网页爬取当网页使用Javascript时候，很多内容不会出现在HTML源代码中，所以爬取静态页面的技术可能无法使用。因此我们需要用动态网页抓取的两种技术:通过浏览器审查元素解析网页的真实地址和使用Selenium模拟浏览器的方法。异步更新技术AJAX(Asyn 阅读全文

posted @ 2021-02-25 00:31 nliuc 阅读(152) 评论(0) 推荐(0) 编辑

Loading

默默耕耘的王同学

公告