爬虫开发实践经验

爬虫的目的是爬取数据,是以目标为导向的程序,根据数据类型又分为图片,视频等文件性数据,数据表,统计结果,评论,内容等文字性数据,针对文件性数据,核心点在于在网页元素中找到对应的下载链接,针对文字性数据,需要先区分是动态网页还是静态网页,如果是静态可以直接爬取,如果是动态则需要使用seleium或其他动态网页技术爬取。
爬取的页面可能需要根据实际的观测结果来确认目标网页的page数。
文字性内容的爬取可使用通用爬虫,先爬取整个网页,然后提取网页元素中的信息内容

posted @   小雨淅淅o0  阅读(4)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示