摘要: 一、爬虫项目 1、爬虫基础 a、网页上面会有相同的数据 b、去重处理 布隆过滤器哈希存储 c、标签匹配: 正则表达式beautiful soup或lxml这种标签提取库 d、动态内容 phantomjs selenium 二、爬豆瓣网电影 网站地址:https://www.douban.com/ 准 阅读全文
posted @ 2019-02-16 10:24 努力哥 阅读(2752) 评论(0) 推荐(0) 编辑