随笔档案「2017年11月19日」：Beautifulsoup模块 ... - bigdata_devops

Beautifulsoup模块

摘要：一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文

posted @ 2017-11-19 14:06 bigdata_devops 阅读(210) 评论(0) 推荐(0)

爬虫性能相关

摘要：一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，采用串行的方式执行，只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：串行并不意味着低效，如果串行的都是纯计算的任务，那么cpu的利用率仍然会很高，之所以爬虫程序的串行低效，是因为爬虫阅读全文

posted @ 2017-11-19 13:52 bigdata_devops 阅读(191) 评论(0) 推荐(0)

爬虫项目：爬取并筛选拉钩网职位信息自动提交简历

该文被密码保护。阅读全文

posted @ 2017-11-19 13:50 bigdata_devops 阅读(4) 评论(0) 推荐(0)

爬虫框架：scrapy

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2017-11-19 13:47 bigdata_devops 阅读(298) 评论(0) 推荐(0)

Beautifulsoup模块

爬虫性能相关

爬虫项目：爬取并筛选拉钩网职位信息自动提交简历

爬虫框架：scrapy

导航

公告