2016年8月18日

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

摘要: 这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码。 一、分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页。 要想得到书籍的详细信息和ISBN码,我们需要遍历所有的页码,进入到书籍列表,然后从书籍列表进入到每本 阅读全文

posted @ 2016-08-18 21:38 backslash112 阅读(2141) 评论(3) 推荐(1) 编辑

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

摘要: 开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful Soup的过程,第一篇是Beautiful Soup基础知识,后两篇利用前边的Beautiful 阅读全文

posted @ 2016-08-18 15:35 backslash112 阅读(3751) 评论(0) 推荐(2) 编辑

导航