摘要: 当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。 构造选 阅读全文
posted @ 2017-06-08 23:02 无花1 阅读(266) 评论(0) 推荐(0) 编辑