摘要: 当抓取网页时,最常见的任务是从HTML源码中提取数据,用Beautiful Soup或lxml都可以。Beautiful Soup是基于HTML代码的结构来构造一个Python对象,对不良标记的处理也很合理,缺点就是慢。而lxml是基于ElementTree(不是Python标准库的一部分)的Pyt 阅读全文
posted @ 2019-07-31 10:45 gkimeeq 阅读(172) 评论(0) 推荐(0) 编辑