2019 年 7月 31 日随笔档案 - gkimeeq

2019年7月31日

摘要：当抓取网页时，最常见的任务是从HTML源码中提取数据，用Beautiful Soup或lxml都可以。Beautiful Soup是基于HTML代码的结构来构造一个Python对象，对不良标记的处理也很合理，缺点就是慢。而lxml是基于ElementTree（不是Python标准库的一部分）的Pyt 阅读全文

posted @ 2019-07-31 10:45 gkimeeq 阅读(172) 评论(0) 推荐(0) 编辑

公告