摘要: 从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 阅读全文
posted @ 2018-11-19 14:43 朝阳的向日葵 阅读(821) 评论(0) 推荐(0) 编辑
摘要: Tqdm 是 Python 进度条库,可以在 Python 长循环中添加一个进度提示信息用法:tqdm(iterator) # 方法1: import time from tqdm import tqdm for i in tqdm(range(100)): time.sleep(0.01) 方法2 阅读全文
posted @ 2018-11-19 14:26 朝阳的向日葵 阅读(1799) 评论(0) 推荐(1) 编辑