摘要: 如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 Soup 阅读全文
posted @ 2017-10-24 22:34 逆风飞行 阅读(1844) 评论(0) 推荐(1) 编辑
摘要: 今天早上,写的东西掉了。这个烂知乎,有bug,说了自动保存草稿,其实并没有保存。无语 今晚,我们将继续讨论如何分析html文档。 1.字符串 #直接找元素soup.find_all('b') 2.正则表达式 #通过正则找import refor tag in soup.find_all(re.com 阅读全文
posted @ 2017-10-24 22:24 逆风飞行 阅读(1075) 评论(0) 推荐(0) 编辑