2017 年 10月 24 日随笔档案 - 逆风飞行

2017年10月24日

摘要：如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 Soup 阅读全文

posted @ 2017-10-24 22:34 逆风飞行阅读(1844) 评论(0) 推荐(1) 编辑

Python爬虫系列（六）：搜索文档树

摘要：今天早上，写的东西掉了。这个烂知乎，有bug，说了自动保存草稿，其实并没有保存。无语今晚，我们将继续讨论如何分析html文档。 1.字符串 #直接找元素soup.find_all('b') 2.正则表达式 #通过正则找import refor tag in soup.find_all(re.com 阅读全文

posted @ 2017-10-24 22:24 逆风飞行阅读(1075) 评论(0) 推荐(0) 编辑

逆向行驶

做得最大的项目，是人生

公告