2016年6月16日
摘要: 除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的... Signature: find_parents(name, attrs, string, l 阅读全文
posted @ 2016-06-16 17:50 内脏坏了 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是find_all()和find(), 两者大致思路相同, 只不过一个前者返回符合条件的所有tags, 阅读全文
posted @ 2016-06-16 17:18 内脏坏了 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 上一节说到.string的条件很苛刻, 如果某个tag里面包含了超过一个children, 就会返回None, 但是这里提供另外一种方式 .strings, 它返回的是一个generator, 比如对于 : 我们调用 结果如下 : 这样空格太多, 所以我们可用用另外一种stripped_string 阅读全文
posted @ 2016-06-16 15:06 内脏坏了 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 上一节说到tag, 这里接着讲, tag有个属性叫做string, tag.string其实就是我们要掌握的四个对象中的第二个 NavigableString, 它代表的是该tag内的text(甚至包括空白字符, 该tag内如果有别的tag, 必须前后紧挨不带空格, 否则返回None, 这一点的原因 阅读全文
posted @ 2016-06-16 14:17 内脏坏了 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 自从10号又是5天没更, 是, 我再一次断更... 原因是朋友在搞python, 老问我问题, 我python也是很久没碰了, 于是为了解决他的问题, 我只能重新开始研究python, 为了快速找回感觉, 我先是看了<简明python教程>, 出于兴趣考虑又开始看一本叫做<Web Scraping 阅读全文
posted @ 2016-06-16 00:26 内脏坏了 阅读(438) 评论(0) 推荐(0) 编辑