2016年6月19日
摘要: 题目我就不抄了, 所有的题目链接都在这里, 以后每一期都不会出现题目, 想要看的自己去看 : https://github.com/Yixiaohan/show-me-the-code 第一个题目涉及到的是简单的图象处理, 稍微了解一下python的图像库也好, 以后要批量加水印的话知道这个很酸爽啊 阅读全文
posted @ 2016-06-19 18:42 内脏坏了 阅读(233) 评论(0) 推荐(0) 编辑
  2016年6月17日
摘要: 看完了BeautifulSoup的官方文档, 今天试着爬了一波自家学校moodle, 写了一个简陋查分器, 还算是成功, 代码已经扔在github上了, 感兴趣的朋友可以去看看. https://github.com/zhang77595103/web-crawler 今天模仿大神xlzd, 准备先 阅读全文
posted @ 2016-06-17 23:58 内脏坏了 阅读(2802) 评论(0) 推荐(0) 编辑
摘要: prettify()能返回一个格式良好的html的Unicode字符串 : 但是你只是想要一个代表该html的字符串, 并不在乎它的格式, 你可以使用str()或者unicode()...这里str()返回的是格式为utf8的字符串, 你可以使用encode使它变为bytestring或者decod 阅读全文
posted @ 2016-06-17 11:14 内脏坏了 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 修改html树无非是对其中标签的改动, 改动标签的名字(也就是类型), 属性和标签里的内容... 先讲这边提供了很方便的方法来对其进行改动... 然后是改动内容 : 当然你还可以用append(), 我让我奇怪的是使用append()之后的效果看上去是一样的, 但是调用.contents却会发现其实 阅读全文
posted @ 2016-06-17 10:45 内脏坏了 阅读(949) 评论(0) 推荐(0) 编辑
  2016年6月16日
摘要: 除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的... Signature: find_parents(name, attrs, string, l 阅读全文
posted @ 2016-06-16 17:50 内脏坏了 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是find_all()和find(), 两者大致思路相同, 只不过一个前者返回符合条件的所有tags, 阅读全文
posted @ 2016-06-16 17:18 内脏坏了 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 上一节说到.string的条件很苛刻, 如果某个tag里面包含了超过一个children, 就会返回None, 但是这里提供另外一种方式 .strings, 它返回的是一个generator, 比如对于 : 我们调用 结果如下 : 这样空格太多, 所以我们可用用另外一种stripped_string 阅读全文
posted @ 2016-06-16 15:06 内脏坏了 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 上一节说到tag, 这里接着讲, tag有个属性叫做string, tag.string其实就是我们要掌握的四个对象中的第二个 NavigableString, 它代表的是该tag内的text(甚至包括空白字符, 该tag内如果有别的tag, 必须前后紧挨不带空格, 否则返回None, 这一点的原因 阅读全文
posted @ 2016-06-16 14:17 内脏坏了 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 自从10号又是5天没更, 是, 我再一次断更... 原因是朋友在搞python, 老问我问题, 我python也是很久没碰了, 于是为了解决他的问题, 我只能重新开始研究python, 为了快速找回感觉, 我先是看了<简明python教程>, 出于兴趣考虑又开始看一本叫做<Web Scraping 阅读全文
posted @ 2016-06-16 00:26 内脏坏了 阅读(438) 评论(0) 推荐(0) 编辑
  2016年6月10日
摘要: 2.1 信息存储 上一节我们说到计算机领域一个重要的抽象 虚拟存储器, 其中每一个字节都有一个数字作为唯一的标识, 这也就是所谓的地址。所有的地址的集合叫做虚拟地址空间, 用来给机器程序一个统一的概念性映像。我们用它来完成对被划分给不同的程序对象的存储区空单元的管理。 2.11 十六进制表示法 he 阅读全文
posted @ 2016-06-10 16:40 内脏坏了 阅读(173) 评论(0) 推荐(0) 编辑