摘要: 上一节我们下载并使用了宽度优先的爬虫,这一节我们来具体看一下这个爬虫的原理。 首先,查看HTML.py的源代码。 第一个函数: 这个函数的作用是抓取url的内容(二进制内容,可以直接传进beautifulsoup里分析)。之所以显得比较复杂,是因为加入了一些异常处理,使得函数的可靠性更强一些。另外也 阅读全文
posted @ 2017-05-05 21:38 lvmememe 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://raspberrypihq.com/how-to-share-a-folder-with-a-windows-computer-from-a-raspberry-pi/ Sharing files over the network is often very useful. W 阅读全文
posted @ 2017-05-05 12:47 lvmememe 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.cellsystech.cn/docs/?p=2002 设置前准备: 1.准备好树莓派终端连接软件工具Putty 教程及下载:https://www.cellsystech.cn/docs/?p=379 2.树莓派设置好固定IP地址,教程:https://www.ce 阅读全文
posted @ 2017-05-05 12:46 lvmememe 阅读(12698) 评论(0) 推荐(0) 编辑
摘要: 要抓取一个网页,分析一个网页,是一件很容易的事情。那么对于搜索引擎来说,要获取的资源是互联网上的大量的网页,如何抓取就是一个策略的问题。在这里,我们使用宽度优先的策略进行抓取。 宽度优先的策略是图论中的一种方法,在网页抓取中,可以把一个页面看做一个点,页面与页面之间的链接关系看做有向边。具体来说,如 阅读全文
posted @ 2017-05-05 00:00 lvmememe 阅读(686) 评论(0) 推荐(0) 编辑