06 2017 档案
摘要:网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取
阅读全文
摘要:首谈方法 最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通学习中我们都经常会碰到的问题,按照之前我整理的文章,包括我自己学习的过程,其实这是一个非常大的痛点,
阅读全文
摘要:一、strings和strconv的使用 strings strings.HasPrefix(s string,preffix string) bool:判断字符串s是否以prefix开头 stirngs.HasSuffix(s string,suffix string) bool:判断字符串s是否
阅读全文
摘要:最近建了一个运维架构知识体系的群,为什么要创办这么一个群,对大家有什么样的好处?我相信刚参加工作的都会碰到这样的问题:新人刚入职领导交代一个不会,但是为了表现自己的能力不差,领导没有看走眼,硬着头皮也要完成下去,会面临如下几个问题: 第一时间在各大QQ群或微信群咨询那么你有没有想过你为什么提的问题没
阅读全文
摘要:一、文件名&关键字&标识符 所有go源码都是以.go结尾 标识符以字母或下划线开头,大小写敏感 下划线_是特殊标识符,用户忽略结果 保留关键字 导入包时可以设置别名 下面是保留关键字: 二、GO程序的基本结构 小练习1写一个小程序,对于给定的一个数字n,求出所有两两相加等于n的组合 小练习2写一个小
阅读全文
摘要:整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容,因为爬虫爬取数据可能很简单,但是如何高效持久的爬,利用进程,线程,以及异步IO,其实很多人和我一样,故整理此系列番外篇 一、进程 程序并不能单独和运行只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的
阅读全文
摘要:一、第一个go程序 对于代码的解释 如果是为了将代码编译成一个可执行程序,那么package必须是main如果是为了将代码编译成库,那么package则没有限制go中所有的代码都应该隶属一个包 fmt 是go的一个系统库 fmt.println()则可以打印输出 如果想要运行程序:go run 程序
阅读全文
摘要:通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据 目标站和目标数据目标地址:http://www.hshf
阅读全文
摘要:一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit
阅读全文
摘要:PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 官网地址:htt
阅读全文
摘要:上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正
阅读全文