2017 年 6月随笔档案 - fan-tastic

Python爬虫从入门到放弃（十）之关于深度优先和广度优先

摘要：网站的树结构深度优先算法和实现广度优先算法和实现网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取阅读全文

posted @ 2017-06-29 01:33 fan-tastic 阅读(15166) 评论(0) 推荐(3)

python爬虫从入门到放弃前奏之学习方法

摘要：首谈方法最近在整理爬虫系列的博客，但是当整理几篇之后，发现一个问题，不管学习任何内容，其实方法是最重要的，按照我之前写的博客内容，其实学起来还是很点枯燥不能解决传统学习过程中的几个问题：这个是普通学习中我们都经常会碰到的问题，按照之前我整理的文章，包括我自己学习的过程，其实这是一个非常大的痛点，阅读全文

posted @ 2017-06-27 11:27 fan-tastic 阅读(9040) 评论(6) 推荐(9)

Go 从入门到精通（三）字符串，时间，流程控制，函数

摘要：一、strings和strconv的使用 strings strings.HasPrefix(s string,preffix string) bool:判断字符串s是否以prefix开头 stirngs.HasSuffix(s string,suffix string) bool:判断字符串s是否阅读全文

posted @ 2017-06-24 01:02 fan-tastic 阅读(1755) 评论(0) 推荐(0)

快速建立个人知识体系

摘要：最近建了一个运维架构知识体系的群，为什么要创办这么一个群，对大家有什么样的好处？我相信刚参加工作的都会碰到这样的问题：新人刚入职领导交代一个不会，但是为了表现自己的能力不差，领导没有看走眼，硬着头皮也要完成下去，会面临如下几个问题：第一时间在各大QQ群或微信群咨询那么你有没有想过你为什么提的问题没阅读全文

posted @ 2017-06-22 22:56 fan-tastic 阅读(2445) 评论(3) 推荐(0)

go 从入门到精通（二）基本数据类型和操作符

摘要：一、文件名&关键字&标识符所有go源码都是以.go结尾标识符以字母或下划线开头，大小写敏感下划线_是特殊标识符，用户忽略结果保留关键字导入包时可以设置别名下面是保留关键字：二、GO程序的基本结构小练习1写一个小程序，对于给定的一个数字n，求出所有两两相加等于n的组合小练习2写一个小阅读全文

posted @ 2017-06-14 01:00 fan-tastic 阅读(2589) 评论(5) 推荐(0)

python爬虫番外篇（一）进程，线程的初步了解

摘要：整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容，因为爬虫爬取数据可能很简单，但是如何高效持久的爬，利用进程，线程，以及异步IO,其实很多人和我一样，故整理此系列番外篇一、进程程序并不能单独和运行只有将程序装载到内存中，系统为他分配资源才能运行，而这种执行的程序就称之为进程。程序和进程的阅读全文

posted @ 2017-06-12 20:58 fan-tastic 阅读(7987) 评论(0) 推荐(0)

Go从入门到精通（一）go语言初识

摘要：一、第一个go程序对于代码的解释如果是为了将代码编译成一个可执行程序，那么package必须是main如果是为了将代码编译成库，那么package则没有限制go中所有的代码都应该隶属一个包 fmt 是go的一个系统库 fmt.println()则可以打印输出如果想要运行程序：go run 程序阅读全文

posted @ 2017-06-08 14:57 fan-tastic 阅读(32658) 评论(0) 推荐(2)

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

摘要：通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个一个单独的散知识点，需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据目标站和目标数据目标地址：http://www.hshf 阅读全文

posted @ 2017-06-07 20:51 fan-tastic 阅读(22713) 评论(12) 推荐(4)

python爬虫从入门到放弃（八）之 Selenium库的使用

摘要：一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit 阅读全文

posted @ 2017-06-06 19:42 fan-tastic 阅读(234294) 评论(13) 推荐(31)

python爬虫从入门到放弃（七）之 PyQuery库的使用

摘要：PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：htt 阅读全文

posted @ 2017-06-02 22:51 fan-tastic 阅读(47108) 评论(5) 推荐(4)

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

摘要：上一篇文章的正则，其实对很多人来说用起来是不方便的，加上需要记很多规则，所以用起来不是特别熟练，而这节我们提到的beautifulsoup就是一个非常强大的工具，爬虫利器。 beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正阅读全文

posted @ 2017-06-01 21:59 fan-tastic 阅读(143947) 评论(11) 推荐(13)

06 2017 档案

公告