2013年12月31日

宽度优先爬虫-爬虫学习(四)

摘要: 我们用爬虫去遍历互联网的时候,可以将互联网看作是一个有向图,链接就是图中的有向边,所以我们可以利用图的遍历方法去遍历这个巨大的互联网,图的遍历有宽度优先遍历和深度优先遍历。但是深度优先遍历可能会在遍历的时候遍历过深,导致浪费资源,所以我们这里采用宽度优先遍历。 下面使用Java实现一个简单的宽度优先爬虫的例子,其中用到来HttpClient和HtmlParser两个开源的工具包。/** * @introduction 队列 保留将要访问的URL * @author Guo */public class Queue { /** * @introduction 底层使用Lin... 阅读全文

posted @ 2013-12-31 22:46 进击的Ray_xujianguo 阅读(1485) 评论(3) 推荐(0) 编辑

2013年12月25日

用Python复习离散数学(二)

摘要: 这次复习的是计数问题,立刻走起吧! 1.乘法原理 如果一项工作需要t步完成的,第一步有n1种不同的选择,第二步有n2种不同的选择,……,第t步有nt中不同的选择,那么完成这项工作所有可能的选择种数为: n1 x n2 x …… x ntdef multiply(*args): count = 0 for x in args: count *= x print "the all possible choices is %d" % count 2.加法原理 假定X1,X2,……,Xt均为集合,第i个集合Xi有ni个元素,则可以从X1,X... 阅读全文

posted @ 2013-12-25 12:31 进击的Ray_xujianguo 阅读(925) 评论(0) 推荐(0) 编辑

2013年12月19日

HtmlParser的使用-爬虫学习(三)

摘要: 关于这个HtmlParser的学习资料,网上真的很匮乏,这个好用的东西不要浪费啊,所以我在这里隆重的介绍一下。 HtmlParser是一个用来解析HTML文件的Java包,主要用于转换盒抽取两个方面。 利用HtmlParser,你可以实现下面的内容的抽取: a.文本抽取 b.链接抽取 c.资源抽取。可以搜集到图像和声音文件等资源 d.链接检查。保证链接是有用的 e.站点检查,可以查看页面不同版本之间的差异 利用HtmlParser,你可以利用它的转换功能,主要体现在几个方面: a.URL重写。能够修正页面中的错误链接 b.广告清楚。清除页面中的广告内容和指向广告的链接 ... 阅读全文

posted @ 2013-12-19 15:56 进击的Ray_xujianguo 阅读(2368) 评论(7) 推荐(4) 编辑

2013年12月17日

用Python复习离散数学(一)

摘要: 最近要复习离散数学,不想挂啊,但是又想编程,大家知道啦,程序员离不开代码啊,所用想边复习边写代码,所以就自己用代码去实现一下离散的知识点,当做复习,自知自己的Python很渣,也想借此巩固一下基础,哈哈,事不宜迟,开始吧! 1.集合 概念:集合是由指定范围内的某些特定对象聚集在一起构成的,元素就是集合中的每一个对象 怎么用python实现集合呢,这个我自定义了一个类,这个类中有一个构造方法,底层我用列表是存储集合中的元素,用add方法可以添加元素,show方法就可以展示元素class MySet(): __num = 0 def __init__(self): ... 阅读全文

posted @ 2013-12-17 22:59 进击的Ray_xujianguo 阅读(3747) 评论(2) 推荐(2) 编辑

正则表达式-爬虫学习(二)

摘要: 我们在做爬虫的时候,要提取网页的信息,一个网页中的信息可能有很多,我们要去筛选,例如我们要获取一个网页中的所有子链接,这个就需要我们用正则表达式去匹配,匹配后得到的数据我们要的东西了,下面简单介绍一下,学过的可以当复习,没学过的就好好看看。 正则表达式:是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,简单说,就是我们写个模板,然后去匹配字符串。 下面我们来看看一些基本的正则表达式的语法: \:将下个字符标记为一个特殊的字符、一个原义字符、一个向后引用或者一个八进制转义符例如“\n”就是匹配一个换行符。 ^:匹配开始位置,^(a)这个就匹配开头必须为a。 $:匹... 阅读全文

posted @ 2013-12-17 18:47 进击的Ray_xujianguo 阅读(1428) 评论(0) 推荐(0) 编辑

2013年12月16日

HttpClient的使用-爬虫学习(一)

摘要: Apache真是伟大,为我们提供了HttpClient.jar,这个HttpClient是客户端的http通信实现库,这个类库的作用是接受和发送http报文,引进这个类库,我们对于http的操作会变得简单一些,事不宜迟,赶快介绍。 在将这个HttpClient之前,我们必须弄清两个概念:URL和URI URI(Universal Resource Identify),通用资源标识符,而URL(Uniform Resource Locator),统一资源定位符,两个有什么区别,其实就是范围大小的问题,URI是包含URL的,URI由访问资源的命名机制、存放资源的主机名、资源自身的路径组成,... 阅读全文

posted @ 2013-12-16 13:19 进击的Ray_xujianguo 阅读(7344) 评论(5) 推荐(8) 编辑

2013年12月13日

Spring注解:@Resource、@PreConstruct、@PreDestroy、@Component

摘要: 要使用Spring的注解,必须在XML文件中配置有属性,告诉人家你要使用注解,Spring容器才会去加载类上的注解: @Resource注解: 作用:自动装配属性值 位置:属性的setter方法上example:public class UserService { private UserDao userDao; public User get() { return userDao.get(); } public UserDao getUserDao() { return userDao; }... 阅读全文

posted @ 2013-12-13 16:54 进击的Ray_xujianguo 阅读(674) 评论(0) 推荐(0) 编辑

导航