上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页

2012年6月8日

hibernate常用核心开发接口

摘要: Hibernate的核心接口所有的Hibernate应用都会访问Hibernate的5个核心接口。1.Configuration接口:配置Hibernate,根启动Hibernate,创建SessionFactory对象。2.SessionFactory接口:初始化Hibernate,充当数据存储源的代理,创建Session对象。3.Session接口:负责保存、更新、删除、加载和查询对象。4.Transaction:管理事务。5.Query和Criteria接口:执行数据库查询。Configuration接口Configuration对象用于配置并且根启动Hibernation。Hibern 阅读全文

posted @ 2012-06-08 14:26 linzuxin 阅读(254) 评论(0) 推荐(0) 编辑

2012年6月1日

heritrix总结---定制FrontierScheduler

摘要: Heritrix扩展有两种方式:一种是重写FrontierScheduler;一种是重写Extractor;今天讲第一种。它的作用是在后处理时踢出一些不满足条件的url,直接上代码package org.VOD.Video; import org.archive.crawler.datamodel.CandidateURI; import org.archive.crawler.postprocessor.FrontierScheduler; public class FrontierSchedulerForKuwo extends FrontierScheduler { private... 阅读全文

posted @ 2012-06-01 00:18 linzuxin 阅读(232) 评论(0) 推荐(0) 编辑

2012年5月31日

heritrix总结------HostnameQueueAssignmentPolicy改写

摘要: Heritrix多线程默认是根据域名来分下载队列,但是这种策略非常不符合垂直搜索的要求,故需要引入ELFHash来改进分配策略。指定的链接队列中以host作为key值进行hash,这样使得即使配置了100个线程,也只有一个线程在运行,因为heritrix默认每次从一个队列中取出来一个url进行抓取,等抓取结束之后再取另外一个。因为指定路径基本上都是在一个host里面,这样就会变成单线程爬取,非常的慢。无奈之下继续改写,这次是修改HostnameQueueAssignmentPolicy,也是系统默认的。其中主要是getClassKey这个函数,是生成队列的key值得,使用ELFHash哈希算法 阅读全文

posted @ 2012-05-31 23:31 linzuxin 阅读(178) 评论(0) 推荐(0) 编辑

利用 Heritrix 构建特定站点爬虫

摘要: 本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你是否觉得普通的数据库检索已经不能满足你的查询需求了呢?是否希望花最小的代价为你的网站建立一个像 Google、百度那样的全文搜索引擎?是否希望创建自己专有的搜索引擎而不是想尽办法 SEO(Search Engine 阅读全文

posted @ 2012-05-31 09:06 linzuxin 阅读(151) 评论(0) 推荐(0) 编辑

2012年5月29日

linux mysql proxy 的安装,配置,以及读写分离

摘要: 一,mysql proxy是什么,干什么用的MySQL Proxy就是这么一个中间层代理,简单的说,MySQL Proxy就是一个连接池,负责将前台应用的连接请求转发给后台的数据库,并且通过使用lua脚本,可以实现复杂的连接控制和过滤,从而实现读写分离和负 载平衡。对于应用来说,MySQL Proxy是完全透明的,应用则只需要连接到MySQL Proxy的监听端口即可。当然,这样proxy机器可能成为单点失效,但完全可以使用多个proxy机器做为冗余,在应用服务器的连接池配置中配置到多 个proxy的连接参数即可。mysql replication 数据同步上图中,web到底连接那个数据库, 阅读全文

posted @ 2012-05-29 14:50 linzuxin 阅读(543) 评论(0) 推荐(0) 编辑

2012年5月28日

雷军 :互联网创业的葵花宝典

摘要: 一个朋友,在一家软件的大企业做了十年的软件研发,想出来创业,问我要注意什么。我开玩笑说,要想成功,必须学习互联网创业的“葵花宝典”,第一条就是“挥刀自宫”。大的软件公司有很多资源,研发能力不错,各种推广资源也非常优越,但很少开发出来优秀的互联网产品。初步看上去,原因很多,比如很难调动个人的积极性、内部管理协调非常困难等。我认为还有一个重要的原因,就是方法不得当。大公司资源多,一个互联网创新项目,投入大量资源后,公司期望值高,考虑的问题自然多了,反而不容易做好。从大公司离职出来创业,首先要“挥刀自宫”,干掉大公司这套做法,控制成本尽量少花钱,集中精力和资源解决核心的一两个问题就足够了。不要想太多 阅读全文

posted @ 2012-05-28 09:50 linzuxin 阅读(243) 评论(0) 推荐(0) 编辑

2012年5月24日

Python open读写文件实现脚本

摘要: 1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object=open('thefile.txt')try:all_the_text=file_object.read( )finally:file_object.close( )注:不能把open语句放在try块里,因为当打开文件出现异常时,文件对象file_object无法执行close()方法。2.读文件读文本文件input=open('data','r')#第二个参数默认为rinput=open 阅读全文

posted @ 2012-05-24 14:03 linzuxin 阅读(449) 评论(0) 推荐(0) 编辑

python容器类型----列表的使用

摘要: python的容器主要包含列表列表,字典1、列表对象的方法包含:insert(i,x)--------在指定位置插入一项。第一自变量是要在哪一个元素前面插入,用下标表示。如:a.insert(0,x)在列表前面插入,a.insert(len(a),x)等价于a.append(x)append(x)---------等价于a.insert(len(a),x)index(x)----------在列表中查找值为x然后返回第一个x的元素的下标,没有找到时出错remove(x)---------在列表中删除第一个值为x的元素,找不到时出错sort()------------对列表元素在原位排序,这个方 阅读全文

posted @ 2012-05-24 13:58 linzuxin 阅读(173) 评论(0) 推荐(0) 编辑

2012年5月18日

Java中的五种单例模式实现方法

摘要: package singleton; /** * @author lei * 单例模式的五种写法: * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 * 2011-9-6 */ /** *五、 双重校验锁,在当前的内存模型中无效 */ class LockSingleton{ private volatile static LockSingleton singleton; private LockSingleton(){} //详见:http://www.ibm.com/developerworks/cn/java/j-dcl.... 阅读全文

posted @ 2012-05-18 18:24 linzuxin 阅读(169) 评论(0) 推荐(0) 编辑

Python random模块

摘要: random是用于生成随机数的,我们可以利用它随机生成数字或者选择字符串。random.random() 用于生成一个随机浮点数:range[0.0,1.0)1importrandom2random.random()#输出 0.5487876445645461random.uniform(a,b) 用于生成一个指定范围内的随机浮点数,a,b为上下限,只要a!=b,就会生成介于两者之间的一个浮点数,若a=b,则生成的浮点数就是a1importrandom2random.uniform(10,20)#输出 15.9999970381523583random.uniform(20,10)#输出 12 阅读全文

posted @ 2012-05-18 17:00 linzuxin 阅读(187) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页

导航