kalor

导航

 

2013年3月8日

摘要: “什么是做博士的目的?”在我选定研究方向,正准备挽起袖管大干一番的时候,我们的院长尼科·海博曼问了我这个问题。我想都没想,脱口而出,“就是在某一个领域做出重要的成果。”“不对。”尼科·海博曼教授不假思索地否定了我。他告诉我,“读博士,就是挑选一个狭窄并重要的领域作研究,毕业的时候交出一篇世界一流的毕业论文,成为这个领域里世界首屈一指的专家。任何人提到这个领域的时候,都会想起你的名字。” 海博曼教授的“做世界某一个领域的一流”的观点,让我十分震惊,我从未奢望在20多岁时走到某个领域的顶峰,但是这种“要做就要做到最好”的激励,我始终铭记在内心深处。 看到了我的兴奋,海博曼教授问 阅读全文
posted @ 2013-03-08 13:35 kalor 阅读(670) 评论(0) 推荐(0) 编辑
 
摘要: 语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。 语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。为满足这一需求,基于统计的语言模型应运而生。这种语言模型通常是概率模型,计算机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,而不是简单的判断该句子是否符合文法。常用统计语言模型,包括了N.. 阅读全文
posted @ 2013-03-08 10:24 kalor 阅读(888) 评论(0) 推荐(0) 编辑
 

2013年1月11日

摘要: Based on existing job: 以一个已经有的抓取任务为模版,创建所有抓取属性和抓取起始URL的列表;Based on a recovery: 在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始;Based on a profile: 专门为不同的任务设置了一些模版,新建的任务将按照模版来生成;With defaults: 表示按默认的配置来生成一个任务 阅读全文
posted @ 2013-01-11 20:56 kalor 阅读(163) 评论(0) 推荐(0) 编辑
 
摘要: Eclipse中配置使用Heritrix-1.14.41. 下载并解压heritrix-1.14.4-src.zip和heritrix-1.14.4.zip;2. 在Eclipse中新建java project,项目名定为HeritrixProject;3. 将解压后的heritrix-1.14.4-src.zip中src/java/下的com,org,st文件夹复制到工程的src目录下;4. 将src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下;5. 解压heri 阅读全文
posted @ 2013-01-11 18:56 kalor 阅读(437) 评论(0) 推荐(0) 编辑
 

2013年1月8日

摘要: java为数据结构中的映射定义了一个接口java.util.Map;它有四个实现类,分别是HashMap Hashtable LinkedHashMap 和TreeMap:Map主要用于存储健值对,根据键得到值,因此不允许键重复(重复了覆盖了),但允许值重复。Hashmap 是一个最常用的Map,它根据键的HashCode 值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得数据的顺序是完全随机的。HashMap最多只允许一条记录的键为Null;允许多条记录的值为 Null;HashMap不支持线程的同步,即任一时刻可以有多个线程同时写HashMap;可能会导致数据的不一致。 阅读全文
posted @ 2013-01-08 16:55 kalor 阅读(245) 评论(0) 推荐(0) 编辑
 
摘要: Map接口源代码如下:public interface Map<K,V> { boolean containsKey(Object key); boolean containsValue(Object value); V get(Object key); V put(K key, V value); V remove(Object key); // @param m mappings to be stored in this map. void putAll(Map<? extends K, ? extends V> m); void clear(); //... 阅读全文
posted @ 2013-01-08 16:25 kalor 阅读(218) 评论(0) 推荐(0) 编辑
 

2013年1月7日

摘要: 网络 I/O 优化 网络 I/O 优化通常有一些基本处理原则: 1、一个是减少网络交互的次数:要减少网络交互的次数通常我们在需要网络交互的两端会设置缓存,比如 Oracle 的 JDBC 驱动程序,就提供了对查询的 SQL 结果的缓存,在客户端和数据库端 都有,可以有效的减少对数据库的访问。关于 Oracle JDBC 的内存管理可以参考《 Oracle JDBC 内存管理》。除了设置缓存还有一个办法是,合并访问请求:如在查询数据库时,我们要查 10 个 id,我可以每次查一个 id,也可以一次查 10 个 id。再比如在访问一个页面时通过会有多个 js 或 css 的文件,我们可以将多个.. 阅读全文
posted @ 2013-01-07 18:25 kalor 阅读(236) 评论(0) 推荐(0) 编辑
 
摘要: HashMap和HashSet是JavaCollectionFramework的两个重要成员,其中HashMap是Map接口的常用实现类,HashSet是Set接口的常用实现类。虽然HashMap和HashSet实现的接口规范不同,但它们底层的Hash存储机制完全一样,甚至HashSet本身就采用HashMap来实现的。通过HashMap、HashSet的源代码分析其Hash存储机制实际上,HashSet和HashMap之间有很多相似之处,对于HashSet而言,系统采用Hash算法决定集合元素的存储位置,这样可以保证能快速存、取集合元素;对于HashMap而言,系统key-value当成一. 阅读全文
posted @ 2013-01-07 16:55 kalor 阅读(412) 评论(0) 推荐(0) 编辑
 
摘要: Be Careful With Transient DataJava's serialization provides an elegant, and easy to use mechanism for making an object's state persistent. While controlling object serialization, we might have a particular object data member that we do not want the serialization mechanism to save.To turn off 阅读全文
posted @ 2013-01-07 14:18 kalor 阅读(299) 评论(0) 推荐(0) 编辑
 
摘要: HashSet实现Set接口,由哈希表(实际上是一个HashMap实例)支持。它不保证set的迭代顺序;特别是它不保证该顺序恒久不变。此类允许使用null元素。HashSet在Java中的源代码实现:publicclassHashSet<E> extendsAbstractSet<E> implementsSet<E>,Cloneable,java.io.Serializable { staticfinallongserialVersionUID=-5024744406713321676L; //底层使用HashMap来保存HashSet中所有元素。 pri 阅读全文
posted @ 2013-01-07 14:01 kalor 阅读(536) 评论(0) 推荐(1) 编辑