摘要:
一. 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录, 执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下。 二. 需要配置的环境变量 1. PATH环境变量。作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。我们需要把 jdk安装目录下的bin目录增加到现有的PATH变量中,bin目录中包含经常要用到的可执行. 阅读全文
摘要:
由于安装英文版的系统不支持中文,出现中文文件名乱码。下面操作时在centos上安装中文支持:1)先下载并安装两个语言包:fonts-chinese-3.02-12.el5.noarch.rpmfonts-ISO8859-2-75dpi-1.0-17.1.noarch.rpm#rpm -ivh fonts-chinese-3.02-12.el5.noarch.rpm#rpm -ivh fonts-ISO8859-2-75dpi-1.0-17.1.noarch.rpm或者#yum install fonts-chinese-3.02-12.el5.noarch.rpm#yum install fo 阅读全文
摘要:
对于centos、fedora和redhat的关系这里无需赘述。redhat我用不起,它的防盗版工作做的又相当好,所以我从来没有用过redhat。fedora是我刚接触linux就用的一个系统,我觉得它很好用,只是它版本更新太快了,相信很多像我这样的菜鸟都曾在新版本出来时犹豫过要不要更新。centos据说与redhat如出一辙,有人说除了logo不同外,两者完全一致,不过也有人说两者其实并不完全相同,编译的不同导致两者在应用上有着细微的差别;它是否好用,有待于考察。 在安装时我采用的是手动分区,我讲一下大致过程,其它的具体步骤这里不提。 我们首先来温习一下创建LVM的过程: 1、划分出一... 阅读全文
摘要:
硬盘安装RedHat,FC,CentOS5.7不是问题,但是毕竟还是有不少的初学者,为了方便初学者们硬盘安装RedHat,FC,CentOS5.7(因为它们都是来源于RedHat,所以安装方法一模一样) 我还是写下了这篇文章第一种方法(最简单):1、下载DOS工具箱,有启动盘也行,只要能进入DOS2、下载loadlin.exe, 从第一张光盘中的isolinux目录下解压出 vmlinuz 和initrd.img 两个文件, 然后新建一个文本文档写入以下内容:loadlin.exe vmlinuz initrd=initrd.img ramdisk_size=9216后保存为msdos批处理文 阅读全文
摘要:
下面的这篇文章讲的十分透彻了,所以转载之abstractclass和interface是Java语言中对于抽象类定义进行支持的两种机制,正是由于这两种机制的存在,才赋予了Java强大的面向对象能力。abstractclass和interface之间在对于抽象类定义的支持方面具有很大的相似性,甚至可以相互替换,因此很多开发者在进行抽象类定义时对于abstractclass和interface的选择显得比较随意。其实,两者之间还是有很大的区别的,对于它们的选择甚至反映出对于问题领域本质的理解、对于设计意图的理解是否正确、合理。本文将对它们之间的区别进行一番剖析,试图给开发者提供一个在二者之间进行选 阅读全文
摘要:
最大熵工具包的使用 最大熵是自然语言处理中经常用到的一种统计方法。网上也有很多最大熵方面的工具包,目前大家用得最多的应该是张乐博士写的最大熵工具包了。该工具包既可以采用命令行形式运行,也可以直接调用接口函数,为大家的研究工作带来了很大的方便。但是,对于刚接触到该工具包的人来说,使用起来还是有些麻烦的。一、命令行形式使用方法 1、利用命令行形式,首先要准备好特征文件。特征文件的格式在最大熵工具包的使用说明书(manual20041229.pdf)的P24。特征文件中,一行就是一个事件(event),其格式首先是该event对应的类别label,然后是特征feature,两者都是string类型的 阅读全文
摘要:
Stanford CoreNLP开源项目的3种编译和运行方式1.Stanford CoreNLP简介Stanford CoreNLP, integrating our NER, POS tagger, and parser with a new coreference system官网上是如上介绍Stanford CoreNLP的。它是Stanford的NLP小组将自己的几个关于自然语言处理的组件组合起来的一个开源项目。该工具将Stanford的NER,POS tagger,parser工具和一个新的coreference指代系统整合在一起,形成了一个完整的自然语言处理工具平台。如果想做自然语 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642794欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :118972724 网上关于Heritrix的基本介绍有很多,这里就不再重复。我这里主要介绍下它的优缺点。然后我会介绍它的运作流程以及我会从流程中各个点结合源码来分别介绍.... Heritrix整体让人感觉有些复杂和繁琐,一个爬虫写成这样也真是成仙了。接触Heritrix有1年半了,大概花了2个月的时间(每天看代码时间8小时以上)将它的代码看完。这 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642550欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :118972724 在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以这里就介绍下它的编程启动方式吧....这里贴上示例代码以及注释:import java.io.File;imp 阅读全文
摘要:
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/642618欢迎加入Heritrix群(QQ):109148319,10447185(已满), Lucene/Solr群(QQ) :11897272 每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图: 以上就是Heritrix完成的文件结构,现在一一说明序号文件名说明1order.xmlHeritrix运行的所有配置,一个order.. 阅读全文