2015年8月12日

hadoop filesystem 删除文件 复制文件 重命名文件

摘要: private void moveFile(Configuration conf, String Path1, String Path2, String newname ) throws IOException { FileSystem fs = FileSystem.get(conf); F... 阅读全文

posted @ 2015-08-12 08:51 agilezing 阅读(574) 评论(0) 推荐(0) 编辑

2015年8月11日

hadoop 文件 复制 移动 FileUtil.copy

摘要: hadoop 文件复制,文件移动函数 FileUtil.copy 用法 阅读全文

posted @ 2015-08-11 12:54 agilezing 阅读(3716) 评论(0) 推荐(0) 编辑

2014年5月27日

soinn

摘要: Growing Cell Structures A Self-Organizing Network for Unsupervised and Supervised LearningHere, and throughout the whole paper, △x = y stands for x(ne... 阅读全文

posted @ 2014-05-27 10:41 agilezing 阅读(250) 评论(0) 推荐(0) 编辑

2014年4月2日

double array trie 插入结点总结

摘要: 双数组Trie树索引的可操作性研究.pdf提示:任一状态点的移动,会影响其Trie树中父节点的base值的选择以及兄弟结点位置的变动,而兄弟结点的移动又须变更相应的子节点的check值。设待插入的词或其子串为‘c1c2c3...’。由双数组的结构可以看出,当索引中已经存在以单个字符G为状态的状态点时,所需的操作与建立双数组时的相同,不影响双数组的整体结构,我们把符合这种情况的词或其子串统称为“稳定词”。(1)字符c1不在序列码表中,把c1加入序列码表中,设定其码值为数组大小。(2) 索引中存在以字符c1,以及(c1,....ci-2)ci-1为状态的状态点,但字符Ci不在序列码表中。这时要把c 阅读全文

posted @ 2014-04-02 13:23 agilezing 阅读(259) 评论(0) 推荐(0) 编辑

2014年4月1日

摘录

摘要: K代表形成Trie的字符串集合。Trie由结点和连接结点的边(arc)组成。结点由Double-Array的下标来标记,边则是由字符来标记,如果一条边从结点n到结点m被标记成a,那么我们可以定义如下的函数g(n,a)=m。对于集合K中的一个字符串S在Trie中形成的一条路径P,如果路径P中有结点m满足g(n,a)=m ,使得在Trie中检索S时,检索到字符a就已经能够将字符串S与Trie中的其它字符串区别开来,那么结点m称为separate node。Double-Array和reducedtrie的关系如下:(到这里就很容易理解了,reduced trie表示的是一种结构,而Double-A 阅读全文

posted @ 2014-04-01 14:22 agilezing 阅读(153) 评论(0) 推荐(0) 编辑

2014年3月30日

dbt

摘要: Procedure Relocate(s : state; b : base_index){ Move base for state s to a new place beginning at b }begin foreach input character c for the state s { i.e. foreach c such that check[base[s] + c]] = s } begin check[b + c] := s; { mark owner } base[b + c] := base[base[s] + c]... 阅读全文

posted @ 2014-03-30 15:46 agilezing 阅读(335) 评论(0) 推荐(0) 编辑

2014年3月21日

网络爬虫的乱码处理

摘要: 关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。 网络爬虫,有两种选择,一是选择nutch、hetriex,二是自写爬虫,两者在处理乱码时,原理是一致的,但前者处理乱码时,要看懂源码后进行修改才可以,所以要废劲一些;而后者更自由方便,可以在编码处理时进行处理。这也是很多人在用框架写爬虫会出现各种各样的乱码时,无从下手的原因了,像比较成熟的nutch在处理乱码时也是比较简单的,所以依然会出现乱码,所以需要二次开发才能真正解决乱码问题。 ... 阅读全文

posted @ 2014-03-21 10:13 agilezing 阅读(4575) 评论(0) 推荐(0) 编辑

2014年3月19日

htmlcleaner

摘要: String xpath = "//div"; Object[] myNodes = node.evaluateXPath(xpath); for (Object obj : myNodes) { TagNode node = (TagNode) obj; // System.out.println(node.getAttributes()); title = node.getText().toString().trim(); } 阅读全文

posted @ 2014-03-19 09:11 agilezing 阅读(127) 评论(0) 推荐(0) 编辑

Redis

摘要: public class Redis { public static List list = new ArrayList(); public static Jedis jedis; public static void main(String[] args) throws IOException { Getlist(); jedis = new Jedis("localhost"); String md5; jedis.flushDB(); File file = new File("E:/work/Parser/Trial/out/check2.txt" 阅读全文

posted @ 2014-03-19 09:08 agilezing 阅读(199) 评论(0) 推荐(0) 编辑

MD5

摘要: public class MD5 { private static final char hexDigits[] = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' }; public static final String di 阅读全文

posted @ 2014-03-19 09:07 agilezing 阅读(286) 评论(0) 推荐(0) 编辑

导航