摘要: 用java写的trie tree主要是在写spider的时候,需要存储解析出的网页的url,判断是否已经处理过或已经加入等待处理的url队列,避免出现网页的url出现循环,使用trietree的最大的有点就是节约存储空间;包括两个方法:一是find,查找相应的string是否已经出现过;二是add,把不存在的string加入到TrieTree。下面是源代码: 1 package com.base; 2 3 class TrieTreeNode{ 4 public String str=null; 5 Object[] children=new Object[128]; 6 }... 阅读全文
posted @ 2012-09-18 10:44 AndyDHG 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1、主要应用getContentType获取相应的网页编码方式:pageUrl=new URL(urlString);HttpURLConnection uc = (HttpURLConnection) pageUrl.openConnection();String encoding=uc.getContentType();2、再提取charset子串(这里使用"charset=",由于网页中的大小写不敏感,所以最好用正则表达式修改一下)encoding=encoding.substring(encoding.indexOf("charset=")+8) 阅读全文
posted @ 2012-09-18 10:30 AndyDHG 阅读(1609) 评论(0) 推荐(0) 编辑