摘要:
用java写的trie tree主要是在写spider的时候,需要存储解析出的网页的url,判断是否已经处理过或已经加入等待处理的url队列,避免出现网页的url出现循环,使用trietree的最大的有点就是节约存储空间;包括两个方法:一是find,查找相应的string是否已经出现过;二是add,把不存在的string加入到TrieTree。下面是源代码: 1 package com.base; 2 3 class TrieTreeNode{ 4 public String str=null; 5 Object[] children=new Object[128]; 6 }... 阅读全文
摘要:
1、主要应用getContentType获取相应的网页编码方式:pageUrl=new URL(urlString);HttpURLConnection uc = (HttpURLConnection) pageUrl.openConnection();String encoding=uc.getContentType();2、再提取charset子串(这里使用"charset=",由于网页中的大小写不敏感,所以最好用正则表达式修改一下)encoding=encoding.substring(encoding.indexOf("charset=")+8) 阅读全文