随笔档案「2012年9月18日」：用java写的TrieTree ... - AndyDHG

2012年9月18日

摘要：用java写的trie tree主要是在写spider的时候，需要存储解析出的网页的url，判断是否已经处理过或已经加入等待处理的url队列，避免出现网页的url出现循环，使用trietree的最大的有点就是节约存储空间；包括两个方法：一是find，查找相应的string是否已经出现过；二是add，把不存在的string加入到TrieTree。下面是源代码： 1 package com.base; 2 3 class TrieTreeNode{ 4 public String str=null; 5 Object[] children=new Object[128]; 6 }... 阅读全文

posted @ 2012-09-18 10:44 AndyDHG 阅读(280) 评论(0) 推荐(0)

解决java用url中读取html源码时的乱码问题

摘要： 1、主要应用getContentType获取相应的网页编码方式：pageUrl=new URL(urlString);HttpURLConnection uc = (HttpURLConnection) pageUrl.openConnection();String encoding=uc.getContentType();2、再提取charset子串（这里使用"charset="，由于网页中的大小写不敏感，所以最好用正则表达式修改一下）encoding=encoding.substring(encoding.indexOf("charset=")+8) 阅读全文

posted @ 2012-09-18 10:30 AndyDHG 阅读(1653) 评论(0) 推荐(0)

A dream doesn't become reality through magic; it takes sweat, determination and hard work.

公告