摘要: 用java写的trie tree主要是在写spider的时候,需要存储解析出的网页的url,判断是否已经处理过或已经加入等待处理的url队列,避免出现网页的url出现循环,使用trietree的最大的有点就是节约存储空间;包括两个方法:一是find,查找相应的string是否已经出现过;二是add,把不存在的string加入到TrieTree。下面是源代码: 1 package com.base; 2 3 class TrieTreeNode{ 4 public String str=null; 5 Object[] children=new Object[128]; 6 }... 阅读全文
posted @ 2012-09-18 10:44 AndyDHG 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 1、主要应用getContentType获取相应的网页编码方式:pageUrl=new URL(urlString);HttpURLConnection uc = (HttpURLConnection) pageUrl.openConnection();String encoding=uc.getContentType();2、再提取charset子串(这里使用"charset=",由于网页中的大小写不敏感,所以最好用正则表达式修改一下)encoding=encoding.substring(encoding.indexOf("charset=")+8) 阅读全文
posted @ 2012-09-18 10:30 AndyDHG 阅读(1609) 评论(0) 推荐(0) 编辑
摘要: 我毕业设计打算做一个垂直搜索引擎,关于手机方面的,抓取几个主流电商的网站的手机信息,导入到自己的搜索引擎主要实现搜索的比价,以及相关手机的性能参数。导师说最大的困难时抓取信息,这几天分析了京东商城手机方面的html页面原码,发现还是很有规律的:1)手机展览的页面公27页(到目前为止),格式是:http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-1.html然后是http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-2.html,只是末尾数据的变化。2)手.. 阅读全文
posted @ 2012-09-12 10:27 AndyDHG 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 1、首先是搭建开发环境:我建议搭建看视频吧,讲的比较清楚,我是看了好几遍的视频搭建起来的(http://v.youku.com/v_show/id_XMzc5MzM1NDQw.html):Windows下搭建Hadoop开发环境2、在Eclipse下写第一个MapReduce程序,这个写的过程很详细:还是建议读别人的文章:http://phz50.iteye.com/blog/932373 阅读全文
posted @ 2012-08-23 00:37 AndyDHG 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 这是helloworld级的入门步骤:一、下载微软api的jar包,并他们引入到工程; a:json-simple-1.1.jar b:microsoft-translator-java-api-0.6.1.jar (大家可以到我的快盘的分享链接下载:http://www.kuaipan.cn/file/id_7978915364603025.htm)二、在微软创建一个application账户:地址https://datamarket.azure.com/developer/applications/主要用于验证用户信息,因为这个api在2012年四月份改变了验证方式,截至到目前的验证方.. 阅读全文
posted @ 2012-08-16 09:57 AndyDHG 阅读(890) 评论(0) 推荐(0) 编辑
摘要: 在使用struts2+hibernate+spring时使用OpenSessionInViewFilter解决懒加载问题,但是使用的时候总是could not initialize proxy - no Session,看看别人的文章发现时web.xml配置的问题:我在ssh2框架下使用OpenSessionInViewFilter过滤器,让spring控制session的开关。出现了使用lazy特性读取属性的时候报错说,no session or session was close.经过反复的查找和测试发现问题,tomcat容器在加载过滤器的时候是按照数序加载的,他在写配置文件的时候先写的是 阅读全文
posted @ 2012-08-07 00:41 AndyDHG 阅读(258) 评论(0) 推荐(0) 编辑
摘要: String hql="from Employee where name=:name and pass_word=:passWord"; Query q=sessionFactory.openSession().createQuery(hql);注意红色标记的地方,写的时候应该和类名相对应,而不是和表名相对应, 阅读全文
posted @ 2012-08-05 19:11 AndyDHG 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 第一招、mysql服务的启动和停止net stop mysqlnet start mysql第二招、登陆mysql语法如下: mysql -u用户名 -p用户密码键入命令mysql -uroot -p, 回车后提示你输入密码,输入12345,然后回车即可进入到mysql中了,mysql的提示符是:mysql>注意,如果是连接到另外的机器上,则需要加入一个参数-h机器IP第三招、增加新用户格式:grant 权限 on 数据库.* to 用户名@登录主机 identified by "密码"如,增加一个用户user1密码为password1,让其可以在本机上登录, 并对所 阅读全文
posted @ 2012-07-29 23:48 AndyDHG 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 整个过程是: 通过user.jsp登陆,就是在session中添加(user,name)使用的命令是:request.getSession().setAttribute("user", "du");然后登到MyDefInterceptor,则进入到hello.jsp,通过quit.jsp退出,即request.getSession().removeAttribute("user");拦截器PermissionInterceptor的代码 1 package cn.itcast.interceptor; 2 3 import org.x 阅读全文
posted @ 2012-07-23 11:20 AndyDHG 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 本例创建一个处理GET请求和POST请求的servletservlet TimeForm中的GET方法显示一个窗体:Submit后的结果:源代码: 1 import javax.servlet.*; 2 import javax.servlet.http.*; 3 import java.io.*; 4 import java.text.DateFormat; 5 import java.util.*; 6 public class TimeForm extends HttpServlet{ 7 private static final String CONTENT_TYPE="te 阅读全文
posted @ 2012-07-17 10:46 AndyDHG 阅读(1179) 评论(0) 推荐(0) 编辑