摘要:
抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,... 阅读全文
摘要:
自定义blog样式时,代码段的line-height继承样式post的line-height,间隔太大了,决定再减小点,css都玩了几年了,感觉中这是很容易的事情。然后,就悲剧了好久,原先自定义样式表为.headermaintitle { font-family:"华文行楷",Verdan... 阅读全文
摘要:
1.简单模式 这种模式,配置简单,使用简单。 core-site.xml添加 hadoop.security.authorization true hadoop.security.authentication s... 阅读全文
摘要:
1.好久没用log4j了,转到logback好多年了,hbase程序运行时,报缺少log4j配置,那么,就转去logback吧(以下的XXX表示版本号)。 原先lib包里面有log4j-XXX.jar、slf4j-api-XXX.jar、slf4j-log4j12-XXX.jar,干掉log4... 阅读全文
摘要:
css和js,是咱的强项,花了几十分钟,调了下博客页面的css,重写了原先js中的一个方法,加了点东西,嗯。。就是右侧的块分类名居然有几个是英文的,不可饶恕! 内页的广告啥的隐掉,调了调样式,看着好多了。 中间有7年的东西没写上来,唉,慢慢加了,能记到多少写多少了。 右侧高度在内页中,还有... 阅读全文
摘要:
设定hbase的数据目录,修改conf/hbase-site.xml hbase.cluster.distributed true The mode the clusterwill be in. Possible values are ... 阅读全文
摘要:
看了下MapReduce的例子。再看了下Mapper和Reducer源码,理清了参数的意义,就o了。public class Mapperpublic class Reducer Map是打散过程,把输入的数据,拆分成若干的键值对。Reduce是重组的,根据前面的键值对,重组数据。 自己写M... 阅读全文
摘要:
开始没搞定插件问题,就弄了个dsf操作类,后面搞定了插件问题,这玩意也就聊胜于无了,还是丢这里算了。 首先是一个配置,ztool.hadoop.propertieshadoop.home.dir=G:/hadoop/hadoop-2.4.1hadoop.user.name=hadoophado... 阅读全文
摘要:
昨天折腾hadoop2X的eclipse插件,从https://github.com/winghc/hadoop2x-eclipse-plugin把源码搞下来后,很快搞定出来一个,但是。。。New Hadoop Location时,窗口出不来,汗死,原因后面会说明的。源码难下,最后我会附上源码包... 阅读全文
摘要:
先丢点问题小结到这里,免得忘记,有空再弄个详细教程玩,网上的教程要不就是旧版的,要不就是没说到点子上,随便搞搞也能碰上结果是对的时候,但是知其然而不知其所以然,没意思啊。解决问题的方法有很多种,总得找到比较合适的方法才行的。1.服务器禁用ipV6配置.2.Could not locate execu... 阅读全文