摘要: Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个rowgroup,在rowgroup中对每个列分别进行存储。另:Hive能支持自定义格... 阅读全文
posted @ 2015-12-11 00:00 成都笨笨 阅读(3819) 评论(0) 推荐(0) 编辑
摘要: Facebook曾在2010ICDE(IEEEInternationalConferenceonDataEngineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理,经过语句解... 阅读全文
posted @ 2015-12-10 23:45 成都笨笨 阅读(8367) 评论(0) 推荐(0) 编辑
摘要: 在csdn也开通了博客。以博客园为主,本博客会第一时间持续更新最新的文章和算法研究 阅读全文
posted @ 2015-12-04 21:43 成都笨笨 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误 奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻... 阅读全文
posted @ 2015-12-03 23:38 成都笨笨 阅读(1241) 评论(0) 推荐(1) 编辑
摘要: 这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集... 阅读全文
posted @ 2015-12-02 22:43 成都笨笨 阅读(3513) 评论(1) 推荐(1) 编辑
摘要: 015年4月1日(星期二)晴南风 今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!MyGOD!通过和群里进行技术交流,大概明白了解决... 阅读全文
posted @ 2015-12-02 13:02 成都笨笨 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个... 阅读全文
posted @ 2015-12-01 12:04 成都笨笨 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 2015年3月23日(星期一)晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路... 阅读全文
posted @ 2015-12-01 01:19 成都笨笨 阅读(551) 评论(0) 推荐(0) 编辑
摘要: 2015年3月06日(星期五) 阴、南风,天空依旧没有太阳。 项目的进展好比这天气一样,说变就变。搜索引擎的会议开完了。会议开完了的同时,也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划,项目的失败也必然的。虽然项目开始时候,大家都预见到了结局,但是当结局来临的那一刻,... 阅读全文
posted @ 2015-12-01 00:09 成都笨笨 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 启动hive命令报错 “Metastore contains multiple versions”解决方案:因为hivemetastore存储在mysql中,所以登录mysql,usehive所使用的DB,然后查询下VERSION表 1 mysql> select * from VERSION;... 阅读全文
posted @ 2015-11-29 21:39 成都笨笨 阅读(270) 评论(0) 推荐(0) 编辑