成都笨笨 - 博客园

2015年12月11日

摘要： Hive的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的，RCFILE是基于行列混合的思想，先按行把数据划分成N个rowgroup，在rowgroup中对每个列分别进行存储。另：Hive能支持自定义格... 阅读全文

posted @ 2015-12-11 00:00 成都笨笨阅读(3858) 评论(0) 推荐(0)

2015年12月10日

HIVE存储（一）HIVE存储的介绍

摘要： Facebook曾在2010ICDE（IEEEInternationalConferenceonDataEngineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理，经过语句解... 阅读全文

posted @ 2015-12-10 23:45 成都笨笨阅读(8425) 评论(0) 推荐(0)

2015年12月4日

将博客搬至CSDN

摘要：在csdn也开通了博客。以博客园为主，本博客会第一时间持续更新最新的文章和算法研究阅读全文

posted @ 2015-12-04 21:43 成都笨笨阅读(180) 评论(0) 推荐(0)

2015年12月3日

mapreduce导出MSSQL的数据到HDFS

摘要：今天想通过一些数据，来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误奇怪了，我的SQL语句中没有LIMIT，这LIMIT哪来的。我翻... 阅读全文

posted @ 2015-12-03 23:38 成都笨笨阅读(1268) 评论(0) 推荐(1)

2015年12月2日

基于信息熵的无字典分词算法

摘要：这几天在研究如何用统计方法来发现新词，扩充自己的词典。看到了几篇很有想法的文章，作者阐述了一下思路。文章里面的数据，我计算了一下，发现文有很多数据不够严谨，最主要的问题，并没有给出很详细的理论方面的说明。结合作者的思路，我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集... 阅读全文

posted @ 2015-12-02 22:43 成都笨笨阅读(3618) 评论(1) 推荐(1)

搜索引擎手记（三）之网页的去重

摘要： 015年4月1日(星期二)晴南风今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！MyGOD！通过和群里进行技术交流，大概明白了解决... 阅读全文

posted @ 2015-12-02 13:02 成都笨笨阅读(524) 评论(0) 推荐(0)

2015年12月1日

算法之常用的距离和相似度度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个... 阅读全文

posted @ 2015-12-01 12:04 成都笨笨阅读(498) 评论(0) 推荐(0)

搜索引擎手记（二）之爬虫的开发

摘要： 2015年3月23日(星期一)晴、南风今天数据组开会说爬虫已经开发完毕，在尝试爬网站。由于我们采集的网站，网址都是固定的，并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库，爬虫的架构思路借鉴了下面的思路... 阅读全文

posted @ 2015-12-01 01:19 成都笨笨阅读(575) 评论(0) 推荐(0)

搜索引擎手记（一）之引擎工作的开始

摘要： 2015年3月06日(星期五) 阴、南风，天空依旧没有太阳。项目的进展好比这天气一样，说变就变。搜索引擎的会议开完了。会议开完了的同时，也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划，项目的失败也必然的。虽然项目开始时候，大家都预见到了结局，但是当结局来临的那一刻，... 阅读全文

posted @ 2015-12-01 00:09 成都笨笨阅读(194) 评论(0) 推荐(0)

2015年11月29日

Hive安装（三）之奇怪的错误

摘要：启动hive命令报错 “Metastore contains multiple versions”解决方案：因为hivemetastore存储在mysql中，所以登录mysql，usehive所使用的DB，然后查询下VERSION表 1 mysql> select * from VERSION;... 阅读全文

posted @ 2015-11-29 21:39 成都笨笨阅读(288) 评论(0) 推荐(0)