会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
成都笨笨
老骥伏枥 志在千里 烈士暮年 壮心不已
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2016年2月20日
机器学习之开源库
摘要: 研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、 Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。 以前在学校用过matlab,说实话真方
阅读全文
posted @ 2016-02-20 16:28 成都笨笨
阅读(175)
评论(0)
推荐(0)
编辑
2016年1月16日
win7(x64)安装scrapy框架
摘要: Scrapy(官网http://scrapy.org/)是Python开发网络爬虫,一个极好的开源工具。本次安装Scrapy确实不易啊。linux分分钟的事,win下居然花了半天多时间,需要的支持包比较多,这些支持包相互之间的依赖关系。环境:Win7专业版(X64)机器上有安装Vs2010。Pyth...
阅读全文
posted @ 2016-01-16 12:58 成都笨笨
阅读(160)
评论(0)
推荐(0)
编辑
2016年1月12日
node.js和npm
摘要: 1, 安装SASS, Compass 如果你没有Ruby运行时环境,去这里下载安装ruby.$ gem install sass compass如果国外服务器不给力,也可以把GEM的源换成国内的,比如淘宝:gem sources --add https://ruby.taobao.org/ --re...
阅读全文
posted @ 2016-01-12 21:26 成都笨笨
阅读(117)
评论(0)
推荐(0)
编辑
2015年12月30日
大数据分析(一)探索性分析
摘要: 最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop、hive、storm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。 我们对...
阅读全文
posted @ 2015-12-30 02:31 成都笨笨
阅读(8648)
评论(0)
推荐(0)
编辑
2015年12月22日
centos7安装CDH5.5.0
摘要: 1、安装jdk mkdir -p /usr/java tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/java/ vi /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_80 export PATH=$PATH:$...
阅读全文
posted @ 2015-12-22 01:30 成都笨笨
阅读(1172)
评论(0)
推荐(0)
编辑
大数据经典书籍推荐
摘要: 下面是大数据学习的基本经典书籍,有兴趣的同仁可以买来翻翻1.深入浅出数据分析这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。2.啤酒与尿布通过案例来说事情,而且是最经典的例子。难易程度:非常易。3.数据之美一本介绍性的书籍,每章都解决一个具体的问题,甚至还有...
阅读全文
posted @ 2015-12-22 00:30 成都笨笨
阅读(3001)
评论(0)
推荐(0)
编辑
公开的海量数据集 Public Research-Quality Datasets
摘要: 转载一篇文章:公开的海量数据集 Public Research-Quality Datasets 海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、Hadoop等架构的普遍推广,大家都在构建自己的...
阅读全文
posted @ 2015-12-22 00:27 成都笨笨
阅读(629)
评论(0)
推荐(0)
编辑
2015年12月11日
HIVE存储(五)HIVE文件的性能测试
摘要: 源表数据记录数:60000000第一步:创建三种文件类型的表,建表语法参考Hive文件存储格式Sql代码TextFile 1 set hive.exec.compress.output=true; 2 3 set mapred.output.compress=true; 4 5 set ...
阅读全文
posted @ 2015-12-11 00:52 成都笨笨
阅读(1285)
评论(0)
推荐(0)
编辑
HIVE存储(四)ORCFile
摘要: 先介绍下Orc的文件格式,截一张官方的图:可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile里的RowGroup概念,不过大小由4MB->250MB,这样应该能提升顺序读的吞吐率。每个Stripe里有三部分组成,分别是...
阅读全文
posted @ 2015-12-11 00:22 成都笨笨
阅读(743)
评论(0)
推荐(0)
编辑
HIVE存储(三)RCFile
摘要: RCFile(RecordColumnarFile)存储结构遵循的是“先水平划分,再垂直划分”的设计理念,这个想法来源于PAX。它结合了行存储和列存储的优点:首先,RCFile保证同一行的数据位于同一节点,因此元组重构的开销很低;其次,像列存储一样,RCFile能够利用列维度的数据压缩,并且能跳...
阅读全文
posted @ 2015-12-11 00:11 成都笨笨
阅读(3456)
评论(0)
推荐(1)
编辑
上一页
1
2
3
4
5
下一页