随笔分类 -  数据挖掘及机器学习

protobuf,log4j,日志处理及挖掘
摘要:http://www.cnblogs.com/easymind223/archive/2012/10/30/2747178.html聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计... 阅读全文
posted @ 2014-06-04 13:53 Django's blog 阅读(475) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/haidao2009/article/details/7514787菜鸟最近开始学习machine learning。发现adaboost 挺有趣,就把自己的一些思考写下来。主要参考了http://stblog.baidu-tech.com/?p=19,其实... 阅读全文
posted @ 2014-06-04 11:31 Django's blog 阅读(607) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/yangliuy/article/details/7316496课程文本分类project SVM算法入门转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Supp... 阅读全文
posted @ 2014-06-04 10:09 Django's blog 阅读(314) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/v_july_v/article/details/7624837 支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid ;致谢:白石、JerryLead出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support... 阅读全文
posted @ 2014-05-26 10:21 Django's blog 阅读(599) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/haidao2009/article/details/14897813hadoop 2.2 搭建http://blog.csdn.net/pelick/article/details/120651471但是上面这个配置里面有点小问题问题yarn.nodema... 阅读全文
posted @ 2014-05-14 16:08 Django's blog 阅读(634) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,... 阅读全文
posted @ 2014-05-14 15:41 Django's blog 阅读(253) 评论(0) 推荐(0) 编辑
摘要:master、slave1两台机器实现ssh免密码登录,user:hadoop,passwd:1234561.设置master:vi/etc/sysconfig/network hostnamemaster修改hosts:vi/etc/hosts192.168.10.10master192.168.... 阅读全文
posted @ 2014-05-14 13:48 Django's blog 阅读(437) 评论(0) 推荐(0) 编辑
摘要:http://www.oschina.net/translate/a-guide-to-python-frameworks-for-hadoop最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行... 阅读全文
posted @ 2014-05-13 16:55 Django's blog 阅读(1642) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/licongcong_0224/article/details/12972889历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑... 阅读全文
posted @ 2014-05-13 13:17 Django's blog 阅读(376) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/myboyliu2007/article/details/18990277spark安装包:spark-0.9.0-incubating-bin-hadoop2.tgz操作系统: CentOS6.4jdk版本: jdk1.7.0_211. Cluster模式... 阅读全文
posted @ 2014-05-13 11:45 Django's blog 阅读(567) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/aquester/article/details/23340027类别名称官网备注查询引擎Phoenixhttp://phoenix.incubator.apache.org/ApacheHBase之上的一个SQL中间层,完全使用Java编写Stingerh... 阅读全文
posted @ 2014-04-28 23:14 Django's blog 阅读(346) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/w13770269691/article/details/16883663废话不讲,直切正题。搭建环境:Centos x 6.4 64bit1、安装JDK我这里用的是64位机,要下载对应的64位的JDK,下载地址:http://www.oracle.com/... 阅读全文
posted @ 2014-04-28 22:45 Django's blog 阅读(429) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/forfuture1978/archive/2010/05/08/1730200.html一、Lucene的查询语法Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax... 阅读全文
posted @ 2014-04-25 15:30 Django's blog 阅读(577) 评论(0) 推荐(0) 编辑
摘要:spark0.8.0安装与学习原文地址:http://www.yanjiuyanjiu.com/blog/20131017/环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.8.0, Scala 2.9.3Spark 0.7.2 的安装请看之前的一篇博客,安... 阅读全文
posted @ 2014-04-24 21:58 Django's blog 阅读(357) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/CheeseZH/archive/2012/11/27/2791037.html吃水不忘挖井人,这篇文章给了我很大帮助:http://blog.csdn.net/caimo/article/details/7686872,这篇文章写的蛮详细,不过是ICT... 阅读全文
posted @ 2014-04-22 11:42 Django's blog 阅读(3680) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html 【转载时请注明来源】:http://www.cnblogs.com/jerrylead JerryLead 2011年2月27日 作为一个机器学习初学者,认识有限,表述... 阅读全文
posted @ 2014-04-21 18:24 Django's blog 阅读(251) 评论(0) 推荐(0) 编辑
摘要:http://cn.soulmachine.me//blog/20130617/环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客... 阅读全文
posted @ 2014-04-21 18:21 Django's blog 阅读(516) 评论(0) 推荐(0) 编辑
摘要:http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636149.htmlHadoop vs Spark性能对比基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0... 阅读全文
posted @ 2014-04-21 13:30 Django's blog 阅读(887) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/whaoxysh/article/details/17755555虚拟机安装我安装的虚拟机版本是VMware Workstation 8.04,自己电脑上安装的有的话直接在虚拟机安装Linux操作系统,没有的话这里有我的一个百度云网盘虚拟机安装共享文件htt... 阅读全文
posted @ 2014-04-21 12:25 Django's blog 阅读(1365) 评论(0) 推荐(0) 编辑
摘要:转:http://blog.csdn.net/pelick/article/details/9888311Spark概述Spark是一种与 Hadoop 相似的开源集群计算环境,在性能和迭代计算上很有看点,现在是Apache孵化的顶级项目吧。Spark 由加州大学伯克利分校 AMP 实验室(Algo... 阅读全文
posted @ 2014-04-21 12:19 Django's blog 阅读(358) 评论(0) 推荐(0) 编辑