Hadoop develop

博学笃志,切问近思,此八字,是收放心的工夫。 神闲气静,智深勇沉,此八字,是干大事的本领。

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

09 2014 档案

摘要:每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前的CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。 阅读全文
posted @ 2014-09-28 11:08 张子良 阅读(1948) 评论(0) 推荐(1) 编辑

摘要:一、前言 最近一年了吧,总是忙于特定项目的业务分析和顶层设计,很少花时间和精力放到具体的技术细节,感觉除了架构理念和分析能力的提升,在具体技术层次却并没有多大的进步。因为一些原因,总被人问及一些技术细节,很多细节都模糊了,花点时间,温习一下吧。技术部分将作为下一个阶段的工作重点。 二、操作说明查看Z... 阅读全文
posted @ 2014-09-21 11:01 张子良 阅读(2391) 评论(0) 推荐(0) 编辑

摘要:与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方... 阅读全文
posted @ 2014-09-09 22:58 张子良 阅读(515) 评论(0) 推荐(0) 编辑

摘要:本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。1.初级入门《An Introduction to R》,这是官方的入门小册子。其有中文版,由丁国徽翻译,译名为《R导论》。《R4Beginners》,这本小册子有中文版应该叫《R入门》。除此之外,还可以去... 阅读全文
posted @ 2014-09-09 22:56 张子良 阅读(714) 评论(0) 推荐(0) 编辑