摘要: MLlib1.6指南笔记 http://spark.apache.org/docs/latest/mllib-guide.html spark.mllib RDD之上的原始API spark.ml ML管道结构 DataFrames之上的高级API 1. spark.mllib:数据类型、算法及工具 阅读全文
posted @ 2016-03-25 20:58 开心玩数据 阅读(2020) 评论(0) 推荐(0) 编辑
摘要: Spark 1.6 MLlib 完整列表 阅读全文
posted @ 2016-03-25 20:57 开心玩数据 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 潜在语义分析 1 获取数据 2 词形归并 3 TF-IDF 4 奇异值分解 5 相关度 多词项查询 阅读全文
posted @ 2016-03-25 20:56 开心玩数据 阅读(956) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-03-25 20:55 开心玩数据 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 推荐算法流程 推荐算法 预备 1 准备数据 2 建模 3 检验 4 评价 5 推荐 附录 RunAUC.scala 阅读全文
posted @ 2016-03-25 20:54 开心玩数据 阅读(1730) 评论(0) 推荐(0) 编辑
摘要: 1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/latest/stre 阅读全文
posted @ 2016-03-25 20:53 开心玩数据 阅读(6587) 评论(0) 推荐(0) 编辑
摘要: 数据清洗 阅读全文
posted @ 2016-03-25 20:53 开心玩数据 阅读(736) 评论(0) 推荐(0) 编辑
摘要: Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency) 短语加权:根据词频,为单词赋予权值 特征哈希:使用哈希 阅读全文
posted @ 2016-03-25 20:52 开心玩数据 阅读(5488) 评论(0) 推荐(0) 编辑
摘要: PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据 阅读全文
posted @ 2016-03-25 20:51 开心玩数据 阅读(2649) 评论(0) 推荐(0) 编辑
摘要: K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust 阅读全文
posted @ 2016-03-25 20:50 开心玩数据 阅读(2249) 评论(0) 推荐(0) 编辑
摘要: 分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 阅读全文
posted @ 2016-03-25 20:49 开心玩数据 阅读(9656) 评论(1) 推荐(0) 编辑
摘要: Spark机器学习 准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO 阅读全文
posted @ 2016-03-25 20:48 开心玩数据 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: 线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support 阅读全文
posted @ 2016-03-25 20:48 开心玩数据 阅读(3718) 评论(0) 推荐(0) 编辑
摘要: 准备环境 anaconda ipython PYTHONPATH 运行环境 数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact? 阅读全文
posted @ 2016-03-25 20:47 开心玩数据 阅读(5170) 评论(1) 推荐(1) 编辑
摘要: Spark安装目录 基本测试 scala build.sbt java 8 Maven pom.xml python 阅读全文
posted @ 2016-03-25 20:46 开心玩数据 阅读(1803) 评论(0) 推荐(0) 编辑