摘要:
MLlib1.6指南笔记 http://spark.apache.org/docs/latest/mllib-guide.html spark.mllib RDD之上的原始API spark.ml ML管道结构 DataFrames之上的高级API 1. spark.mllib:数据类型、算法及工具 阅读全文
摘要:
Spark 1.6 MLlib 完整列表 阅读全文
摘要:
潜在语义分析 1 获取数据 2 词形归并 3 TF-IDF 4 奇异值分解 5 相关度 多词项查询 阅读全文
摘要:
阅读全文
摘要:
推荐算法流程 推荐算法 预备 1 准备数据 2 建模 3 检验 4 评价 5 推荐 附录 RunAUC.scala 阅读全文
摘要:
1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/latest/stre 阅读全文
摘要:
数据清洗 阅读全文
摘要:
Spark机器学习 自然语言处理(NLP,Natural Language Processing) 提取特征 建模 机器学习 TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency) 短语加权:根据词频,为单词赋予权值 特征哈希:使用哈希 阅读全文
摘要:
PCA(主成分分析法,Principal Components Analysis) SVD(奇异值分解法,Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据 阅读全文
摘要:
K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和 类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust 阅读全文
摘要:
分类模型的预测目标是:类别编号 回归模型的预测目标是:实数变量 回归模型种类 线性模型 最小二乘回归模型 应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 阅读全文
摘要:
Spark机器学习 准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO 阅读全文
摘要:
线性模型 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树 逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support 阅读全文
摘要:
准备环境 anaconda ipython PYTHONPATH 运行环境 数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact? 阅读全文
摘要:
Spark安装目录 基本测试 scala build.sbt java 8 Maven pom.xml python 阅读全文