随笔档案「2016年3月25日」：MLlib1.6指南笔记 ... - 开心玩数据

2016年3月25日

摘要： MLlib1.6指南笔记 http://spark.apache.org/docs/latest/mllib-guide.html spark.mllib RDD之上的原始API spark.ml ML管道结构 DataFrames之上的高级API 1. spark.mllib:数据类型、算法及工具阅读全文

posted @ 2016-03-25 20:58 开心玩数据阅读(2032) 评论(0) 推荐(0)

分类算法

摘要： Spark 1.6 MLlib 完整列表阅读全文

posted @ 2016-03-25 20:57 开心玩数据阅读(394) 评论(0) 推荐(0)

Spark高级数据分析· 6LSA

摘要：潜在语义分析 1 获取数据 2 词形归并 3 TF-IDF 4 奇异值分解 5 相关度多词项查询阅读全文

posted @ 2016-03-25 20:56 开心玩数据阅读(967) 评论(0) 推荐(0)

潜在语义分析

摘要：阅读全文

posted @ 2016-03-25 20:55 开心玩数据阅读(390) 评论(0) 推荐(0)

Spark高级数据分析· 3推荐引擎

摘要：推荐算法流程推荐算法预备 1 准备数据 2 建模 3 检验 4 评价 5 推荐附录 RunAUC.scala 阅读全文

posted @ 2016-03-25 20:54 开心玩数据阅读(1742) 评论(0) 推荐(0)

Spark机器学习9· 实时机器学习(scala with sbt)

摘要： 1 在线学习模型随着接收的新消息，不断更新自己；而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源：Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/latest/stre 阅读全文

posted @ 2016-03-25 20:53 开心玩数据阅读(6656) 评论(0) 推荐(0)

Spark高级数据分析· 2数据分析

摘要：数据清洗阅读全文

posted @ 2016-03-25 20:53 开心玩数据阅读(744) 评论(0) 推荐(0)

Spark机器学习8· 文本处理(spark-shell)

摘要： Spark机器学习自然语言处理（NLP，Natural Language Processing）提取特征建模机器学习 TF-IDF（词频 term frequency–逆向文件频率 inverse document frequency）短语加权：根据词频，为单词赋予权值特征哈希：使用哈希阅读全文

posted @ 2016-03-25 20:52 开心玩数据阅读(5535) 评论(0) 推荐(0)

Spark机器学习7·降维模型(scala&python)

摘要： PCA(主成分分析法，Principal Components Analysis) SVD(奇异值分解法，Singular Value Decomposition) http://vis-www.cs.umass.edu/lfw/lfw-a.tgz 0 运行环境 1 抽取特征 1.1 载入脸部数据阅读全文

posted @ 2016-03-25 20:51 开心玩数据阅读(2709) 评论(0) 推荐(0)

Spark机器学习6·聚类模型(spark-shell)

摘要： K-均值(K-mean)聚类目的：最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类(hierarchical culstering) 凝聚聚类(agglomerative clust 阅读全文

posted @ 2016-03-25 20:50 开心玩数据阅读(2271) 评论(0) 推荐(0)

Spark机器学习5·回归模型(pyspark)

摘要：分类模型的预测目标是：类别编号回归模型的预测目标是：实数变量回归模型种类线性模型最小二乘回归模型应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO(Least Absolute Shrinkage and Selection Operator) 阅读全文

posted @ 2016-03-25 20:49 开心玩数据阅读(9728) 评论(1) 推荐(0)

Spark机器学习3·推荐引擎(spark-shell)

摘要： Spark机器学习准备环境 jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacOS org.jblas:jblas:1.2.4-SNAPSHOT jblashttps://gcc.gnu.org/wiki/GFortranBinaries#MacO 阅读全文

posted @ 2016-03-25 20:48 开心玩数据阅读(1257) 评论(0) 推荐(0)

Spark机器学习4·分类模型(spark-shell)

摘要：线性模型逻辑回归--逻辑损失(logistic loss) 线性支持向量机（Support Vector Machine, SVM）--合页损失(hinge loss) 朴素贝叶斯(Naive Bayes) 决策树逻辑回归--逻辑损失(logistic loss) 线性支持向量机（Support 阅读全文

posted @ 2016-03-25 20:48 开心玩数据阅读(3754) 评论(0) 推荐(0)

Spark机器学习2·准备数据(pyspark)

摘要：准备环境 anaconda ipython PYTHONPATH 运行环境数据 1. 获取原始数据 1682 u'1|24|M|technician|85711' u'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact? 阅读全文

posted @ 2016-03-25 20:47 开心玩数据阅读(5194) 评论(1) 推荐(1)

Spark机器学习1·编程入门(scala/java/python)

摘要： Spark安装目录基本测试 scala build.sbt java 8 Maven pom.xml python 阅读全文

posted @ 2016-03-25 20:46 开心玩数据阅读(1816) 评论(0) 推荐(0)

tychyg's Blog

开心玩数据,专注于大数据、BI

公告