大数据和AI躺过的坑

2017年9月1日

Spark Mllib里如何将数据取消暂存在内存中（图文详解）

摘要：不多说，直接上干货！具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章决策树回归分类Bike Sharing数据集阅读全文

posted @ 2017-09-01 15:10 大数据和AI躺过的坑阅读(266) 评论(0) 推荐(0) 编辑

Spark Mllib里如何提取每个字段并转换为***类型（图文详解）

摘要：不多说，直接上干货！具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章决策树多元分类UCI Covertype数据集阅读全文

posted @ 2017-09-01 12:17 大数据和AI躺过的坑阅读(361) 评论(0) 推荐(0) 编辑

Spark Mllib里如何程序输出数据集的条数（图文详解）

摘要：不多说，直接上干货！具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章决策树多元分类UCI Covertype数据集阅读全文

posted @ 2017-09-01 11:38 大数据和AI躺过的坑阅读(366) 评论(0) 推荐(0) 编辑

Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率（图文详解）

摘要：不多说，直接上干货！ Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章使用决策树二元分类算法来预测分类StumbleUpon数据集 Spark Mllib里决策阅读全文

posted @ 2017-09-01 11:29 大数据和AI躺过的坑阅读(907) 评论(0) 推荐(0) 编辑

Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制（图文详解）

摘要：不多说，直接上干货！决策树二元分类的分类数目numClasses控制具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章使用决策树二元分类算法来预测分类StumbleUpon数据集决策树多元分类的分类数目numClasses控制具体，见 Hadoop+Spark 阅读全文

posted @ 2017-09-01 11:21 大数据和AI躺过的坑阅读(778) 评论(0) 推荐(0) 编辑

Spark Mllib里如何记录开始训练时间、完成训练时间、所需训练时间（图文详解）

摘要：不多说，直接上干货！具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第16章朴素贝叶斯二元分类算法来预测分类StumbleUpon数据集阅读全文

posted @ 2017-09-01 10:04 大数据和AI躺过的坑阅读(553) 评论(0) 推荐(0) 编辑

Spark Mllib里使用贝氏二元分类时如何将数值特征字段用StandardScaler进行标准化（图文详解）

摘要：不多说，直接上干货！ NaiveBayes数值特征字段一定要大于0，所以加入下述命令将负数转换为0。朴素贝叶斯分类算法在进行数据标准化时，参数withMean必须设置为false。具体，见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第16章朴素贝叶斯二元分类算法来预测分类S 阅读全文

posted @ 2017-09-01 09:58 大数据和AI躺过的坑阅读(407) 评论(0) 推荐(0) 编辑

2017年8月31日

Apache Atlas是什么？

摘要：不多说，直接上干货！ Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 http://www.jianshu.com/p/4eee91bc 阅读全文

posted @ 2017-08-31 18:48 大数据和AI躺过的坑阅读(8674) 评论(1) 推荐(0) 编辑

CentOS6.5下如何正确下载、安装Intellij IDEA、Scala、Scala-intellij-bin插件、Scala IDE for Eclipse助推大数据开发（图文详解）

摘要：不多说，直接上干货！第一步：卸载CentOS中自带openjdk Centos 6.5下的OPENJDK卸载和SUN的JDK安装、环境变量配置第二步：安装Intellij IDEA 若是3节点如，master、slave1、slave2，则建议将其安装在master节点上到https://ww 阅读全文

posted @ 2017-08-31 17:57 大数据和AI躺过的坑阅读(1365) 评论(0) 推荐(0) 编辑

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解（java、python、r和scala）之Basic包下的JavaPageRank.java（图文详解）

摘要：不多说，直接上干货！ spark-1.6.1-bin-hadoop2.6里Basic包下的JavaPageRank.java 没结果，暂时 spark-2.2.0-bin-hadoop2.6里Basic包下的JavaPageRank.java 没结果，暂时阅读全文

posted @ 2017-08-31 15:09 大数据和AI躺过的坑阅读(482) 评论(0) 推荐(0) 编辑

大数据和人工智能躺过的坑

公告