摘要: package com.bjsxt.spark.others.pvuv; import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org. 阅读全文
posted @ 2018-06-18 10:45 uuhh 阅读(346) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others.partitioner; import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List; import 阅读全文
posted @ 2018-06-18 10:44 uuhh 阅读(80) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache. 阅读全文
posted @ 2018-06-18 10:40 uuhh 阅读(114) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkC 阅读全文
posted @ 2018-06-18 10:40 uuhh 阅读(108) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Java 阅读全文
posted @ 2018-06-18 10:38 uuhh 阅读(227) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkC 阅读全文
posted @ 2018-06-18 10:36 uuhh 阅读(296) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache. 阅读全文
posted @ 2018-06-18 10:36 uuhh 阅读(122) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Java 阅读全文
posted @ 2018-06-18 10:35 uuhh 阅读(209) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.others; import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContex 阅读全文
posted @ 2018-06-18 10:24 uuhh 阅读(85) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Jav 阅读全文
posted @ 2018-06-18 10:23 uuhh 阅读(98) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache 阅读全文
posted @ 2018-06-18 10:15 uuhh 阅读(82) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Iterator; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apac 阅读全文
posted @ 2018-06-18 10:13 uuhh 阅读(74) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache 阅读全文
posted @ 2018-06-18 10:10 uuhh 阅读(66) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.Map;import java.util.Map.Entry; import org.apache.spark.SparkConf;import org 阅读全文
posted @ 2018-06-18 10:10 uuhh 阅读(92) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.Map;import java.util.Map.Entry; import org.apache.spark.SparkConf;import org 阅读全文
posted @ 2018-06-18 10:09 uuhh 阅读(83) 评论(0) 推荐(0) 编辑
摘要: package com.bjsxt.spark.actions; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpark 阅读全文
posted @ 2018-06-18 10:08 uuhh 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 鲁棒性调优 方差归一化 调整数据正负值 均值归一化 阅读全文
posted @ 2018-06-14 17:07 uuhh 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 阅读全文
posted @ 2018-06-13 22:33 uuhh 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 拉普拉斯校准是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。 拉普拉斯平滑是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然:只求分子, 阅读全文
posted @ 2018-06-13 16:30 uuhh 阅读(1341) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 16:14 uuhh 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 15:55 uuhh 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 信息增益=信息熵-条件熵 条件熵越小,意味着在此条件下,数据越纯粹。 如果将记录id考虑到条件熵里的话,计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样,对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。 信息增益率=信息增益/信息熵 gr(D,A)=g(D 阅读全文
posted @ 2018-06-13 13:00 uuhh 阅读(935) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 11:31 uuhh 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 11:30 uuhh 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 11:28 uuhh 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 决策树:非线性有监督分类模型 随机森林:非线性有监督分类模型 决策树:根节点:顶层分类条件。中间节点:中间分类条件。叶子节点:分类号。分支:每个条件输出。二叉树:节点有2个分支。多叉树:节点至少2分支 决策树:根据样本的纯粹度来分类。 将纯粹度进行量化,计算机才能读懂。 信息熵:量化信息量,由香农提 阅读全文
posted @ 2018-06-13 11:24 uuhh 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 09:51 uuhh 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-06-13 09:50 uuhh 阅读(152) 评论(0) 推荐(0) 编辑
摘要: < >此由于运行过快,JVM未编译完成 阅读全文
posted @ 2018-05-22 10:32 uuhh 阅读(95) 评论(0) 推荐(0) 编辑