上一页 1 ··· 207 208 209 210 211 212 213 214 215 ··· 273 下一页
摘要: 机器学习中的数据不平衡问题 机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些 阅读全文
posted @ 2017-07-14 14:29 bonelee 阅读(2097) 评论(1) 推荐(0)
摘要: 来自:https://www.zhihu.com/question/35649122 其实这里所说的数据量不足,可以换一种方式去理解:在维度高的情况下,数据相对少。举一个特例,比如只有一维,和1万个数据,那么这种情况下,我们可以认为数据量其实是足够的,因为数据密度相对来说很高。如果数据的维度有100 阅读全文
posted @ 2017-07-14 14:25 bonelee 阅读(3741) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2017-07-14 14:08 bonelee 阅读(192) 评论(0) 推荐(0)
摘要: from: http://www.cnblogs.com/liulangmao/p/3951865.html 本篇主要介绍指令的transclude属性: transclude的值有三个: 1.transclude:false(默认值) 不启用transclude功能. 2.transclude:t 阅读全文
posted @ 2017-07-14 11:07 bonelee 阅读(249) 评论(0) 推荐(0)
摘要: 最近需要做一些文本摘要的东西,选取了TextRank(论文参见《TextRank: Bringing Order into Texts》)作为对比方案,该方案可以很方便的使用Python相关库进行实现。 下面介绍如何利用Python实现一个简单的文本摘要工具。 Demo 【前期准备】: 【背景知识】 阅读全文
posted @ 2017-07-14 10:09 bonelee 阅读(1184) 评论(0) 推荐(0)
摘要: example.groupByKey().mapValues(list) 阅读全文
posted @ 2017-07-12 16:28 bonelee 阅读(9320) 评论(0) 推荐(1)
摘要: distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect 阅读全文
posted @ 2017-07-12 14:07 bonelee 阅读(2858) 评论(0) 推荐(0)
摘要: lookup(key) Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching 阅读全文
posted @ 2017-07-12 10:47 bonelee 阅读(3207) 评论(0) 推荐(0)
摘要: rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); Now we’ll calculate the mean of o 阅读全文
posted @ 2017-07-12 10:15 bonelee 阅读(597) 评论(0) 推荐(0)
摘要: 上面是粗暴的做法 简单的做法: 阅读全文
posted @ 2017-07-12 09:50 bonelee 阅读(1288) 评论(0) 推荐(0)
上一页 1 ··· 207 208 209 210 211 212 213 214 215 ··· 273 下一页