bonelee - 博客园

2017年7月14日

机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当，或者模型中加入惩罚项

摘要：机器学习中的数据不平衡问题机器学习中的数据不平衡问题摘自：http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题，其中的阳性数据比阴性数据少很多，这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些阅读全文

posted @ 2017-07-14 14:29 bonelee 阅读(2097) 评论(1) 推荐(0)

机器学习数据量不足问题----1 做好特征工程 2 不要用太多的特征 3 做好交叉验证使用线性svm

摘要：来自：https://www.zhihu.com/question/35649122 其实这里所说的数据量不足，可以换一种方式去理解：在维度高的情况下，数据相对少。举一个特例，比如只有一维，和1万个数据，那么这种情况下，我们可以认为数据量其实是足够的，因为数据密度相对来说很高。如果数据的维度有100 阅读全文

posted @ 2017-07-14 14:25 bonelee 阅读(3741) 评论(0) 推荐(0)

机器学习算法选择

摘要：阅读全文

posted @ 2017-07-14 14:08 bonelee 阅读(192) 评论(0) 推荐(0)

angular学习笔记(三十)-指令(4)-transclude

摘要： from: http://www.cnblogs.com/liulangmao/p/3951865.html 本篇主要介绍指令的transclude属性: transclude的值有三个: 1.transclude:false(默认值) 不启用transclude功能. 2.transclude:t 阅读全文

posted @ 2017-07-14 11:07 bonelee 阅读(249) 评论(0) 推荐(0)

摘要提取算法——本质上就是pagerank，选择rank最高的句子作为摘要，如果结合word2vec应该有非常好的效果

摘要：最近需要做一些文本摘要的东西，选取了TextRank（论文参见《TextRank: Bringing Order into Texts》）作为对比方案，该方案可以很方便的使用Python相关库进行实现。下面介绍如何利用Python实现一个简单的文本摘要工具。 Demo 【前期准备】：【背景知识】阅读全文

posted @ 2017-07-14 10:09 bonelee 阅读(1184) 评论(0) 推荐(0)

2017年7月12日

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

摘要： example.groupByKey().mapValues(list) 阅读全文

posted @ 2017-07-12 16:28 bonelee 阅读(9320) 评论(0) 推荐(1)

python spark 通过key来统计不同values个数

摘要： distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect 阅读全文

posted @ 2017-07-12 14:07 bonelee 阅读(2858) 评论(0) 推荐(0)

spark rdd median 中位数求解

摘要： lookup(key) Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching 阅读全文

posted @ 2017-07-12 10:47 bonelee 阅读(3207) 评论(0) 推荐(0)

python spark 求解最大最小平均

摘要： rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); Now we’ll calculate the mean of o 阅读全文

posted @ 2017-07-12 10:15 bonelee 阅读(597) 评论(0) 推荐(0)

python spark 求解最大最小平均中位数

摘要：上面是粗暴的做法简单的做法：阅读全文

posted @ 2017-07-12 09:50 bonelee 阅读(1288) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告