上一页 1 2 3 4 5 6 7 8 ··· 17 下一页

2018年4月3日

处理离散型特征和连续型特征共存的情况 归一化 论述了对离散特征进行one-hot编码的意义

摘要: 转发:https://blog.csdn.net/lujiandong1/article/details/49448051 处理离散型特征和连续型特征并存的情况,如何做归一化。参考博客进行了总结:https://www.quora.com/What-are-good-ways-to-handle-d 阅读全文

posted @ 2018-04-03 12:42 mdumpling 阅读(1257) 评论(0) 推荐(0) 编辑

2018年4月2日

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?

该文被密码保护。 阅读全文

posted @ 2018-04-02 20:23 mdumpling 阅读(1) 评论(0) 推荐(0) 编辑

对于特征离散化,特征交叉,连续特征离散化非常经典的解释

该文被密码保护。 阅读全文

posted @ 2018-04-02 15:19 mdumpling 阅读(3) 评论(0) 推荐(0) 编辑

特征选择方法以及特征处理方法

该文被密码保护。 阅读全文

posted @ 2018-04-02 13:55 mdumpling 阅读(9) 评论(0) 推荐(0) 编辑

条件随机场和隐马尔可夫模型比较

该文被密码保护。 阅读全文

posted @ 2018-04-02 12:10 mdumpling 阅读(1) 评论(0) 推荐(0) 编辑

2018年4月1日

海量数据

摘要: 海量数据处理:十道面试题与十个海量数据处理方法总结 作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。 出处:http://blog.csdn.net/v_JULY_v。 阅读全文

posted @ 2018-04-01 10:32 mdumpling 阅读(259) 评论(0) 推荐(0) 编辑

2018年3月31日

TOP K和Partition对比

摘要: TOP k算法适用于海量数据,不用一批装入内存。。 partition算法需要全部装入内存排序,需要修改原数据。。 阅读全文

posted @ 2018-03-31 19:55 mdumpling 阅读(180) 评论(0) 推荐(0) 编辑

大数据题目~

摘要: 1.有一个词典,包含N个英文单词,现在任意给一个字符串,设计算法找出包含这个字符串的所有英文单词 比如输入ing词缀,找出形如having,sing,doing等单词; 字符串比较算法(kmp等等),需要一个一个比较。 如果查询多次,可以考虑建立关于字母的倒排索引; 然后取集合交集,考虑字母顺序。 阅读全文

posted @ 2018-03-31 15:09 mdumpling 阅读(173) 评论(0) 推荐(0) 编辑

2018年3月29日

Normalization,Regularization 和 standardization

摘要: https://www.zhihu.com/question/59939602 阅读全文

posted @ 2018-03-29 22:03 mdumpling 阅读(132) 评论(0) 推荐(0) 编辑

Huber loss<转发>

摘要: from https://blog.csdn.net/lanchunhui/article/details/50427055请移步原文 阅读全文

posted @ 2018-03-29 21:50 mdumpling 阅读(259) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 17 下一页

导航