mdumpling - 博客园

处理离散型特征和连续型特征共存的情况归一化论述了对离散特征进行one-hot编码的意义

摘要：转发：https://blog.csdn.net/lujiandong1/article/details/49448051 处理离散型特征和连续型特征并存的情况，如何做归一化。参考博客进行了总结：https://www.quora.com/What-are-good-ways-to-handle-d 阅读全文

posted @ 2018-04-03 12:42 mdumpling 阅读(1326) 评论(0) 推荐(0)

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

该文被密码保护。阅读全文

posted @ 2018-04-02 20:23 mdumpling 阅读(1) 评论(0) 推荐(0)

对于特征离散化，特征交叉，连续特征离散化非常经典的解释

该文被密码保护。阅读全文

posted @ 2018-04-02 15:19 mdumpling 阅读(3) 评论(0) 推荐(0)

特征选择方法以及特征处理方法

该文被密码保护。阅读全文

posted @ 2018-04-02 13:55 mdumpling 阅读(9) 评论(0) 推荐(0)

条件随机场和隐马尔可夫模型比较

该文被密码保护。阅读全文

posted @ 2018-04-02 12:10 mdumpling 阅读(1) 评论(0) 推荐(0)

海量数据

摘要：海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。阅读全文

posted @ 2018-04-01 10:32 mdumpling 阅读(266) 评论(0) 推荐(0)

TOP K和Partition对比

摘要： TOP k算法适用于海量数据，不用一批装入内存。。 partition算法需要全部装入内存排序，需要修改原数据。。阅读全文

posted @ 2018-03-31 19:55 mdumpling 阅读(186) 评论(0) 推荐(0)

大数据题目~

摘要： 1.有一个词典，包含N个英文单词，现在任意给一个字符串，设计算法找出包含这个字符串的所有英文单词比如输入ing词缀，找出形如having,sing,doing等单词；字符串比较算法(kmp等等)，需要一个一个比较。如果查询多次，可以考虑建立关于字母的倒排索引；然后取集合交集，考虑字母顺序。阅读全文

posted @ 2018-03-31 15:09 mdumpling 阅读(177) 评论(0) 推荐(0)

Normalization，Regularization 和 standardization

摘要： https://www.zhihu.com/question/59939602 阅读全文

posted @ 2018-03-29 22:03 mdumpling 阅读(135) 评论(0) 推荐(0)

Huber loss<转发>

摘要： from https://blog.csdn.net/lanchunhui/article/details/50427055请移步原文阅读全文

posted @ 2018-03-29 21:50 mdumpling 阅读(270) 评论(0) 推荐(0)

处理离散型特征和连续型特征共存的情况归一化论述了对离散特征进行one-hot编码的意义

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

对于特征离散化，特征交叉，连续特征离散化非常经典的解释

特征选择方法以及特征处理方法

条件随机场和隐马尔可夫模型比较

海量数据

TOP K和Partition对比

大数据题目~

Normalization，Regularization 和 standardization

Huber loss<转发>

导航

公告