随笔档案「2021年12月20日」：机器学习模型的评估指标 ... - randomstring

2021年12月20日

摘要：（原创）本文讨论机器学习的评估指标 1.混淆矩阵混淆矩阵包括4个基本指标量，反映预测正负样本的情况。他们是 TP,TN,FP,FN，其中第一个字母，表示预测的正确与否，正确为T true，错误为F false第二个字母，表示预测的结果，预测为正样本为P，预测为负样本为N所以:TP：预测正确，预测正，阅读全文

posted @ 2021-12-20 12:23 randomstring 阅读(129) 评论(0) 推荐(0)

XGBoost的基本原理推导

摘要：（原创）本文讨论XGBoost的原理 1.目标函数 xgboost需要优化的目标函数分为两部分，一部分是样本的损失函数（下式红色部分），另一部分是对模型复杂程度的正则罚项（下式蓝色部分，下式的基模型为cart树）： 2.梯度提升方法第t次迭代的yi预测值可以由第t-1次的预测值，加上一个第t轮阅读全文

posted @ 2021-12-20 12:22 randomstring 阅读(162) 评论(0) 推荐(0)

基础决策树算法

摘要：（原创）本文讨论机器学习的基础的决策树算法 1.预备知识：信息度量的相关量（1）信息熵使用信息熵来度量信息的不确定性信息熵的数学式为：加和 -plogp，熵越大，不确定性越大（2）信息增益，某特征下信息增益 = 原熵 - 按特征A分割后的熵信息增益越大的，说明对不确定性的削弱越高，那么应该优阅读全文

posted @ 2021-12-20 12:21 randomstring 阅读(75) 评论(0) 推荐(0)

朴素贝叶斯原理

摘要：（原创）本文讨论朴素贝叶斯的原理 1.贝叶斯公式很熟悉的，也是最基本的理论基础 P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B) 2.“朴素” naive 条件（分子可以展开为连乘），各特征在分类确定的条件下，条件独立注意是，条件独立，并不是直接独立，条件下相互独立和阅读全文

posted @ 2021-12-20 12:20 randomstring 阅读(216) 评论(0) 推荐(0)

SVM的原理

摘要：（原创）本文讨论svm，支持向量机的原理 1 思想找到最大间隔的分离超平面 wx+b，（从数学上可以证明他有存在性和唯一性）那么怎么样度量间隔，以及怎么求解最优化问题，就是接下来的内容 2 函数间距和几何间距函数间隔和w成比例，为了避免这个影响，引入了w规范化 | w | =1后的几何间隔阅读全文

posted @ 2021-12-20 12:19 randomstring 阅读(132) 评论(0) 推荐(0)

LR逻辑斯蒂回归原理

摘要：（原创）本文讨论逻辑斯蒂回归 1. 逻辑斯蒂分布是分布函数形如 1/（1+exp(-x）)的分布，（注：可以加入参数平移或者拉伸）对于中心（0,1/2）中心对称，且在中心附近增长较快 2. 线性参数化，的二项逻辑斯蒂回归输出分类为二分类，0和1，在x输入下，算这两个输出概率输出1的概率 = 阅读全文

posted @ 2021-12-20 12:17 randomstring 阅读(127) 评论(0) 推荐(0)

word2vec原理

摘要：（原创） word2vec是将单词转为向量，并为后续应用机器学习的算法做准备。经典的模型有两种，skip-gram和cbow，其中，skip-gram是给定输入单词来预测上下文，而cbow相反，是给定上下文来预测输入单词。下面主要介绍skip-gram： 1.skip-gram训练词对 skip 阅读全文

posted @ 2021-12-20 12:16 randomstring 阅读(113) 评论(0) 推荐(0)

特征选择的三类方法

摘要：（原创）本文总结特征选择的三类方法 1 过滤Filter methods: （1）信息增益 information gain（2）chi-square test（3）fisher score（4）相关系数correlation coefficient（5）方差阈值 variance thresho 阅读全文

posted @ 2021-12-20 12:16 randomstring 阅读(617) 评论(0) 推荐(0)

决策树的集成方法

摘要：（原创）本文讨论决策树的集成方法，主要思想有两种 1.bagging ，以随机森林为代表构建独立的树，然后加权平均的思想 2.boosting ，以adaboost，gbdt为代表由弱分类器，组成强分类器，他与bagging的显著不同是减少偏差而不是方差阅读全文

posted @ 2021-12-20 12:15 randomstring 阅读(164) 评论(0) 推荐(0)

正则表达式普遍风格

摘要：（原创）正则表达式普遍的风格如下，不同语言或者包的具体实现可能不同。一、基本标识符 \ 表示转义\xA9 \x 16进制. 任意字符 a|b a或b，注意，如果是 a|ab，去匹配 ab ，那么大多数引擎是匹配到 a，只有少数是匹配到ab [abc] set内的或[a-zA-Z0-9] 范围的一阅读全文

posted @ 2021-12-20 12:14 randomstring 阅读(99) 评论(0) 推荐(0)

一些树的数据结构

摘要：（原创）本文讨论一些树的数据结构：二叉查找树binary search tree：根节点大于等于左树，小于等于右树。 k-ary 树：孩子至多k个 AVL树：对每一个节点，平衡因子（右树高度-左树高度）为0，1，或-1 B树：二叉查找树的拓展，一个节点可多于2个孩子，由keys分割多个子树，并符阅读全文

posted @ 2021-12-20 12:13 randomstring 阅读(70) 评论(0) 推荐(0)

基本排序算法原理和优化

摘要：（原创）本文讨论基本排序算法的原理和优化 1.插入排序（insertion sort）新元素，插入到已排好序的序列中去，得到新的有序列 2.选择排序（selection sort）每轮选最值 3.归并排序 merge sort分为两个过程（1）不断分割，直至单元素（2）合并两个有序列的方法先不断分阅读全文

posted @ 2021-12-20 12:12 randomstring 阅读(99) 评论(0) 推荐(0)

hive tricks

摘要：（原创） hive的一些tricks：处理数据内含分号的 ; ，用 '\073' 代替 hive 9146 bug（新版本已修复），关联条件的顺序不一样： ... on (A) and (B) 和 ... on (B) and (A) 竟然导致不一样的结果，详情见 https://issues. 阅读全文

posted @ 2021-12-20 12:12 randomstring 阅读(54) 评论(0) 推荐(0)

randomstring

公告