摘要: (原创)本文讨论机器学习的评估指标 1.混淆矩阵混淆矩阵包括4个基本指标量,反映预测正负样本的情况。他们是 TP,TN,FP,FN,其中第一个字母,表示预测的正确与否,正确为T true,错误为F false第二个字母,表示预测的结果,预测为正样本为P,预测为负样本为N所以:TP:预测正确,预测正, 阅读全文
posted @ 2021-12-20 12:23 randomstring 阅读(68) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论XGBoost的原理 1.目标函数 xgboost需要优化的目标函数分为两部分, 一部分是样本的损失函数(下式红色部分),另一部分是对模型复杂程度的正则罚项(下式蓝色部分,下式的基模型为cart树): 2.梯度提升方法 第t次迭代的yi预测值可以由第t-1次的预测值,加上一个第t轮 阅读全文
posted @ 2021-12-20 12:22 randomstring 阅读(120) 评论(0) 推荐(0) 编辑
摘要: (原创)本文讨论机器学习的基础的决策树算法 1.预备知识:信息度量的相关量 (1)信息熵 使用信息熵来度量信息的不确定性信息熵的数学式为: 加和 -plogp,熵越大,不确定性越大 (2)信息增益,某特征下信息增益 = 原熵 - 按特征A分割后的熵信息增益越大的,说明对不确定性的削弱越高,那么应该优 阅读全文
posted @ 2021-12-20 12:21 randomstring 阅读(56) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论朴素贝叶斯的原理 1.贝叶斯公式 很熟悉的,也是最基本的理论基础 P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B) 2.“朴素” naive 条件(分子可以展开为连乘),各特征在分类确定的条件下,条件独立 注意是,条件独立,并不是直接独立,条件下相互独立和 阅读全文
posted @ 2021-12-20 12:20 randomstring 阅读(135) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论svm,支持向量机的原理 1 思想 找到最大间隔的分离超平面 wx+b,(从数学上可以证明他有存在性和唯一性) 那么怎么样度量间隔,以及怎么求解最优化问题,就是接下来的内容 2 函数间距和几何间距 函数间隔和w成比例,为了避免这个影响,引入了w规范化 | w | =1后的 几何间隔 阅读全文
posted @ 2021-12-20 12:19 randomstring 阅读(66) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论逻辑斯蒂回归 1. 逻辑斯蒂分布 是分布函数形如 1/(1+exp(-x))的分布,(注:可以加入参数平移或者拉伸) 对于中心(0,1/2)中心对称,且在中心附近增长较快 2. 线性参数化,的二项逻辑斯蒂回归 输出分类为二分类,0和1,在x输入下,算这两个输出概率 输出1的概率 = 阅读全文
posted @ 2021-12-20 12:17 randomstring 阅读(100) 评论(0) 推荐(0) 编辑
摘要: (原创) word2vec是将单词转为向量,并为后续应用机器学习的算法做准备。 经典的模型有两种,skip-gram和cbow, 其中,skip-gram是给定输入单词来预测上下文,而cbow相反,是给定上下文来预测输入单词。下面主要介绍skip-gram: 1.skip-gram训练词对 skip 阅读全文
posted @ 2021-12-20 12:16 randomstring 阅读(61) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文总结特征选择的三类方法 1 过滤Filter methods: (1)信息增益 information gain(2)chi-square test(3)fisher score(4)相关系数correlation coefficient(5)方差阈值 variance thresho 阅读全文
posted @ 2021-12-20 12:16 randomstring 阅读(520) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论决策树的集成方法,主要思想有两种 1.bagging ,以随机森林为代表 构建独立的树,然后加权平均的思想 2.boosting ,以adaboost,gbdt为代表 由弱分类器,组成强分类器,他与bagging的显著不同是减少偏差而不是方差 阅读全文
posted @ 2021-12-20 12:15 randomstring 阅读(150) 评论(0) 推荐(0) 编辑
摘要: (原创) 正则表达式普遍的风格如下,不同语言或者包的具体实现可能不同。 一、基本标识符 \ 表示转义\xA9 \x 16进制. 任意字符 a|b a或b,注意,如果是 a|ab,去匹配 ab ,那么大多数引擎是匹配到 a,只有少数是匹配到ab [abc] set内的或[a-zA-Z0-9] 范围的一 阅读全文
posted @ 2021-12-20 12:14 randomstring 阅读(72) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论一些树的数据结构: 二叉查找树binary search tree:根节点大于等于左树,小于等于右树。 k-ary 树:孩子至多k个 AVL树:对每一个节点,平衡因子(右树高度-左树高度)为0,1,或-1 B树:二叉查找树的拓展,一个节点可多于2个孩子,由keys分割多个子树,并符 阅读全文
posted @ 2021-12-20 12:13 randomstring 阅读(60) 评论(0) 推荐(0) 编辑
摘要: (原创) 本文讨论基本排序算法的原理和优化 1.插入排序(insertion sort)新元素,插入到已排好序的序列中去,得到新的有序列 2.选择排序(selection sort)每轮选最值 3.归并排序 merge sort分为两个过程(1)不断分割,直至单元素(2)合并两个有序列的方法先不断分 阅读全文
posted @ 2021-12-20 12:12 randomstring 阅读(56) 评论(0) 推荐(0) 编辑
摘要: (原创) hive的一些tricks: 处理数据内含分号的 ; ,用 '\073' 代替 hive 9146 bug(新版本已修复),关联条件的顺序不一样: ... on (A) and (B) 和 ... on (B) and (A) 竟然导致不一样的结果, 详情见 https://issues. 阅读全文
posted @ 2021-12-20 12:12 randomstring 阅读(37) 评论(0) 推荐(0) 编辑