随笔分类 - 机器学习
1
摘要:1.主要内容 (1)隐马尔科夫模型的应用 <1>可以利用隐马尔科夫模型进行中文分词。 <2>可以利用隐马尔科夫模型发现新词。 <3>jieba分词默认使用的分词算法就是隐马尔科夫模型。 2.隐马尔科夫模型 (1)定义 注意:上图中x1,x2,...xn是不独立的。 (2)隐马尔科夫模型的确定 其中:
阅读全文
摘要:1.主题模型主要内容及其应用 (1)主要内容 (2)主要应用 2.共轭先验分布 3.Dirichlet分布(狄利克雷分布) 4.LDA的介绍 LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推
阅读全文
摘要:1.朴素贝叶斯 (1)主要内容 (2)朴素贝叶斯的假设 (3)朴素贝叶斯的推导 (4)朴素贝叶斯的应用举例 分析过程如下图所示: 思考: 2.代码示例 #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplot
阅读全文
摘要:1.主要内容 注意:分类问题模型选用指导,首先考虑SVM,再考虑贝叶斯,最后考虑随机森林。SVM的运行时间比较长。 2.理论基础 (1)相对熵 (2)互信息 (3)信息增益 (4)贝叶斯公式 (5)贝叶斯网络 (6)贝叶斯网络的形式化定义 (7)特殊的贝叶斯网络 (8)隐马尔科夫模型HMM (9)贝
阅读全文
摘要:1.谱聚类 谱聚类过程: 上图说明: 对m个样本,计算相似度sij,由sij构成的矩阵W,再得到D。 实际使用时,优先考虑随机游走拉普拉斯矩阵。 2.代码案例 kmeans算法 # !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np
阅读全文
摘要:1.聚类的主要内容 决策树、随机森林、SVM等算法用于回归和分类问题,都是给定输入x,和对应的给定结果值y(有监督),通过训练得到模型y=f(x),通过模型得到y的预测值,比较预测值与真实值。 聚类(无监督)是对输入的(x1,x2,...xm),若x为n维,则该数据实际是m*n维的矩阵,当对m个数据
阅读全文
摘要:1.主要内容 2.SVM的应用 (1)利用SVM处理分类问题 分类器的性能的评价指标: 应用案例: accuracy=3/6=0.5 precision=3/5=0.6 recall=3/4=0.75 3.代码示例 (1)鸢尾花SVM案例 #!/usr/bin/python # -*- coding
阅读全文
摘要:1.主要内容 2.SVM
阅读全文
摘要:1.XGBoost 2.Kaggle竞赛 案例:泰坦尼克号题目 (1)数据说明 (2)数据预处理 (3)数据处理 (4)预测
阅读全文
摘要:1.主要内容 2.提升 (1)提升的概念 弱分类器与强分类器,若一个问题有弱分类器,则必有强分类器。弱分类器是指分类效果不怎么好的分类器,一般分类准确率在50-65%之间。 (2)提升算法 (3)提升算法推导 (4)梯度提升决策树GBDT (5)XGBoost 注意:了解推导过程即可。只需记得公式。
阅读全文
摘要:1.决策树的缺点 上图,红色圈的部分就是剪枝的部分,进行后剪枝。 2.剪枝 3.随机森林 注意:随机森林所做的修改就是从所有属性中选择k个属性,再从k个属性中选择最佳的分割属性。 4.代码示例 (1)决策树案例 #!/usr/bin/python # -*- coding:utf-8 -*- imp
阅读全文
摘要:1.主要内容 案例引出: 2.条件熵 定义: 条件熵的定义式推导: 上图以出去打网球的案例为例,根节点的熵是大于0的,最底层的子节点的熵是等于0的,以信息熵为度量,构造一颗熵值下降最快的树。 3.决策树 (1)决策树的样式 (2)决策树的定义 (3)决策树算法的特点 (4)生成决策树的算法 (5)互
阅读全文
摘要:1.线性回归补充 图中1,2,3表示拟合的函数的最高次项的阶数。 机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛 化(generalization)。 通常,我们度量模型在训练集中分出来的测试集(test
阅读全文
摘要:1.回归的主要内容 2.相关理论 (1)线性回归 线性回归解决回归问题。换言之,我们的目标是建立一个系统,将向量 x ∈ Rn 作为输入,预测标量 y ∈ R 作为输出。线性回归的输出是其输入的线性函数。令 yˆ 表示模型预测 y 应该取的值。我们定义输出为:
阅读全文
摘要:1.python库 2.利用python可以绘制各种图像 3.numpy和scipy的使用案例 (1)利用numpy做数据生成 # # 开场白: # numpy是非常好用的数据包,如:可以这样得到这个二维数组 # [[ 0 1 2 3 4 5] # [10 11 12 13 14 15] # [20
阅读全文
摘要:1.凸集和凸函数 二阶导大于0,凸函数。 2.凸优化
阅读全文
摘要:1.事件的独立性 2.期望、方差、协方差 (1)期望 期望的一些性质: (2)方差 (3)协方差 3. 矩 4.参数估计 (1)中心极限定理 (2)样本统计
阅读全文
摘要:1.机器学习简介 机器学习通俗的解释: 人类学习的类型: 注意:有监督学习和无监督学习的区别,输入数据后,有监督学习会给出参考的结果,无监督学习不会给出参考的结果。 2.高等数学 (1)导数 常用的导数的公式: 泰勒展开公式: 方向导数: 梯度: 3.概率论 (1)sigmoid函数 (2)概率公式
阅读全文
1