04 2020 档案

摘要:1.词向量 (1)one-hot形式的文本表示回顾 one-hot形式的表达方式的缺点:<1>向量很稀疏 <2>无法计算单词的相似度 <3>表达能力 (2)词向量 (3)skip-gram model 2.神经网络 (1)神经网络结构 阅读全文
posted @ 2020-04-30 09:21 雨后观山色 阅读(572) 评论(0) 推荐(0) 编辑
摘要:1.句法分析 (1)入门小案例 2.时序模型 (1)时序数据和非时序数据 时序数据:股票价格、语音、文本、温度 非时序数据:图片、一个人的特征 3.隐马尔科夫模型(Hidden Markov Model) latent variable 隐式变量 observed 观测值 4.有向图 (1)有向图和 阅读全文
posted @ 2020-04-29 10:07 雨后观山色 阅读(814) 评论(0) 推荐(0) 编辑
摘要:1.信息抽取介绍 从非结构化数据中,抽取数据。 非结构化数据包括图片、文本、视频、音频等内容,提取特征输入到model中,而结构化数据类似于数据库中的一个个字段。 信息抽取主要包括两个部分:一个是抽取实体,另一个是抽取关系。 信息抽取的典型应用: 2.命名实体识别 (1)简介 小案例: (2)开源工 阅读全文
posted @ 2020-04-28 10:56 雨后观山色 阅读(2189) 评论(0) 推荐(0) 编辑
摘要:1.max-margin(很经典) SVM的目的就是使得margin值最大。 由上图可以得到margin=2/||w|| 2.SVM的目标函数 (1)Hard Constraint(强限制条件) (2)Soft Constraint(弱限制条件) Hinge loss(Linear SVM): 利用 阅读全文
posted @ 2020-04-28 09:34 雨后观山色 阅读(506) 评论(0) 推荐(0) 编辑
摘要:1.逻辑回归的经典应用 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。 典型案例: 判断贷款人是否会出现违约现象 从上图可知,逻辑回归多 阅读全文
posted @ 2020-04-27 13:25 雨后观山色 阅读(1307) 评论(1) 推荐(0) 编辑
摘要:1.Pandas介绍 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效 阅读全文
posted @ 2020-04-25 15:08 雨后观山色 阅读(566) 评论(0) 推荐(0) 编辑
摘要:1.列表推导式 列表推导式(又称列表解析式)提供了一种简明扼要的方法来创建列表。 它的结构是在一个中括号里包含一个表达式,然后是一个for语句,然后是 0 个或多个 for 或者 if 语句。那个表达式可以是任意的,意思是你可以在列表中放入任意类型的对象。返回结果将是一个新的列表,在这个以 if 和 阅读全文
posted @ 2020-04-25 13:56 雨后观山色 阅读(492) 评论(0) 推荐(0) 编辑
摘要:1.学习的两种主流方式 专家系统与基于概率的系统最根本的区别就是:数据量的不同 数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。 2.专家系统介绍 专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理 3.机器学习入门介绍 (1)定义 (2)机器学习的分 阅读全文
posted @ 2020-04-24 15:09 雨后观山色 阅读(1108) 评论(0) 推荐(0) 编辑
摘要:1.Noise channel model 上图公式,可以利用贝叶斯公式进行推导。 2.数学基础 (1)Chain rule(非常经典) 示例: 上图,说明chain rule所得的条件概率项是通过统计所给文档中出现今天、是、春节、我们、都的次数(图中出现2次)和出现今天、是、春节、我们、都之后再出 阅读全文
posted @ 2020-04-24 11:09 雨后观山色 阅读(1312) 评论(0) 推荐(0) 编辑
摘要:1.One-hot表示方法的缺点 向量的大小与词典的长度相等 主要缺点:<1>不能表示语义相似度 <2>向量很稀疏 2.分布式表示(Distributed Representation) 词向量 输入足够多的数据(10^10的单词) 词向量代表单词的意思。word2vec,某种意义上可以理解成词的意 阅读全文
posted @ 2020-04-23 15:44 雨后观山色 阅读(675) 评论(0) 推荐(0) 编辑
摘要:1.文本处理的一般流程 上图中: 清洗包括无用的标签(例如从网上爬取的文本中可能包含html标签)、特殊的符号(!感叹号、省略号等)、停用词、大写转小写 标准化包括stemming、lemmazatic(就是对英文词汇中的名词、动词转换化标准形态) 本篇博客主要包括:分词(word segmenta 阅读全文
posted @ 2020-04-23 14:47 雨后观山色 阅读(2042) 评论(0) 推荐(0) 编辑
摘要:由于python环境是使用Anaconda安装,那就已经安装了ipython notebook 打开后将在浏览器窗口上启动notebook,我们只需要把需要打开的代码添加进来就好了。 打开之后的效果: 阅读全文
posted @ 2020-04-23 08:43 雨后观山色 阅读(1001) 评论(0) 推荐(0) 编辑
摘要:1.算法复杂度 时间复杂度和空间复杂度,这是任何AI工程师必须要深入理解的概念。对于每一个设计出来的算法都需要从这两个方面来分析。 int a = 0, b = 0; for (i = 0; i < N; i++) { # O(N)+O(N)=2*O(N)=O(N) a = a + rand();# 阅读全文
posted @ 2020-04-22 15:24 雨后观山色 阅读(951) 评论(0) 推荐(0) 编辑
摘要:1.什么是NLP 2.NLP领域的挑战 (1)同一个意思有多种表达方式 (2)一词多义(Ambiguity) 解决一词多义的问题方法:从数据中学习(结合上下文Context) 3.机器翻译系统的案例 上图的意思:根据表中的12对翻译结果,翻译所给出的一句话。 做法:给定语料库,在语料库中做统计,进行 阅读全文
posted @ 2020-04-22 12:08 雨后观山色 阅读(1739) 评论(0) 推荐(0) 编辑
摘要:1.NLP训练营概况(2019-01-22) 2.入学要求 3.课程要求 4.课程将有收获 5.AI工程师必备的核心技能 阅读全文
posted @ 2020-04-22 09:26 雨后观山色 阅读(241) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 (1)隐马尔科夫模型的应用 <1>可以利用隐马尔科夫模型进行中文分词。 <2>可以利用隐马尔科夫模型发现新词。 <3>jieba分词默认使用的分词算法就是隐马尔科夫模型。 2.隐马尔科夫模型 (1)定义 注意:上图中x1,x2,...xn是不独立的。 (2)隐马尔科夫模型的确定 其中: 阅读全文
posted @ 2020-04-18 09:44 雨后观山色 阅读(232) 评论(0) 推荐(0) 编辑
摘要:1.主题模型主要内容及其应用 (1)主要内容 (2)主要应用 2.共轭先验分布 3.Dirichlet分布(狄利克雷分布) 4.LDA的介绍 LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推 阅读全文
posted @ 2020-04-17 11:59 雨后观山色 阅读(11600) 评论(1) 推荐(2) 编辑
摘要:1.朴素贝叶斯 (1)主要内容 (2)朴素贝叶斯的假设 (3)朴素贝叶斯的推导 (4)朴素贝叶斯的应用举例 分析过程如下图所示: 思考: 2.代码示例 #!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np import matplot 阅读全文
posted @ 2020-04-16 13:41 雨后观山色 阅读(502) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 注意:分类问题模型选用指导,首先考虑SVM,再考虑贝叶斯,最后考虑随机森林。SVM的运行时间比较长。 2.理论基础 (1)相对熵 (2)互信息 (3)信息增益 (4)贝叶斯公式 (5)贝叶斯网络 (6)贝叶斯网络的形式化定义 (7)特殊的贝叶斯网络 (8)隐马尔科夫模型HMM (9)贝 阅读全文
posted @ 2020-04-16 11:15 雨后观山色 阅读(198) 评论(0) 推荐(0) 编辑
摘要:1.谱聚类 谱聚类过程: 上图说明: 对m个样本,计算相似度sij,由sij构成的矩阵W,再得到D。 实际使用时,优先考虑随机游走拉普拉斯矩阵。 2.代码案例 kmeans算法 # !/usr/bin/python # -*- coding:utf-8 -*- import numpy as np 阅读全文
posted @ 2020-04-15 09:12 雨后观山色 阅读(186) 评论(0) 推荐(0) 编辑
摘要:1.聚类的主要内容 决策树、随机森林、SVM等算法用于回归和分类问题,都是给定输入x,和对应的给定结果值y(有监督),通过训练得到模型y=f(x),通过模型得到y的预测值,比较预测值与真实值。 聚类(无监督)是对输入的(x1,x2,...xm),若x为n维,则该数据实际是m*n维的矩阵,当对m个数据 阅读全文
posted @ 2020-04-14 13:14 雨后观山色 阅读(154) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 2.SVM的应用 (1)利用SVM处理分类问题 分类器的性能的评价指标: 应用案例: accuracy=3/6=0.5 precision=3/5=0.6 recall=3/4=0.75 3.代码示例 (1)鸢尾花SVM案例 #!/usr/bin/python # -*- coding 阅读全文
posted @ 2020-04-14 10:16 雨后观山色 阅读(4342) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 2.SVM 阅读全文
posted @ 2020-04-13 13:57 雨后观山色 阅读(263) 评论(0) 推荐(0) 编辑
摘要:1.XGBoost 2.Kaggle竞赛 案例:泰坦尼克号题目 (1)数据说明 (2)数据预处理 (3)数据处理 (4)预测 阅读全文
posted @ 2020-04-13 12:18 雨后观山色 阅读(196) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 2.提升 (1)提升的概念 弱分类器与强分类器,若一个问题有弱分类器,则必有强分类器。弱分类器是指分类效果不怎么好的分类器,一般分类准确率在50-65%之间。 (2)提升算法 (3)提升算法推导 (4)梯度提升决策树GBDT (5)XGBoost 注意:了解推导过程即可。只需记得公式。 阅读全文
posted @ 2020-04-12 09:53 雨后观山色 阅读(205) 评论(0) 推荐(0) 编辑
摘要:1.决策树的缺点 上图,红色圈的部分就是剪枝的部分,进行后剪枝。 2.剪枝 3.随机森林 注意:随机森林所做的修改就是从所有属性中选择k个属性,再从k个属性中选择最佳的分割属性。 4.代码示例 (1)决策树案例 #!/usr/bin/python # -*- coding:utf-8 -*- imp 阅读全文
posted @ 2020-04-11 14:34 雨后观山色 阅读(321) 评论(0) 推荐(0) 编辑
摘要:1.主要内容 案例引出: 2.条件熵 定义: 条件熵的定义式推导: 上图以出去打网球的案例为例,根节点的熵是大于0的,最底层的子节点的熵是等于0的,以信息熵为度量,构造一颗熵值下降最快的树。 3.决策树 (1)决策树的样式 (2)决策树的定义 (3)决策树算法的特点 (4)生成决策树的算法 (5)互 阅读全文
posted @ 2020-04-11 12:51 雨后观山色 阅读(180) 评论(0) 推荐(0) 编辑
摘要:1.线性回归补充 图中1,2,3表示拟合的函数的最高次项的阶数。 机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛 化(generalization)。 通常,我们度量模型在训练集中分出来的测试集(test 阅读全文
posted @ 2020-04-10 15:09 雨后观山色 阅读(235) 评论(0) 推荐(0) 编辑
摘要:1.包安装 (1)安装指定的一个包 conda install package_name 注意:package_name为包的名称 例如要安装numpy,操作示例: 利用win+R键,进入cmd窗口 conda install numpy (2)同时安装多个包,可以输入 conda install 阅读全文
posted @ 2020-04-10 13:55 雨后观山色 阅读(4025) 评论(0) 推荐(0) 编辑
摘要:1.回归的主要内容 2.相关理论 (1)线性回归 线性回归解决回归问题。换言之,我们的目标是建立一个系统,将向量 x ∈ Rn 作为输入,预测标量 y ∈ R 作为输出。线性回归的输出是其输入的线性函数。令 yˆ 表示模型预测 y 应该取的值。我们定义输出为: 阅读全文
posted @ 2020-04-08 14:34 雨后观山色 阅读(171) 评论(0) 推荐(0) 编辑
摘要:1. 操作步骤: 打开navicat软件,点击查询 新建查询,将粘贴如下代码。 select TABLE_NAME 表, COLUMN_NAME 列, COLUMN_TYPE 类型, IS_NULLABLE 允许为空, COLUMN_DEFAULT 默认值, COLUMN_COMMENT 描述 fr 阅读全文
posted @ 2020-04-08 10:58 雨后观山色 阅读(513) 评论(0) 推荐(0) 编辑
摘要:1.SVD奇异值分解 阅读全文
posted @ 2020-04-06 13:22 雨后观山色 阅读(169) 评论(0) 推荐(0) 编辑
摘要:C:\SoftApplication\Anaconda3\python.exe E:/pycharmprojects/test03/test01.py Traceback (most recent call last): File "E:/pycharmprojects/test03/test01. 阅读全文
posted @ 2020-04-05 19:39 雨后观山色 阅读(590) 评论(0) 推荐(0) 编辑
摘要:1.python库 2.利用python可以绘制各种图像 3.numpy和scipy的使用案例 (1)利用numpy做数据生成 # # 开场白: # numpy是非常好用的数据包,如:可以这样得到这个二维数组 # [[ 0 1 2 3 4 5] # [10 11 12 13 14 15] # [20 阅读全文
posted @ 2020-04-05 17:11 雨后观山色 阅读(201) 评论(0) 推荐(0) 编辑
摘要:1.凸集和凸函数 二阶导大于0,凸函数。 2.凸优化 阅读全文
posted @ 2020-04-03 16:23 雨后观山色 阅读(246) 评论(0) 推荐(0) 编辑
摘要:1.行列式 阅读全文
posted @ 2020-04-02 15:47 雨后观山色 阅读(133) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示