06 2019 档案

摘要:1.numpy.random.uniform(low,high,size) 例如:numpy.random.uniform(-0.25,0.25,300) 随机的产生大小在[-0.25,0.25)之间维度为300的nparray 随机初始化词向量有论文说-0.25,0.25之间较好 2.Python 阅读全文
posted @ 2019-06-27 23:08 喂你在哪 阅读(219) 评论(0) 推荐(0) 编辑
摘要:1.RF和bagging的联系 RF是对bagging的进化版,首先都是有放回的进行采样,获得n个训练集从而训练n个弱分类器,但是RF在随机选取的训练集的基础上对于特征的选择也是随机的,随机的选取一部分的特征进行弱分类器的构建,同时在划分建树的过程中也是从这些随机选取的部分特征中选择最优的特征。 2 阅读全文
posted @ 2019-06-26 20:42 喂你在哪 阅读(343) 评论(0) 推荐(0) 编辑
摘要:1.随机森林(RF) RF是对bagging的进化版,首先都是有放回的进行采样,获得n个训练集从而训练n个弱分类器,但是RF在随机选取的训练集的基础上对于特征的选择也是随机的,随机的选取一部分的特征进行弱分类器的构建,同时在划分建树的过程中也是从这些随机选取的部分特征中选择最优的特征。(使用的为同质 阅读全文
posted @ 2019-06-26 20:18 喂你在哪 阅读(250) 评论(0) 推荐(0) 编辑
摘要:详细参考:https://www.cnblogs.com/pinard/p/6131423.html 首先明确集成学习它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。 集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这 阅读全文
posted @ 2019-06-25 23:35 喂你在哪 阅读(448) 评论(0) 推荐(0) 编辑
摘要:树模型主要有ID3、C4.5、C5.0、OC1以及CART等,使用最多的树模型为CART,sklearn中的决策树模型是基于CART的。 在介绍树模型之前先介绍一下信息熵、信息增益以及GINi系数。 信息熵:熵度量了事物的不确定性,越不确定的事物,它的熵就越大。 信息增益:它度量了在知道当前特征之后 阅读全文
posted @ 2019-06-25 19:58 喂你在哪 阅读(428) 评论(0) 推荐(0) 编辑
摘要:深度神经网络模型压缩和加速方法 综合现有的深度模型压缩方法,它们主要分为四类: 1、参数修剪和共享(parameter pruning and sharing) 2、低秩因子分解(low-rank factorization) 3、转移/紧凑卷积滤波器(transferred/compact con 阅读全文
posted @ 2019-06-24 21:04 喂你在哪 阅读(2677) 评论(0) 推荐(0) 编辑
摘要:线性回归是回归模型 感知器、逻辑回归以及SVM是分类模型 线性回归:f(x)=wx+b 感知器:f(x)=sign(wx+b)其中sign是个符号函数,若wx+b>=0取+1,若wx+b<0取-1 它的学习策略是最小化误分类点到超平面的距离, 逻辑回归:f(x)=sigmoid(wx+b)取值范围在 阅读全文
posted @ 2019-06-23 15:30 喂你在哪 阅读(1784) 评论(0) 推荐(0) 编辑
摘要:1、线性回归 回归的目的是预测数值型数据的目标值。目标值的计算是通过一个线性方程得到的,这个方程称为回归方程,各未知量(特征)前的系数为回归系数,求这些系数的过程就是回归。 对于普通线性回归使用的损失函数一般为平方误差。把其用最小二乘法进行优化得到的关于系数w求导所得到的矩阵形式的表达式求得的w便为 阅读全文
posted @ 2019-06-23 15:16 喂你在哪 阅读(777) 评论(0) 推荐(0) 编辑
摘要:SVM数学知识具体参考: https://blog.csdn.net/zhangping1987/article/details/21931663 数学知识补充 对于线性可分的超平面 既然能线性可分,那么就有超平面(向量化表示)将这数据集分开,使得一侧是“+1”类,另一侧是“-1类”。 第一个知识点 阅读全文
posted @ 2019-06-22 13:50 喂你在哪 阅读(374) 评论(0) 推荐(0) 编辑
摘要:参考:https://www.cnblogs.com/pinard/p/6069267.html 以及:https://blog.csdn.net/qq_32690999/article/details/78737393 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集 阅读全文
posted @ 2019-06-22 13:24 喂你在哪 阅读(180) 评论(0) 推荐(0) 编辑
摘要:KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。而KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。 KNN的三要素:k值的选取,距离度量 阅读全文
posted @ 2019-06-22 12:51 喂你在哪 阅读(196) 评论(0) 推荐(0) 编辑
摘要:1.何为稀疏线性关系? 稀疏线性关系的意思就是绝大多数的特征和样本输出没有关系,线性拟合后这些特征维度的系数会全部为0,只有少量和输出相关的特征的回归系数不为0,这就是“稀疏线性关系”。 2.何为鲁棒性、归纳偏好和奥卡姆剃刀原理? 1)鲁棒性一般指模型的健壮性、稳定性、泛化性。 2)归纳偏好:机器学 阅读全文
posted @ 2019-06-22 10:57 喂你在哪 阅读(832) 评论(0) 推荐(0) 编辑
摘要:一.特征提取和特征选择的区别 特征选择和降维(特征提取)有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间;而特征选择的方法是从 阅读全文
posted @ 2019-06-22 10:29 喂你在哪 阅读(24417) 评论(0) 推荐(1) 编辑
摘要:1.文本关键词抽取的种类: 关键词提取方法分为有监督、半监督和无监督三种,有监督和半监督的关键词抽取方法需要浪费人力资源,所以现在使用的大多是无监督的关键词提取方法。 无监督的关键词提取方法又可以分为三类:基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。 2.基于统计特 阅读全文
posted @ 2019-06-19 17:47 喂你在哪 阅读(6108) 评论(0) 推荐(3) 编辑
摘要:1.CRF++的详细解析 完成的是学习和解码的过程:训练即为学习的过程,预测即为解码的过程。 模板的解析: 具体参考hanlp提供的: http://www.hankcs.com/nlp/the-crf-model-format-description.html Unigram和Bigram模板分别 阅读全文
posted @ 2019-06-18 23:20 喂你在哪 阅读(9211) 评论(0) 推荐(0) 编辑
摘要:1.概率图模型 概率图模型是一类用图来表达变量相关关系的概率模型,它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系。概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网,第二类是使用无向图表示变量间的相关关系 阅读全文
posted @ 2019-06-18 21:51 喂你在哪 阅读(473) 评论(0) 推荐(0) 编辑
摘要:内容是结合:https://zhuanlan.zhihu.com/p/49271699 可以直接看原文 预训练一般要从图像处理领域说起:可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预先训练,在A任务上或者B任务上学会网络参数,然后存起来以备后用。假设我们面临第三个任务C,网络结构采 阅读全文
posted @ 2019-06-17 19:50 喂你在哪 阅读(2832) 评论(0) 推荐(0) 编辑
摘要:1.对词用独热编码进行表示的缺点 向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2、任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之间的相关信息,而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来 在上文中提过,one-h 阅读全文
posted @ 2019-06-16 19:12 喂你在哪 阅读(954) 评论(0) 推荐(0) 编辑
摘要:不同分词工具原理解析 对各种分词工具的介绍,具体参考: http://www.cnblogs.com/en-heng/p/6234006.html 1) jieba 具体参考: https://blog.csdn.net/rav009/article/details/12196623 jieba分词 阅读全文
posted @ 2019-06-14 20:41 喂你在哪 阅读(671) 评论(0) 推荐(0) 编辑
摘要:常见的损失函数有哪些?(这里的损失函数严格来说是目标函数,一般都称呼为损失函数) 具体见: https://blog.csdn.net/iqqiqqiqqiqq/article/details/77413541 1)0-1损失函数 记录分类错误的次数。 2)绝对值损失函数 通常用于回归中 3)平方损 阅读全文
posted @ 2019-06-13 22:29 喂你在哪 阅读(5066) 评论(0) 推荐(0) 编辑
摘要:1)用数值进行填充 用平均值、中值、分位数、众数、随机值等替代。简便快速但是效果一般,因为等于人为增加了噪声。 2)用算法拟合进行填充(常用的是随机森林算法) 相对一较为准确。但是有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的 阅读全文
posted @ 2019-06-13 22:23 喂你在哪 阅读(1803) 评论(0) 推荐(0) 编辑
摘要:为了评估模型拟合的好坏,通常用损失函数(觉得严格来说相当于下面的目标函数)来度量拟合的程度。损失函数极小化,意味着拟合程度最好,对应的模型参数即为最优参数。 每一个算法都有一个目标函数(objective function),算法就是让这个目标函数达到最优。对于分类的算法,都会有对错。错了就会有代价 阅读全文
posted @ 2019-06-13 22:19 喂你在哪 阅读(2728) 评论(0) 推荐(0) 编辑
摘要:参考: https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA http://yangminz.coding.me/blog/post/MinkolovRNNLM/MinkolovRNNLM_thesis.html 语言模型本质上是在回答一个问题:出现的语 阅读全文
posted @ 2019-06-12 22:56 喂你在哪 阅读(12265) 评论(5) 推荐(2) 编辑
摘要:1.所谓概率函数就是要在整个样本空间分配概率值,概率值总和为1 2.一个完备的概率空间应该由样本空间,概率函数和事件域这三部分组成,在统计自然语言处理中,我们的目标就是为建立的模型定义一个符合上述条件的概率空间。 3.随机变量有一个取值的范围,因此我们避免了直接和事件本身打交道,而是处理代表它们的随 阅读全文
posted @ 2019-06-11 19:42 喂你在哪 阅读(499) 评论(0) 推荐(0) 编辑
摘要:1、过拟合 所谓过拟合就是:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致训练出的模型其泛化能力降低,这就是过拟合。 如何解决? 1)Early stopping Early stopping便是一种通过提前截断迭代次数来防止过拟合的方法,即在模型对训练数据集迭代收敛之前 阅读全文
posted @ 2019-06-10 22:35 喂你在哪 阅读(877) 评论(0) 推荐(0) 编辑
摘要:以下内容是个人参考网上的学习资料以及自己的理解进行总结的 1、循环神经网络的介绍具体看 https://www.cnblogs.com/pinard/p/6509630.html 深度神经网络无法利用数据中时间序列信息,循环神经网络应势而生。循环神经网络的主要用途是处理和预测序列数据,它最擅长解决的 阅读全文
posted @ 2019-06-09 22:54 喂你在哪 阅读(2584) 评论(0) 推荐(0) 编辑
摘要:1、神经网络中损失函数和优化函数的作用 训练出一个网络模型之后如何对模型进行评估?往往是衡量预测值与真实值之间的差异程度,这就是通过损失函数来完成的。另外损失函数也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确 阅读全文
posted @ 2019-06-05 23:05 喂你在哪 阅读(1008) 评论(0) 推荐(0) 编辑
摘要:参照百度百科 在操作系统中,并发是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。 操作系统并发程序执行的特点: 并发环境下,由于程序的封闭性被打破,出现了新的特点: ①程序与计算不再一一对应,一个程序副本可以 阅读全文
posted @ 2019-06-04 22:51 喂你在哪 阅读(516) 评论(0) 推荐(0) 编辑
摘要:主要是对 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding提出的BERT 清华和华为提出的ERNIE: Enhanced Language Representation with Info 阅读全文
posted @ 2019-06-02 11:04 喂你在哪 阅读(1309) 评论(0) 推荐(0) 编辑
摘要:1.使用L1,L2正则化防止过拟合的原理 L1正则化是使得那些原先在0附近的权重参数W往零移动,从而减弱那些可能是某些批次数据所特有的特征对网络模型的影响,它偏向于产生少量的特征。L2正则化起到使得权重参数W变小加巨的效果,从而降低网络模型的复杂度,W的减小会使得激活函数的取值范围减小,一定程度上会 阅读全文
posted @ 2019-06-01 14:18 喂你在哪 阅读(439) 评论(0) 推荐(0) 编辑