喂你在哪

2019年6月22日

摘要： 1.何为稀疏线性关系？稀疏线性关系的意思就是绝大多数的特征和样本输出没有关系，线性拟合后这些特征维度的系数会全部为0，只有少量和输出相关的特征的回归系数不为0，这就是“稀疏线性关系”。 2.何为鲁棒性、归纳偏好和奥卡姆剃刀原理？ 1）鲁棒性一般指模型的健壮性、稳定性、泛化性。 2）归纳偏好：机器学阅读全文

posted @ 2019-06-22 10:57 喂你在哪阅读(813) 评论(0) 推荐(0) 编辑

机器学习之特征选择和特征抽取

摘要：一.特征提取和特征选择的区别特征选择和降维（特征提取）有着些许的相似点，这两者达到的效果是一样的，就是试图去减少特征数据集中的属性(或者称为特征)的数目；但是两者所采用的方式方法却不同：降维的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间；而特征选择的方法是从阅读全文

posted @ 2019-06-22 10:29 喂你在哪阅读(24292) 评论(0) 推荐(1) 编辑

2019年6月19日

NLP之关键词提取（TF-IDF、Text-Rank）

摘要： 1.文本关键词抽取的种类：关键词提取方法分为有监督、半监督和无监督三种，有监督和半监督的关键词抽取方法需要浪费人力资源，所以现在使用的大多是无监督的关键词提取方法。无监督的关键词提取方法又可以分为三类：基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。 2.基于统计特阅读全文

posted @ 2019-06-19 17:47 喂你在哪阅读(6070) 评论(0) 推荐(3) 编辑

2019年6月18日

NLP之CRF应用篇（序列标注任务）

摘要： 1.CRF++的详细解析完成的是学习和解码的过程：训练即为学习的过程，预测即为解码的过程。模板的解析：具体参考hanlp提供的： http://www.hankcs.com/nlp/the-crf-model-format-description.html Unigram和Bigram模板分别阅读全文

posted @ 2019-06-18 23:20 喂你在哪阅读(9128) 评论(0) 推荐(0) 编辑

NLP之概率图模型

摘要： 1.概率图模型概率图模型是一类用图来表达变量相关关系的概率模型，它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率相关关系。概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网，第二类是使用无向图表示变量间的相关关系阅读全文

posted @ 2019-06-18 21:51 喂你在哪阅读(449) 评论(0) 推荐(0) 编辑

2019年6月17日

NLP之预训练

摘要：内容是结合：https://zhuanlan.zhihu.com/p/49271699 可以直接看原文预训练一般要从图像处理领域说起：可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预先训练，在A任务上或者B任务上学会网络参数，然后存起来以备后用。假设我们面临第三个任务C，网络结构采阅读全文

posted @ 2019-06-17 19:50 喂你在哪阅读(2820) 评论(0) 推荐(0) 编辑

2019年6月16日

NLP之词向量

摘要： 1.对词用独热编码进行表示的缺点向量的维度会随着句子中词的类型的增大而增大，最后可能会造成维度灾难2、任意两个词之间都是孤立的，仅仅将词符号化，不包含任何语义信息，根本无法表示出在语义层面上词与词之间的相关信息，而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来在上文中提过，one-h 阅读全文

posted @ 2019-06-16 19:12 喂你在哪阅读(932) 评论(0) 推荐(0) 编辑

2019年6月14日

NLP之分词

摘要：不同分词工具原理解析对各种分词工具的介绍，具体参考： http://www.cnblogs.com/en-heng/p/6234006.html 1） jieba 具体参考： https://blog.csdn.net/rav009/article/details/12196623 jieba分词阅读全文

posted @ 2019-06-14 20:41 喂你在哪阅读(662) 评论(0) 推荐(0) 编辑

2019年6月13日

机器学习之常用损失函数和优化方法

摘要：常见的损失函数有哪些？（这里的损失函数严格来说是目标函数，一般都称呼为损失函数）具体见： https://blog.csdn.net/iqqiqqiqqiqq/article/details/77413541 1）0-1损失函数记录分类错误的次数。 2）绝对值损失函数通常用于回归中 3）平方损阅读全文

posted @ 2019-06-13 22:29 喂你在哪阅读(4977) 评论(0) 推荐(0) 编辑

机器学习之缺失值的处理方法以及各种方法的优劣

摘要： 1）用数值进行填充用平均值、中值、分位数、众数、随机值等替代。简便快速但是效果一般，因为等于人为增加了噪声。 2）用算法拟合进行填充（常用的是随机森林算法）相对一较为准确。但是有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建模的阅读全文

posted @ 2019-06-13 22:23 喂你在哪阅读(1730) 评论(0) 推荐(0) 编辑

公告