随笔分类 -  NLP-Machine Learning

keras vgg16
摘要:一、vgg16介绍 VGGNet是牛津大学视觉几何组(Visual Geometry Group)提出的模型,该模型在2014ImageNet图像分类与定位挑战赛 ILSVRC-2014中取得在分类任务第二,定位任务第一的优异成绩。VGGNet突出的贡献是证明了很小的卷积,通过增加网络深度可以有效提 阅读全文
posted @ 2021-01-23 13:38 大雄fcl 阅读(624) 评论(0) 推荐(0) 编辑
特征选择
摘要:现有的特征选择算法,从不同的角度,可以分为不同的类型。按数据标签的获取情况,可以分为有监督、半监督和无监督特征选择;按是否需要额外的学习算法参与特征选择过程,以及具体的参与方式,可以分为封装型(wrapper)、嵌入式(embedded)和过滤型(filter)。再细致一些,可以分为基于信息论的特征 阅读全文
posted @ 2018-12-21 14:45 大雄fcl 阅读(374) 评论(0) 推荐(0) 编辑
三大统计相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数
摘要:统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解: (1)、当相关系数为0时,X和Y两变量无关系。 (2)、当X的值增大( 阅读全文
posted @ 2018-12-19 16:59 大雄fcl 阅读(7691) 评论(0) 推荐(0) 编辑
卡方检验用于特征选择
摘要:前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检 阅读全文
posted @ 2018-07-13 15:15 大雄fcl 阅读(220) 评论(0) 推荐(0) 编辑
三种常用数据标准化方法
摘要:引入 评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信 阅读全文
posted @ 2018-07-12 17:00 大雄fcl 阅读(2848) 评论(0) 推荐(0) 编辑
python nltk 安装及配置说明
摘要:本教程采用pip安装方式,前期需要在本机安装setuptools 及pip 网上铺天盖地的说了很多关于nltk的说明,特别是后期nltk_data 手动下载操作,多数都不好使,这里整理 用pip安装nltk , 运行pip install nltk,等一段时间安装完成以后。进入IDLE界面(可以通过 阅读全文
posted @ 2017-11-29 15:36 大雄fcl 阅读(1079) 评论(0) 推荐(0) 编辑
HanLP自然语言处理包介绍
摘要:支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容L 阅读全文
posted @ 2017-11-21 14:00 大雄fcl 阅读(20285) 评论(2) 推荐(4) 编辑
Java实现敏感词过滤 - IKAnalyzer中文分词工具
摘要:IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 IKAnalyzer 进行分词,通过遍历分词集合进行敏感词过滤。 使用前需对敏感词库进行初始化: Se 阅读全文
posted @ 2017-11-20 10:43 大雄fcl 阅读(1662) 评论(0) 推荐(0) 编辑
搭建Hadoop2.7.1的分布式集群
摘要:Hadoop 2.7.1 (2015-7-6更新),hadoop的环境配置不是特别的复杂,但是确实有很多细节需要注意,不然会造成许多配置错误的情况。尽量保证一次配置正确防止反复修改。 网上教程有很多关于Hadoop配置的,但是每一个教程都对应了一个版本信息,有一些教程也存在很大的问题,配置环境,系统 阅读全文
posted @ 2017-08-30 15:10 大雄fcl 阅读(300) 评论(0) 推荐(0) 编辑
gensim做主题模型
摘要:作为Python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans 具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html 由于这个链 阅读全文
posted @ 2017-08-16 16:51 大雄fcl 阅读(1102) 评论(0) 推荐(0) 编辑
最大似然估计和最小二乘估计的区别与联系
摘要:看似最小二乘估计与最大似然估计在推导得到的结果很相似,但是其前提条件必须引起大家的注意!!! 对于最小二乘估计,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小,其推导过程如下所示。其中Q表示误差,Yi表示估计值,Yi'表示观测值。 对于最大似然法,最合理的参 阅读全文
posted @ 2017-05-10 16:59 大雄fcl 阅读(1675) 评论(0) 推荐(0) 编辑
回归
摘要:一、引言 本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu,以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 机器学习中的回归问题属于有监 阅读全文
posted @ 2017-05-04 20:21 大雄fcl 阅读(216) 评论(0) 推荐(0) 编辑
朴素贝叶斯分类
摘要:1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 1.2、分类问题综述 阅读全文
posted @ 2017-04-20 11:16 大雄fcl 阅读(269) 评论(0) 推荐(0) 编辑
向量空间模型(VSM)在文档相似度计算上的简单介绍
摘要:C#实现在: http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的 阅读全文
posted @ 2017-04-17 14:28 大雄fcl 阅读(1261) 评论(0) 推荐(0) 编辑
Mallet 使用说明
摘要:Mallet:自然语言处理工具包 发表于128 天前 ⁄ 技术, 科研 ⁄ 评论数 6 ⁄ 被围观 1006 Views+ MALLET是基于java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用,虽然是文本的应用,但是完全可以拿到多媒体方面来,例如机器 阅读全文
posted @ 2016-12-01 21:03 大雄fcl 阅读(2624) 评论(0) 推荐(0) 编辑
DeepLearning之路(三)MLP
摘要:DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解 @author:wepon @blog:http://blog.csdn.net/u012162613/article/details/43221829 本文介绍多层感知机算法,特别是详细解读其代码实现,基于Pyth 阅读全文
posted @ 2016-04-20 16:32 大雄fcl 阅读(1487) 评论(0) 推荐(0) 编辑
DeepLearning之路(二)SoftMax回归
摘要:Softmax回归 1. softmax回归模型 softmax回归模型是logistic回归模型在多分类问题上的扩展(logistic回归解决的是二分类问题)。 对于训练集,有。 对于给定的测试输入,我们相拥假设函数针对每一个类别j估算出概率值。也就是说,我们估计得每一种分类结果出现的概率。因此我 阅读全文
posted @ 2016-04-19 16:42 大雄fcl 阅读(7297) 评论(0) 推荐(1) 编辑
DeepLearning之路(一)逻辑回归
摘要:逻辑回归 1、 总述 逻辑回归来源于回归分析,用来解决分类问题,即预测值变为较少数量的离散值。 2、 基本概念 回归分析(Regression Analysis):存在一堆观测资料,希望获得数据内在分布规律。单个样本表示成二维或多维向量,包含一个因变量Y和一个或多个自变量X。回归分析主要研究当自变量 阅读全文
posted @ 2016-04-19 14:22 大雄fcl 阅读(1292) 评论(0) 推荐(0) 编辑
TOP 10开源的推荐系统简介
摘要:最近这两年推荐系统特别火,本文搜集整理了一些比较好的开源推荐系统,即有轻量级的适用于做研究的SVDFeature、LibMF、LibFM等,也有重量级的适用于工业系统的 Mahout、Oryx、EasyRecd等,供大家参考。PS:这里的top 10仅代表个人观点。#1.SVDFeature主页:h... 阅读全文
posted @ 2016-01-14 08:49 大雄fcl 阅读(425) 评论(0) 推荐(0) 编辑
Deep Learning In NLP 神经网络与词向量
摘要:0. 词向量是什么 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只... 阅读全文
posted @ 2016-01-02 20:08 大雄fcl 阅读(2365) 评论(0) 推荐(0) 编辑