NLP-Machine Learning - 随笔分类 - 大雄fcl

keras vgg16

摘要：一、vgg16介绍 VGGNet是牛津大学视觉几何组(Visual Geometry Group)提出的模型，该模型在2014ImageNet图像分类与定位挑战赛 ILSVRC-2014中取得在分类任务第二，定位任务第一的优异成绩。VGGNet突出的贡献是证明了很小的卷积，通过增加网络深度可以有效提阅读全文

posted @ 2021-01-23 13:38 大雄fcl 阅读(624) 评论(0) 推荐(0) 编辑

特征选择

摘要：现有的特征选择算法，从不同的角度，可以分为不同的类型。按数据标签的获取情况，可以分为有监督、半监督和无监督特征选择；按是否需要额外的学习算法参与特征选择过程，以及具体的参与方式，可以分为封装型(wrapper)、嵌入式(embedded)和过滤型(filter)。再细致一些，可以分为基于信息论的特征阅读全文

posted @ 2018-12-21 14:45 大雄fcl 阅读(374) 评论(0) 推荐(0) 编辑

摘要：统计相关系数简介由于使用的统计相关系数比较频繁，所以这里就利用几篇文章简单介绍一下这些系数。相关系数：考察两个事物（在数据里我们称之为变量）之间的相关程度。如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解： (1)、当相关系数为0时，X和Y两变量无关系。 (2)、当X的值增大（阅读全文

posted @ 2018-12-19 16:59 大雄fcl 阅读(7691) 评论(0) 推荐(0) 编辑

卡方检验用于特征选择

摘要：前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得，开方检验其实是数理统计中一种常用的检阅读全文

posted @ 2018-07-13 15:15 大雄fcl 阅读(220) 评论(0) 推荐(0) 编辑

三种常用数据标准化方法

摘要：引入评价是现代社会各领域的一项经常性的工作，是科学做出管理决策的重要依据。随着人们研究领域的不断扩大，所面临的评价对象日趋复杂，如果仅依据单一指标对事物进行评价往往不尽合理，必须全面地从整体的角度考虑问题，多指标综合评价方法应运而生。所谓多指标综合评价方法，就是把描述评价对象不同方面的多个指标的信阅读全文

posted @ 2018-07-12 17:00 大雄fcl 阅读(2848) 评论(0) 推荐(0) 编辑

python nltk 安装及配置说明

摘要：本教程采用pip安装方式，前期需要在本机安装setuptools 及pip 网上铺天盖地的说了很多关于nltk的说明，特别是后期nltk_data 手动下载操作，多数都不好使，这里整理用pip安装nltk , 运行pip install nltk,等一段时间安装完成以后。进入IDLE界面（可以通过阅读全文

posted @ 2017-11-29 15:36 大雄fcl 阅读(1079) 评论(0) 推荐(0) 编辑

HanLP自然语言处理包介绍

摘要：支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、CRF依存句法分析）。提供Lucene插件，兼容L 阅读全文

posted @ 2017-11-21 14:00 大雄fcl 阅读(20285) 评论(2) 推荐(4) 编辑

Java实现敏感词过滤 - IKAnalyzer中文分词工具

摘要：IKAnalyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。官网： https://code.google.com/archive/p/ik-analyzer/ 本用例借助 IKAnalyzer 进行分词，通过遍历分词集合进行敏感词过滤。使用前需对敏感词库进行初始化： Se 阅读全文

posted @ 2017-11-20 10:43 大雄fcl 阅读(1662) 评论(0) 推荐(0) 编辑

搭建Hadoop2.7.1的分布式集群

摘要：Hadoop 2.7.1 (2015-7-6更新)，hadoop的环境配置不是特别的复杂，但是确实有很多细节需要注意，不然会造成许多配置错误的情况。尽量保证一次配置正确防止反复修改。网上教程有很多关于Hadoop配置的，但是每一个教程都对应了一个版本信息，有一些教程也存在很大的问题，配置环境，系统阅读全文

posted @ 2017-08-30 15:10 大雄fcl 阅读(300) 评论(0) 推荐(0) 编辑

gensim做主题模型

摘要：作为Python的一个库，gensim给了文本主题模型足够的方便，像他自己的介绍一样，topic modelling for humans 具体的tutorial可以参看他的官方网页，当然是全英文的，http://radimrehurek.com/gensim/tutorial.html 由于这个链阅读全文

posted @ 2017-08-16 16:51 大雄fcl 阅读(1102) 评论(0) 推荐(0) 编辑

最大似然估计和最小二乘估计的区别与联系

摘要：看似最小二乘估计与最大似然估计在推导得到的结果很相似，但是其前提条件必须引起大家的注意！！！对于最小二乘估计，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小，其推导过程如下所示。其中Q表示误差，Yi表示估计值，Yi'表示观测值。对于最大似然法，最合理的参阅读全文

posted @ 2017-05-10 16:59 大雄fcl 阅读(1675) 评论(0) 推荐(0) 编辑

回归

摘要：一、引言本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu，以及斯坦福无监督学习UFLDL tutorial http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial 机器学习中的回归问题属于有监阅读全文

posted @ 2017-05-04 20:21 大雄fcl 阅读(216) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类

摘要：1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。 1.2、分类问题综述阅读全文

posted @ 2017-04-20 11:16 大雄fcl 阅读(269) 评论(0) 推荐(0) 编辑

向量空间模型(VSM)在文档相似度计算上的简单介绍

摘要：C#实现在： http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx 向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的阅读全文

posted @ 2017-04-17 14:28 大雄fcl 阅读(1261) 评论(0) 推荐(0) 编辑

Mallet 使用说明

摘要：Mallet：自然语言处理工具包发表于128 天前 ⁄ 技术, 科研 ⁄ 评论数 6 ⁄ 被围观 1006 Views+ MALLET是基于java的自然语言处理工具箱，包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用，虽然是文本的应用，但是完全可以拿到多媒体方面来，例如机器阅读全文

posted @ 2016-12-01 21:03 大雄fcl 阅读(2624) 评论(0) 推荐(0) 编辑

DeepLearning之路（三）MLP

摘要：DeepLearning tutorial（3）MLP多层感知机原理简介+代码详解 @author：wepon @blog：http://blog.csdn.net/u012162613/article/details/43221829 本文介绍多层感知机算法，特别是详细解读其代码实现，基于Pyth 阅读全文

posted @ 2016-04-20 16:32 大雄fcl 阅读(1487) 评论(0) 推荐(0) 编辑

DeepLearning之路（二）SoftMax回归

摘要：Softmax回归 1. softmax回归模型 softmax回归模型是logistic回归模型在多分类问题上的扩展（logistic回归解决的是二分类问题）。对于训练集，有。对于给定的测试输入，我们相拥假设函数针对每一个类别j估算出概率值。也就是说，我们估计得每一种分类结果出现的概率。因此我阅读全文

posted @ 2016-04-19 16:42 大雄fcl 阅读(7297) 评论(0) 推荐(1) 编辑

DeepLearning之路（一）逻辑回归

摘要：逻辑回归 1、总述逻辑回归来源于回归分析，用来解决分类问题，即预测值变为较少数量的离散值。 2、基本概念回归分析(Regression Analysis)：存在一堆观测资料，希望获得数据内在分布规律。单个样本表示成二维或多维向量，包含一个因变量Y和一个或多个自变量X。回归分析主要研究当自变量阅读全文

posted @ 2016-04-19 14:22 大雄fcl 阅读(1292) 评论(0) 推荐(0) 编辑

TOP 10开源的推荐系统简介

摘要：最近这两年推荐系统特别火，本文搜集整理了一些比较好的开源推荐系统，即有轻量级的适用于做研究的SVDFeature、LibMF、LibFM等，也有重量级的适用于工业系统的 Mahout、Oryx、EasyRecd等，供大家参考。PS：这里的top 10仅代表个人观点。#1.SVDFeature主页：h... 阅读全文

posted @ 2016-01-14 08:49 大雄fcl 阅读(425) 评论(0) 推荐(0) 编辑

Deep Learning In NLP 神经网络与词向量

摘要：0. 词向量是什么自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观，也是到目前为止最常用的词表示方法是 One-hot Representation，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为 0，只... 阅读全文

posted @ 2016-01-02 20:08 大雄fcl 阅读(2365) 评论(0) 推荐(0) 编辑

随笔分类 - NLP-Machine Learning

公告