摘要: 基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensim:进行语料库制作和算法训练 结巴(jieba)分词 在自然语言处理领域中,分词和提取关键词都是对文本处 阅读全文
posted @ 2019-04-13 14:23 molearner 阅读(16177) 评论(0) 推荐(0) 编辑
摘要: 函数式编程 函数式编程(Functional Programming)或者函数程序设计,又称泛函编程,是一种编程范型,它将计算机运算视为数学上的函数计算,并且避免使用程序状态以及易变对象。简单来讲,函数式编程是一种“广播式”的编程,一般结合前面提到过的lambda定义函数,用于科学计算中,会显得特别 阅读全文
posted @ 2018-10-23 13:55 molearner 阅读(1183) 评论(0) 推荐(0) 编辑
摘要: 基础概念 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,换句话,可以解释为我们构建模型得到的预测值与真实值之间的差距。它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构 阅读全文
posted @ 2018-10-22 21:26 molearner 阅读(10365) 评论(0) 推荐(0) 编辑
摘要: 基础概念 在tensorflow的官方文档是这样介绍Dataset数据对象的: Dataset可以用来表示输入管道元素集合(张量的嵌套结构)和“逻辑计划“对这些元素的转换操作。在Dataset中元素可以是向量,元组或字典等形式。 另外,Dataset需要配合另外一个类Iterator进行使用,Ite 阅读全文
posted @ 2018-08-17 20:26 molearner 阅读(7499) 评论(0) 推荐(0) 编辑
摘要: 新设备上使用github 1.要在本地创建一个ssh key ssh keygen t rsa C "email address" 2.界面提示进入.ssh文件夹下,找到id_rsa.pub 打开并负责key到github官网 进入setting 并添加key,绑定设备成功 3.检查是否绑定成功 s 阅读全文
posted @ 2018-08-07 22:34 molearner 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 基础概念 LigthGBM是boosting集合模型中的新进成员,它和xgboost一样是对GBDT的高效实现,很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。 LightGBM的优化点 1、采用直方 阅读全文
posted @ 2018-07-21 16:12 molearner 阅读(10064) 评论(1) 推荐(1) 编辑
摘要: 基础概念 超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,在机器学习过程中需要对超参数进行优化,给学习器选择一组最优超参数,以提高学习的性能和效果。比如,树的数量或树的深度,学习率(多种模式)以及k均值聚类中的簇数等都是超参数。 与超参数区别的概念是参数,它是模型训 阅读全文
posted @ 2018-07-17 22:33 molearner 阅读(18411) 评论(0) 推荐(3) 编辑
摘要: 神经网络基础概念 人工神经网络又叫神经网络,是借鉴了生物神经网络的工作原理形成的一种数学模型。神经网络是机器学习诸多算法中的一种,它既可以用来做有监督的任务,如分类、视觉识别等,也可以用作无监督的任务。同时它能够处理复杂的非线性问题,它的基本结构是神经元,如下图所示: 其中,x1、x2、x3代表输入 阅读全文
posted @ 2018-06-25 22:46 molearner 阅读(14867) 评论(0) 推荐(0) 编辑
摘要: 基础概念 特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个 阅读全文
posted @ 2018-04-26 22:59 molearner 阅读(42757) 评论(0) 推荐(2) 编辑
摘要: 基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值 阅读全文
posted @ 2018-04-19 22:06 molearner 阅读(19035) 评论(0) 推荐(1) 编辑