molearner

2019年4月13日

摘要：基础概念本文在进行文本相似度分析过程分为以下几个部分进行，文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba，gensim jieba:主要实现分词过程 gensim：进行语料库制作和算法训练结巴（jieba）分词在自然语言处理领域中，分词和提取关键词都是对文本处阅读全文

posted @ 2019-04-13 14:23 molearner 阅读(16636) 评论(0) 推荐(0)

2018年10月23日

python中lambda,map,reduce,filter,zip函数

摘要：函数式编程函数式编程（Functional Programming）或者函数程序设计，又称泛函编程，是一种编程范型，它将计算机运算视为数学上的函数计算，并且避免使用程序状态以及易变对象。简单来讲，函数式编程是一种“广播式”的编程，一般结合前面提到过的lambda定义函数，用于科学计算中，会显得特别阅读全文

posted @ 2018-10-23 13:55 molearner 阅读(1227) 评论(0) 推荐(0)

2018年10月22日

机器学习-——损失函数

摘要：基础概念损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，换句话，可以解释为我们构建模型得到的预测值与真实值之间的差距。它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构阅读全文

posted @ 2018-10-22 21:26 molearner 阅读(10551) 评论(0) 推荐(0)

2018年8月17日

Tensorflow中的数据对象Dataset

摘要：基础概念在tensorflow的官方文档是这样介绍Dataset数据对象的： Dataset可以用来表示输入管道元素集合（张量的嵌套结构）和“逻辑计划“对这些元素的转换操作。在Dataset中元素可以是向量，元组或字典等形式。另外，Dataset需要配合另外一个类Iterator进行使用，Ite 阅读全文

posted @ 2018-08-17 20:26 molearner 阅读(7648) 评论(0) 推荐(0)

2018年8月7日

github 相关操作知识

摘要：新设备上使用github 1.要在本地创建一个ssh key ssh keygen t rsa C "email address" 2.界面提示进入.ssh文件夹下，找到id_rsa.pub 打开并负责key到github官网进入setting 并添加key，绑定设备成功 3.检查是否绑定成功 s 阅读全文

posted @ 2018-08-07 22:34 molearner 阅读(395) 评论(0) 推荐(0)

2018年7月21日

机器学习——LightGBM

摘要：基础概念 LigthGBM是boosting集合模型中的新进成员，它和xgboost一样是对GBDT的高效实现，很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。 LightGBM的优化点 1、采用直方阅读全文

posted @ 2018-07-21 16:12 molearner 阅读(10272) 评论(1) 推荐(1)

2018年7月17日

机器学习——超参数搜索

摘要：基础概念超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，在机器学习过程中需要对超参数进行优化，给学习器选择一组最优超参数，以提高学习的性能和效果。比如，树的数量或树的深度，学习率（多种模式）以及k均值聚类中的簇数等都是超参数。与超参数区别的概念是参数，它是模型训阅读全文

posted @ 2018-07-17 22:33 molearner 阅读(18869) 评论(0) 推荐(3)

2018年6月25日

机器学习——神经网络

摘要：神经网络基础概念人工神经网络又叫神经网络，是借鉴了生物神经网络的工作原理形成的一种数学模型。神经网络是机器学习诸多算法中的一种，它既可以用来做有监督的任务，如分类、视觉识别等，也可以用作无监督的任务。同时它能够处理复杂的非线性问题，它的基本结构是神经元，如下图所示：其中，x1、x2、x3代表输入阅读全文

posted @ 2018-06-25 22:46 molearner 阅读(15081) 评论(0) 推荐(0)

2018年4月26日

机器学习中特征的处理及选择

摘要：基础概念特征工程是通过对原始数据的处理和加工，将原始数据属性通过处理转换为数据特征的过程，属性是数据本身具有的维度，特征是数据中所呈现出来的某一种重要的特性，通常是通过属性的计算，组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言，好的数据以及特征往往是一个阅读全文

posted @ 2018-04-26 22:59 molearner 阅读(43094) 评论(0) 推荐(2)

2018年4月19日

机器学习中的类别不均衡问题

摘要：基础概念类别不均衡是指在分类学习算法中，不同类别样本的比例相差悬殊，它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上，有1000个样本，其中5个正样本，995个负样本，在这种情况下，算法只需将所有的样本预测为负样本，那么它的精度也可以达到99.5%，虽然结果的精度很高，但它依然没有价值阅读全文

posted @ 2018-04-19 22:06 molearner 阅读(19324) 评论(0) 推荐(1)

做一个简单的求知者，做一个认真的思考者。