摘要:
1.熵与最大熵原理 熵是随机变量不确定性的度量,不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 假设离散随机变量X的概率分布为P(x),则其熵为: 联合熵和条件熵 两个随机变量的X,Y的联合分布,可以形成联合熵,用H(X,Y)表示 条件熵H(X|Y) = H(X 阅读全文
摘要:
一、概述 关于word2vec,首先需要弄清楚它并不是一个模型或者DL算法,而是描述从自然语言到词向量转换的技术。词向量化的方法有很多种,最简单的是one-hot编码,但是one-hot会有维度灾难的缺点,而且one-hot编码中每个单词都是互相独立的,不能刻画词与词之间的相似性。目前最具有代表性的 阅读全文
摘要:
转自:http://binglispace.com/2015/01/09/openmp-intro/ OpenMP的简单使用教程 今天有幸参加了一个XSEDE OpenMP的workshop讲座,真是受益匪浅啊。简单来说OpenMP就是一个多线程程序的框架。和MPI相比,MPI每一个Node都有独立 阅读全文
摘要:
1. 互斥量是线程同步的一种机制,用来保护多线程的共享资源。同一时刻,只允许一个线程对临界区进行访问。互斥量的工作流程:创建一个互斥量,把这个互斥量的加锁调用放在临界区的开始位置,解锁调用放到临界区的结束位置。当内核优先把某个线程调度到临界区的开始位置时,线程执行这个加锁调用,并进入临界区对资源进行 阅读全文
摘要:
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类、回归、排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了 阅读全文
摘要:
一、特征工程概述 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取 阅读全文
摘要:
参考官网:https://www.tensorflow.org/ Ubuntu15.10 + Eclipse Mars.2(4.5.2)官网最新 + Anaconda3-4.0.0 + Pydev4.5.0 + TensorFlow0.8.0 + sklearn 上个月google发布了tensor 阅读全文
摘要:
集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀”,非常万能且有效,在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单,集合多个模型的能力,达到“三个臭皮匠,赛过诸葛亮”的效果。集成学习中概念是很容易理解的,但是好像没有同一的术语,很多书本上写得也不一样,越看越模糊 阅读全文
摘要:
一、SVM概述 支持向量机(support vector machine)是一系列的监督学习算法,能用于分类、回归分析。原本的SVM是个二分类算法,通过引入“OVO”或者“OVR”可以扩展到多分类问题。其学习策略是使间隔最大化,也就是常说的基于结构风险最小化寻找最优的分割超平面。SVM学习问题可以表 阅读全文
摘要:
1. 正则化概述(Regularization) 监督学习可以简单的理解为在最小化loss function 的同时,保证模型的复杂度尽可能的低,防止出现过拟合(overfitting)。常用的loss函数有square loss(Regression),Hinge Loss(SVM),exp-loss(adaBoost) 等。关于正则化(Regularization),它... 阅读全文