wxquare - 博客园

2016年9月9日

摘要： 1.熵与最大熵原理熵是随机变量不确定性的度量，不确定性越大，熵值就越大；若随机变量退化成定值，熵为0。均匀分布是“最不确定”的分布假设离散随机变量X的概率分布为P(x)，则其熵为：联合熵和条件熵两个随机变量的X，Y的联合分布，可以形成联合熵，用H(X,Y)表示条件熵H(X|Y) = H(X 阅读全文

posted @ 2016-09-09 20:53 wxquare 阅读(38014) 评论(1) 推荐(1) 编辑

2016年7月29日

一步一步理解word2Vec

摘要：一、概述关于word2vec，首先需要弄清楚它并不是一个模型或者DL算法，而是描述从自然语言到词向量转换的技术。词向量化的方法有很多种，最简单的是one-hot编码，但是one-hot会有维度灾难的缺点，而且one-hot编码中每个单词都是互相独立的，不能刻画词与词之间的相似性。目前最具有代表性的阅读全文

posted @ 2016-07-29 15:50 wxquare 阅读(1814) 评论(0) 推荐(0) 编辑

2016年6月14日

OpenMP的简单使用教程

摘要：转自：http://binglispace.com/2015/01/09/openmp-intro/ OpenMP的简单使用教程今天有幸参加了一个XSEDE OpenMP的workshop讲座，真是受益匪浅啊。简单来说OpenMP就是一个多线程程序的框架。和MPI相比，MPI每一个Node都有独立阅读全文

posted @ 2016-06-14 17:01 wxquare 阅读(18345) 评论(0) 推荐(1) 编辑

2016年6月6日

linux多线程同步

摘要： 1. 互斥量是线程同步的一种机制，用来保护多线程的共享资源。同一时刻，只允许一个线程对临界区进行访问。互斥量的工作流程：创建一个互斥量，把这个互斥量的加锁调用放在临界区的开始位置，解锁调用放到临界区的结束位置。当内核优先把某个线程调度到临界区的开始位置时，线程执行这个加锁调用，并进入临界区对资源进行阅读全文

posted @ 2016-06-06 15:20 wxquare 阅读(635) 评论(0) 推荐(0) 编辑

2016年5月30日

一步一步理解GB、GBDT、xgboost

摘要： GBDT和xgboost在竞赛和工业界使用都非常频繁，能有效的应用到分类、回归、排序问题，虽然使用起来不难，但是要能完整的理解还是有一点麻烦的。本文尝试一步一步梳理GB、GBDT、xgboost，它们之间有非常紧密的联系，GBDT是以决策树（CART）为基学习器的GB算法，xgboost扩展和改进了阅读全文

posted @ 2016-05-30 09:52 wxquare 阅读(107103) 评论(1) 推荐(3) 编辑

2016年5月12日

机器学习之特征工程

摘要：一、特征工程概述 “数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升，有时甚至在简单的模型上也能取阅读全文

posted @ 2016-05-12 10:17 wxquare 阅读(71432) 评论(0) 推荐(6) 编辑

2016年5月9日

tensorflow0.8.0 安装配置

摘要：参考官网：https://www.tensorflow.org/ Ubuntu15.10 + Eclipse Mars.2(4.5.2)官网最新 + Anaconda3-4.0.0 + Pydev4.5.0 + TensorFlow0.8.0 + sklearn 上个月google发布了tensor 阅读全文

posted @ 2016-05-09 10:50 wxquare 阅读(1307) 评论(0) 推荐(0) 编辑

2016年4月27日

集成学习方法

摘要：集成学习是机器学习算法中非常强大的工具，有人把它称为机器学习中的“屠龙刀”，非常万能且有效，在各大机器学习、数据挖掘竞赛中使用非常广泛。它的思想非常简单，集合多个模型的能力，达到“三个臭皮匠，赛过诸葛亮”的效果。集成学习中概念是很容易理解的，但是好像没有同一的术语，很多书本上写得也不一样，越看越模糊阅读全文

posted @ 2016-04-27 22:20 wxquare 阅读(8675) 评论(0) 推荐(1) 编辑

2016年4月15日

SVM学习笔记

摘要：一、SVM概述支持向量机（support vector machine）是一系列的监督学习算法，能用于分类、回归分析。原本的SVM是个二分类算法，通过引入“OVO”或者“OVR”可以扩展到多分类问题。其学习策略是使间隔最大化，也就是常说的基于结构风险最小化寻找最优的分割超平面。SVM学习问题可以表阅读全文

posted @ 2016-04-15 23:13 wxquare 阅读(2804) 评论(0) 推荐(0) 编辑

机器学习中的正则化

摘要： 1. 正则化概述（Regularization）监督学习可以简单的理解为在最小化loss function 的同时，保证模型的复杂度尽可能的低，防止出现过拟合（overfitting）。常用的loss函数有square loss(Regression)，Hinge Loss(SVM)，exp-loss(adaBoost) 等。关于正则化（Regularization），它... 阅读全文

posted @ 2016-04-15 20:53 wxquare 阅读(2943) 评论(0) 推荐(0) 编辑

wxquare的学习笔记

公告