数据科学家成长之旅

关注 机器学习,深度学习,自然语言处理,数学

2017年3月13日 #

优先(级)队列

摘要: 优先(级)队列 优先队列 优先级队列 是队列的一种,不过它可以按照自定义的一种方式(数据的优先级)来对队列中的数据进行动态的排序。每次的push和pop操作,队列都会动态的调整,以达到我们预期的方式来存储。 优先队列是由堆来实现的。 重点:优先级队列,是要看优先级的,谁的优先级更高,谁就先得到权限。 阅读全文

posted @ 2017-03-13 16:55 会飞的蝸牛 阅读(638) 评论(0) 推荐(0) 编辑

短文本主题建模

摘要: 短文本主题建模 [toc] 1. 引言 许多数据分析应用都会涉及到从短文本中提取出潜在的主题,比如微博、短信、日志文件或者评论数据。一方面,提取出潜在的主题有助于下一步的分析,比如情感评分或者文本分类模型。另一方面,短文本数据存在一定的特殊性,我们无法直接用传统的主题模型算法来处理它。短文本数据的主 阅读全文

posted @ 2017-03-13 16:50 会飞的蝸牛 阅读(1236) 评论(0) 推荐(1) 编辑

基于模型的特征选择详解 (Embedded & Wrapper)

摘要: 基于模型的特征选择详解 (Embedded & Wrapper) [toc] 单变量特征选择方法独立的衡量每个特征与响应变量之间的关系,另一种主流的特征选择方法是基于机器学习模型的方法。_有些机器学习方法本身就具有对特征进行打分的机制,或者很容易将其运用到特征选择任务中,例如回归模型,SVM,决策树 阅读全文

posted @ 2017-03-13 16:46 会飞的蝸牛 阅读(18049) 评论(1) 推荐(3) 编辑

特征选择 (feature_selection)

摘要: 特征选择 (feature_selection) [toc] 本文主要参考sklearn(0.18版为主,部分0.17)的1.13节的官方文档,以及一些工程实践整理而成。 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散 阅读全文

posted @ 2017-03-13 16:45 会飞的蝸牛 阅读(117570) 评论(10) 推荐(8) 编辑

特征选择(一)- 维数问题与类内距离

摘要: 原文地址:http://blog.csdn.net/ycheng_sjtu/article/details/25343043 什么是特征选择? 简单说,特征选择就是降维。 特征选择的任务 就是要从n维向量中选取m个特征,把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下 阅读全文

posted @ 2017-03-13 16:27 会飞的蝸牛 阅读(3329) 评论(0) 推荐(1) 编辑

特征选择(二)- 聚类变换

摘要: 上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。 类内距离小,意味着抱团抱得紧。 但是,抱团抱得紧,真的就一定容易分类么? 如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动 阅读全文

posted @ 2017-03-13 16:26 会飞的蝸牛 阅读(2300) 评论(0) 推荐(0) 编辑

特征选择(三)- K-L变换

摘要: 上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。 类内距离小,意味着抱团抱得紧。 但是,抱团抱得紧,真的就一定容易分类么? 如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动 阅读全文

posted @ 2017-03-13 16:26 会飞的蝸牛 阅读(1216) 评论(0) 推荐(0) 编辑

特征选择(四)- 分散度

摘要: 度量类别可分离性的量主要有: 欧氏距离(正态分布,协方差相等,且为单位阵) 是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。 马氏(Mahalanobis)距离(正态分布,协方差相等) 它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性, 阅读全文

posted @ 2017-03-13 16:24 会飞的蝸牛 阅读(1962) 评论(0) 推荐(0) 编辑

机器学习实践中的7种常见错误

摘要: http://ml.posthaven.com/machine-learning-done-wrong http://blog.jobbole.com/70684/ Statistical modeling is a lot like engineering. In engineering, the 阅读全文

posted @ 2017-03-13 16:13 会飞的蝸牛 阅读(1362) 评论(0) 推荐(0) 编辑

逻辑回归 vs 决策树 vs 支持向量机(I)

摘要: 原文链接:http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/ 分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中,我们将从众多技术中挑选出三种主要技术展开讨论,逻辑回归(Logistic  阅读全文

posted @ 2017-03-13 15:57 会飞的蝸牛 阅读(1389) 评论(0) 推荐(0) 编辑

逻辑回归 vs 决策树 vs 支持向量机(II)

摘要: 原文地址: Logistic Regression vs Decision Trees vs SVM: Part II 在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实 第一篇文章已经给出了很好的回答,不过在这里再补充一些。下面将继续深入讨论这个主题。事实上,这三个算法在其 阅读全文

posted @ 2017-03-13 15:52 会飞的蝸牛 阅读(1034) 评论(0) 推荐(0) 编辑

线性回归和逻辑回归

摘要: 在学习完 Andrew Ng 教授的机器学习课程,这里将线性回归和逻辑回归细节之处梳理一下。 1、 为什么是逻辑回归? 都说线性回归用来做回归预测,逻辑回归用于做二分类,一个是解决回归问题,一个用于解决分类问题。但很多人问起逻辑回归和线性回归的区别,很多人会大喊一声(也可能是三声):逻辑回归就是对线 阅读全文

posted @ 2017-03-13 13:37 会飞的蝸牛 阅读(685) 评论(0) 推荐(0) 编辑

Mac 下 python 环境问题

摘要: 一、Mac下,可能存在的 python 环境: 1、Mac系统自带的python环境在(由于不同的 mac 系统,默认自带的 python 版本可能不一样): Python 2.7.10: /System/Library/Frameworks/Python.framework/Versions/2. 阅读全文

posted @ 2017-03-13 10:14 会飞的蝸牛 阅读(648) 评论(0) 推荐(0) 编辑

Linux目录/usr结构说明

摘要: 在 linux 文件结构中,有一个很神奇的目录 —— /usr。 讨论中,大部分观点认为: usr 是 unix system resources 的缩写; usr 是 user 的缩写; usr 是 unix software resources 的缩写。 根据常识判断,是 user 缩写的可能性 阅读全文

posted @ 2017-03-13 10:07 会飞的蝸牛 阅读(307) 评论(0) 推荐(0) 编辑

Python 处理 json

摘要: Python在处理json数据中有四个重要的函数:dump,load;dumps,loads。 序列化(dict 包装成 json文件) dump(转储):将字典dic对象 转化为 json文件 API说明:Serialize as a JSON formatted stream to (a.wri 阅读全文

posted @ 2017-03-13 09:52 会飞的蝸牛 阅读(199) 评论(0) 推荐(0) 编辑

导航