随笔分类 - 机器学习 数据挖掘
摘要:数据科学问题的类型有如下6种: 1.Descriptive描述性分析,仅仅描述数据展现了那些内容,无需任何解释 2.Exploratory探索性分析,发现未知的关系(不一定正确或有用) 3.Inferential推断性分析,在少量观察的基础上,将得到的信息进行归纳、外推到更大的群体。 4.Predi
阅读全文
摘要:小型数据库:access、foxbase 中型数据库:mysql、sql server、informix 大型数据库:sybase、oracle、db2 如何选取适合的数据库: 项目的规模:负载量多大、用户多大;成本;安全性 DBA认证(数据库管理员) sys用户是超级用户,具有最高权限,默认密码m
阅读全文
摘要:随机梯度下降能更快地达到较大的对数似然值,但噪声更大 Explore the effects of step sizes on stochastic gradient ascent(步长对随机梯度上升的影响) 步长太小,收敛速度太慢;步长较大,震荡较大;步长异常大,不收敛
阅读全文
摘要:参看博文http://www.tuicool.com/articles/2qYjuy 逻辑回归的输出范围是[0,1],根据概率值来判断因变量属于0还是属于1 实现过程分三步: indicated function指示函数
阅读全文
摘要:有这么一个问题,说我在看一篇文章,觉得不错,想要从书架的众多书籍中找相类似的文章来继续阅读,这该怎么办? 于是我们想到暴力解决法,我一篇一篇的比对,找出相似的 最近邻的概念很好理解,我们通过计算知道了每一篇文章和目标文章的距离,选择距离最小的那篇作为最相近的候选文章或者距离最小的一些文章作为候选文章
阅读全文
摘要:检索是什么,有什么用? 检索是指从文献资料、网络信息等信息集合中查找到自己需要的信息或资料的过程,在信息冗余的时代,高效的检索显得越发重要。 比如说我们如何从众多图片中找到和自家小狗相似的小狗的图片 如何从众多产品中找到我们想要购买的按摩椅 如何从众多电影/歌曲/电视节目中找到我们喜欢的 如何从新闻
阅读全文
摘要:The goal of this first notebook is to explore logistic regression and feature engineering目标是探索逻辑回归和特征工程 In this notebook you will use product review d
阅读全文
摘要:Welcome! Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Predic
阅读全文
摘要:本课程共有七周的学习安排: week1 Welcome引子 week2 Learning Linear Classifiers线性分类 week3 Decision Trees决策树 week4 Preventing Overfitting in Decision Trees防止过拟合 week5
阅读全文
摘要:在做分类时常常需要估算不同样本之间的相似性,通常采用的方法就是计算样本间的距离。 常用的有: 欧氏距离:源于欧式空间中两点的距离公式,np.outer(计算内积) 曼哈顿距离(城市街区距离) 切比雪夫距离:国际象棋 闵可夫斯基距离:闵氏距离不是一种距离,而是一组距离的定义 两个n维变量a(x11,x
阅读全文
摘要:谱聚类(Spectral Clustering,SC)是一种基于图论的聚类方法,将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量远。能够识别任意形状的样本空间且收敛于全局最优解,基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。 对
阅读全文
摘要:持续学习完善中~ 分类模型的构造方法有:决策树,关联规则,贝叶斯,神经网络,规则学习,k-临近法,遗传算法,粗糙集以及模糊逻辑技术。 朴素贝叶斯 利用概率统计知识进行分类的算法 最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci) 前提是各属性之间互相独立 逻辑回归 决策树SV
阅读全文
摘要:完成任务时遇到的相关知识点: http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.multivariate_normal.html 服从多元正态分布的随机样本 参数: 均值mean 方差cov http://docs.sc
阅读全文
摘要:Learning Outcomes: By the end of this course, you will be able to: -Create a collaborative filtering system. 构建一个协调过滤系统 -Reduce dimensionality of data
阅读全文
摘要:Learning Outcomes: By the end of this course, you will be able to:(通过本章的学习,你将掌握) -Create a document retrieval system using k-nearest neighbors.用K近邻构建文
阅读全文
摘要:有多条线可以降低绝对误差,但只有一条线可以降低平方误差和 Sum of Squared Errors (SSE) 监督学习 决策树(ID3算法、信息熵[父节点的信息熵=1]、信息增益) 计算信息熵 分类和回归 准确率的缺陷: 对于偏斜类(有很多样本点,但属于该类别的数目特别少) 绝不错杀一个 宁可天
阅读全文
摘要:第一章 After successfully completing this course, you will be able to use regression methods in practice, implement some of the most fundamental algorith
阅读全文
摘要:鼓捣smartcab项目遇到点坎儿,搜罗资料时发现一篇很好的博文,mark一下~ http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/(好像链接失效了!下次要将关键点摘录出来!)
阅读全文
摘要:the differences are between the three types of learning(supervised, unsupervised and reinforcement) 监督学习、无监督学习和强化学习的区别 supervised learning sort of tak
阅读全文