机器学习数据挖掘 - 随笔分类 - python挖掘

Types of Data Science Questions

摘要：数据科学问题的类型有如下6种： 1.Descriptive描述性分析，仅仅描述数据展现了那些内容，无需任何解释 2.Exploratory探索性分析，发现未知的关系（不一定正确或有用） 3.Inferential推断性分析，在少量观察的基础上，将得到的信息进行归纳、外推到更大的群体。 4.Predi 阅读全文

posted @ 2016-08-20 12:09 python挖掘阅读(191) 评论(0) 推荐(0) 编辑

玩转oracle

摘要：小型数据库：access、foxbase 中型数据库：mysql、sql server、informix 大型数据库：sybase、oracle、db2 如何选取适合的数据库：项目的规模：负载量多大、用户多大；成本；安全性 DBA认证（数据库管理员） sys用户是超级用户，具有最高权限，默认密码m 阅读全文

posted @ 2016-08-16 17:52 python挖掘阅读(244) 评论(0) 推荐(0) 编辑

ML_Scaling to Huge Datasets & Online Learning

摘要：随机梯度下降能更快地达到较大的对数似然值，但噪声更大 Explore the effects of step sizes on stochastic gradient ascent(步长对随机梯度上升的影响) 步长太小，收敛速度太慢；步长较大，震荡较大；步长异常大，不收敛阅读全文

posted @ 2016-08-15 11:57 python挖掘阅读(277) 评论(0) 推荐(0) 编辑

ML_Boosting

摘要：阅读全文

posted @ 2016-08-10 15:24 python挖掘阅读(118) 评论(0) 推荐(0) 编辑

ML_Gradient ascent algorithm for learning logistic regression classifier

摘要：参看博文http://www.tuicool.com/articles/2qYjuy 逻辑回归的输出范围是[0,1]，根据概率值来判断因变量属于0还是属于1 实现过程分三步： indicated function指示函数阅读全文

posted @ 2016-07-31 15:55 python挖掘阅读(329) 评论(0) 推荐(0) 编辑

ML_聚类之Nearest neighbor search

摘要：有这么一个问题，说我在看一篇文章，觉得不错，想要从书架的众多书籍中找相类似的文章来继续阅读，这该怎么办？于是我们想到暴力解决法，我一篇一篇的比对，找出相似的最近邻的概念很好理解，我们通过计算知道了每一篇文章和目标文章的距离，选择距离最小的那篇作为最相近的候选文章或者距离最小的一些文章作为候选文章阅读全文

posted @ 2016-07-30 16:49 python挖掘阅读(1422) 评论(0) 推荐(0) 编辑

ML_Clustering & Retrieval（一）

摘要：检索是什么，有什么用？检索是指从文献资料、网络信息等信息集合中查找到自己需要的信息或资料的过程，在信息冗余的时代，高效的检索显得越发重要。比如说我们如何从众多图片中找到和自家小狗相似的小狗的图片如何从众多产品中找到我们想要购买的按摩椅如何从众多电影/歌曲/电视节目中找到我们喜欢的如何从新闻阅读全文

posted @ 2016-07-30 15:51 python挖掘阅读(186) 评论(0) 推荐(0) 编辑

Predicting sentiment from product reviews情感预测

摘要：The goal of this first notebook is to explore logistic regression and feature engineering目标是探索逻辑回归和特征工程 In this notebook you will use product review d 阅读全文

posted @ 2016-07-29 12:19 python挖掘阅读(450) 评论(0) 推荐(0) 编辑

ML_classification_intro

摘要：Welcome! Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Predic 阅读全文

posted @ 2016-07-27 18:53 python挖掘阅读(181) 评论(0) 推荐(0) 编辑

ML_classification

摘要：本课程共有七周的学习安排： week1 Welcome引子 week2 Learning Linear Classifiers线性分类 week3 Decision Trees决策树 week4 Preventing Overfitting in Decision Trees防止过拟合 week5 阅读全文

posted @ 2016-07-27 11:47 python挖掘阅读(221) 评论(0) 推荐(0) 编辑

如何衡量相似性

摘要：在做分类时常常需要估算不同样本之间的相似性，通常采用的方法就是计算样本间的距离。常用的有：欧氏距离：源于欧式空间中两点的距离公式，np.outer（计算内积）曼哈顿距离（城市街区距离）切比雪夫距离：国际象棋闵可夫斯基距离：闵氏距离不是一种距离，而是一组距离的定义两个n维变量a(x11,x 阅读全文

posted @ 2016-07-26 19:22 python挖掘阅读(778) 评论(0) 推荐(0) 编辑

谱聚类

摘要：谱聚类（Spectral Clustering,SC）是一种基于图论的聚类方法，将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量远。能够识别任意形状的样本空间且收敛于全局最优解，基本思想是利用样本数据的相似矩阵（拉普拉斯矩阵）进行特征分解后得到的特征向量进行聚类。对阅读全文

posted @ 2016-07-25 19:28 python挖掘阅读(607) 评论(0) 推荐(0) 编辑

分类算法

摘要：持续学习完善中~ 分类模型的构造方法有：决策树，关联规则，贝叶斯，神经网络，规则学习，k－临近法，遗传算法，粗糙集以及模糊逻辑技术。朴素贝叶斯利用概率统计知识进行分类的算法最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci) 前提是各属性之间互相独立逻辑回归决策树SV 阅读全文

posted @ 2016-07-25 11:49 python挖掘阅读(317) 评论(0) 推荐(0) 编辑

Implementing EM for Gaussian mixtures

摘要：完成任务时遇到的相关知识点： http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.multivariate_normal.html 服从多元正态分布的随机样本参数：均值mean 方差cov http://docs.sc 阅读全文

posted @ 2016-07-24 15:48 python挖掘阅读(209) 评论(0) 推荐(0) 编辑

ML_推荐系统与降维

摘要：Learning Outcomes: By the end of this course, you will be able to: -Create a collaborative filtering system. 构建一个协调过滤系统 -Reduce dimensionality of data 阅读全文

posted @ 2016-07-10 14:55 python挖掘阅读(407) 评论(0) 推荐(0) 编辑

Machine Learning: Clustering & Retrieval机器学习之聚类和信息检索(框架)

摘要：Learning Outcomes: By the end of this course, you will be able to:（通过本章的学习，你将掌握） -Create a document retrieval system using k-nearest neighbors.用K近邻构建文阅读全文

posted @ 2016-07-10 14:32 python挖掘阅读(506) 评论(0) 推荐(0) 编辑

Udacity_机器学习

摘要：有多条线可以降低绝对误差，但只有一条线可以降低平方误差和 Sum of Squared Errors (SSE) 监督学习决策树（ID3算法、信息熵[父节点的信息熵=1]、信息增益）计算信息熵分类和回归准确率的缺陷：对于偏斜类（有很多样本点，但属于该类别的数目特别少）绝不错杀一个宁可天阅读全文

posted @ 2016-07-09 15:31 python挖掘阅读(212) 评论(0) 推荐(0) 编辑

ML_regression

摘要：第一章 After successfully completing this course, you will be able to use regression methods in practice, implement some of the most fundamental algorith 阅读全文

posted @ 2016-07-08 15:47 python挖掘阅读(904) 评论(0) 推荐(0) 编辑

深度强化学习

摘要：鼓捣smartcab项目遇到点坎儿，搜罗资料时发现一篇很好的博文，mark一下~ http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/(好像链接失效了！下次要将关键点摘录出来！) 阅读全文

posted @ 2016-06-19 18:25 python挖掘阅读(982) 评论(0) 推荐(0) 编辑

Reinforcement Learning

摘要：the differences are between the three types of learning（supervised, unsupervised and reinforcement）监督学习、无监督学习和强化学习的区别 supervised learning sort of tak 阅读全文

posted @ 2016-06-17 09:28 python挖掘阅读(863) 评论(0) 推荐(0) 编辑

come_on

随笔分类 - 机器学习数据挖掘

公告

come_on

随笔分类 - 机器学习 数据挖掘

公告

随笔分类 - 机器学习数据挖掘