决策树和随机森林
摘要:为了准备实习面试,今天重新看了一下决策树与随机森林,用面试者的口吻总结一下。 决策树可以用于解决分类问题也可以用于解决回归问题,主要思想就是递归的建立一棵树。 与LR和SVM相比,决策树的决策边界是不平滑的。决策树是一种贪婪算法。 决策树的生成过程: 分类问题可以基于信息增益最大准则,每次选择信息增
阅读全文
Python文件读取
摘要:读取文件Advertising.csv,文件内容类似于: 1 ,TV,Radio,Newspaper,Sales 2 1,230.1,37.8,69.2,22.1 3 2,44.5,39.3,45.1,10.4 4 3,17.2,45.9,69.3,9.3 5 4,151.5,41.3,58.5,1
阅读全文
二类分类问题评价指标
摘要:1. 准确率 评价分类问题的性能的指标一般是分类准确率,其定义是对于给定的数据,分类正确的样本数占总样本数的比例。但是这一指标在Unbalanced的数据上表现很差。比如说我的样本有990个正样本,10个负样本,我直接把所有样本都预测为正,我的准确率为99%,居然有这么高得准确率,但我的分类方法实际
阅读全文
Logistic 回归
摘要:Logistic回归是目前最常用的一种分类算法。之前讨论了线性回归 http://www.cnblogs.com/futurehau/p/6105011.html,采用线性回归是不能解决或者说不能很好解决分类问题的,很直观的一个解释如下图所示,这里介绍Logistic回归。 一、Logistic 回
阅读全文
机器学习算法推导过程中的数学基础知识
摘要:1、向量、矩阵求导 当然了,这里补充一下求解过程中的关于向量、矩阵求导的几个公式: 这里其实只需要明白第一个,后边的三个都可以由第一个简单的推导而来。 注意这里对列向量AX的每一项的求导写为行,不然就会得到一个超越矩阵,我们不采用这种方式。
阅读全文
线性回归
摘要:一、回归问题的定义 回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。 回归问题分为模型的学习和预测两个过程。基于给定的训练数据集构建一个模
阅读全文
题目要求比较类似的题目
摘要:接水问题 Container With Most Water Given n non-negative integers a1, a2, ..., an, where each represents a point at coordinate (i, ai). n vertical lines ar
阅读全文
拉格朗日乘子法
摘要:拉格朗日乘子法最小值转化为对偶函数最大值问题在SVM部分有很重要的作用,今天详细听了邹博老师凸优化课程关于这部分的讲解,做一个小小的总结。 一、知识铺垫 1. 保凸算子 凸函数的非负加权和 : 凸函数与仿射函数的复合: 凸函数的逐点最大值、逐点上确界: 第一个和第二个直接使用定义还是挺简单的,因为后
阅读全文
Recommender System
摘要:推荐系统我们都很熟悉,淘宝推荐用户可能感兴趣的产品,搜索引擎帮助用户发现可能感兴趣的东西,这些都是推荐系统的内容。接下来讲述一个电影推荐的项目。 一、电影推荐系统中的算法 User Collaborative Filtering (User CF) Item Collaborative Filter
阅读全文
PageRank
摘要:另一篇介绍的很好的博客:http://blog.jobbole.com/71431/ 一、什么是PageRank PageRank 是对搜索引擎的搜索网页进行排序的算法。 过去的排序算法是比如使用网页名字,关键词出现的次数,人工等方法,但是这种方法一方面搜索结果不准确,另一方面搜索结果容易被人为因素
阅读全文
Map-Reduce基础
摘要:1.设置文件读入分隔符 默认按行读入; 按句子读入 : conf1.set("textinputformat.record.delimiter", "."); 2.set up 方法 此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。 若是将资源初
阅读全文
Docker Hadoop LAMP安装配置教程
摘要:以下教程来自九章算法。 1.How to install Docker https://bupt.quip.com/YehSAR4qnGqB 2.How to set up hadoop environment https://bupt.quip.com/85VvAGqcb0Lg 3.Setup L
阅读全文
HDFS Architecture
摘要:Two kind of database architectures: Master slave model High consistency Simpler design Single master node is not robust Peer peer model Distributes re
阅读全文
Goole Search Auto Complete
摘要:这个项目就九章算法大数据课程的一个项目。主要分为两步: 第一步是 offline 建立 数据库 我们用两个map reduce 的data pipline 来实现。 第二步是 online显示把数据里面数据读出来显示。 如果实际运用中 第一步 mapreduce 一般数据一天之内更新不会太多 所以m
阅读全文
TopK-微博今日热门话题
摘要:大纲 TopK on single node TopK on multiple nodes Realtime topK with low QPS Realtime topK with high QPS Approx TopK MapReduce 一、TopK on single node 从几个关于
阅读全文
Hadoop开发环境搭建
摘要:1 设置ssh免密码登陆 由于每次启动服务都要输入密码,为了避免以后麻烦,这里首先设置ssh免密码登陆 首先关闭防火墙 setup调出防火墙配置工具,enter进入filewall configuration 按空格关闭。出来service iptables status,如果显示service i
阅读全文