飞鸟各投林

导航

上一页 1 2 3 4 5 6 7 8 ··· 15 下一页

2017年4月1日 #

hash 冲突及解决办法。

摘要: hash 冲突及解决办法。 关键字值不同的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法: 1)开放定址法:当冲突发生时,使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找,直到找到给定 的关键字,或者碰到一个开放的地址(即该地址单元为空)为止(若要插 阅读全文

posted @ 2017-04-01 00:21 飞鸟各投林 阅读(307) 评论(0) 推荐(0) 编辑

海量数据处理面试题

摘要: 密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 既然是海量数据处理,那么可想而知,给我们的数据那就一定是海量的。针对这个数据的海量,我们如何着手呢?对的,无非就是分而治之/hash映射 + hash统计 + 阅读全文

posted @ 2017-04-01 00:20 飞鸟各投林 阅读(275) 评论(0) 推荐(0) 编辑

机器学习中梯度下降法和牛顿法的比较

摘要: 在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。 梯度下降法 梯度下降法用来求解目标 阅读全文

posted @ 2017-04-01 00:11 飞鸟各投林 阅读(969) 评论(0) 推荐(0) 编辑

one hot coding -机器学习

摘要: 机器学习 数据预处理之独热编码(One-Hot Encoding) 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses 阅读全文

posted @ 2017-04-01 00:09 飞鸟各投林 阅读(266) 评论(0) 推荐(0) 编辑

分类中数据不平衡问题的解决经验

摘要: 问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题 阅读全文

posted @ 2017-04-01 00:07 飞鸟各投林 阅读(492) 评论(0) 推荐(0) 编辑

数据归一化和两种常用的归一化方法

摘要: 数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一 阅读全文

posted @ 2017-04-01 00:06 飞鸟各投林 阅读(311) 评论(0) 推荐(0) 编辑

2017年3月31日 #

c++中字符串反转的3种方法

摘要: 第一种:使用algorithm中的reverse函数 第二种:自己编写 第三种:使用string.h中的strrev函数 阅读全文

posted @ 2017-03-31 23:59 飞鸟各投林 阅读(14935) 评论(0) 推荐(1) 编辑

机器学习面试问题9

摘要: 图模型 图模型是一类用图来表示概率分布的一类技术的总称。 它的主要优点是把概率分布中的条件独立用图的形式表达出来,从而可以把一个概率分布(特定的,和应用相关的)表示为很多因子的乘积,从而简化在边缘化一个概率分布的计算,这里的边缘化指的是给定n个变量的概率分布,求取其中m个变量的概率分布的计算(m小于 阅读全文

posted @ 2017-03-31 23:49 飞鸟各投林 阅读(232) 评论(0) 推荐(0) 编辑

机器学习面试问题10

摘要: 线性分类器与非线性分类器的区别及优势 线性分类器:模型是参数的线性函数,分类平面是(超)平面; 非线性分类器:模型分界面可以是曲面或者超平面的组合。 典型的线性分类器有感知机,LDA,逻辑斯特回归,SVM(线性核); 典型的非线性分类器有朴素贝叶斯(有文章说这个本质是线性的,http://datau 阅读全文

posted @ 2017-03-31 23:49 飞鸟各投林 阅读(292) 评论(0) 推荐(0) 编辑

机器学习面试问题7

摘要: 为什么要用逻辑回归 逻辑回归主要解决线性可分问题,模型简单,易于理解和实现,很适合用来学习大数据的问题。另外,逻辑回归做在线学习比较容易,处理速度也快。 SVM和LR的区别: 两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge 阅读全文

posted @ 2017-03-31 23:48 飞鸟各投林 阅读(315) 评论(0) 推荐(0) 编辑

机器学习面试问题6

摘要: 以下内容接机器学习面试问题5. 神经网络参数相关 参数的范围 目前还没有明确的参数范围,只有个人总结性的原则。如下: 网络参数确定原则: ①、网络节点 网络输入层神经元节点数就是系统的特征因子(自变量)个数,输出层神经元节点数就是系统目标个数。隐层节点选按经验选取,一般设为输入层节点数的75%。如果 阅读全文

posted @ 2017-03-31 23:47 飞鸟各投林 阅读(371) 评论(0) 推荐(0) 编辑

机器学习面试问题4

摘要: 以下内容接机器学习面试问题3。内容比较粗略,细化会在后期完成,敬请期待。 神经网络 神经网络算法涉及的知识点内容较多,需要深入专研,可参考: http://max.book118.com/html/2016/0303/36785438.shtm BP网络的四个学习过程:(δ规则) 1)模式顺传播 , 阅读全文

posted @ 2017-03-31 23:46 飞鸟各投林 阅读(253) 评论(0) 推荐(0) 编辑

机器学习面试问题5

摘要: 常见问题 和svm相关的 如何组织训练数据 1)将数据分开为训练集、测试集; 2)对训练集寻优,构建好决策函数,训练分类器; 3)用测试集验证准确率,达到满足需要的准确率后,就可以用新数据分类。 如何调节惩罚因子 惩罚因子(参数C):为了使用松弛变量才引入的,表示对离群点的重视程度。C越大越重视,越 阅读全文

posted @ 2017-03-31 23:46 飞鸟各投林 阅读(348) 评论(0) 推荐(0) 编辑

机器学习面试问题3

摘要: 以下内容承接机器学习相关面试2。 Apriori Apriori算法是一种关联规则的基本算法,是挖掘关联规则的频繁项集算法,也称“购物篮分析”算法,是“啤酒与尿布”案例的代表。 算法步骤: 1)依据支持度找出所有频繁项集。 Apriori算法是发现频繁项集的一种方法。Apriori算法的两个输入参数 阅读全文

posted @ 2017-03-31 23:45 飞鸟各投林 阅读(375) 评论(0) 推荐(0) 编辑

机器学习面试问题1

摘要: 本机器学习面试问题系列博客共有10章,从1到10分别总结了机器学习面试的经典常用问题,也是阿里面试常用考题,系小编呕心沥血之作,希望大家能够在参考之余和小编积极交流,欢迎评论,欢迎来踩!希望能对和小编一样的机器学习爱好者提供实质性帮助。 基本知识 监督与非监督的区别 监督:输入的数据有明确的标识,可 阅读全文

posted @ 2017-03-31 23:44 飞鸟各投林 阅读(322) 评论(0) 推荐(0) 编辑

机器学习面试问题2

摘要: 算法原理 LR logistic(逻辑回归)是一种广义线性回归分析模型,是一种分类算法。 通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。L是logistic函数. 该模型是典型的数学模型,它服从逻辑斯蒂分布。 二项逻辑斯蒂回归模型是如下的条 阅读全文

posted @ 2017-03-31 23:44 飞鸟各投林 阅读(214) 评论(0) 推荐(0) 编辑

推荐算法

摘要: 目前,主要的推荐方法包括:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于效用的推荐、基于知识的推荐和组合推荐。 基于内容的推荐 基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的 阅读全文

posted @ 2017-03-31 23:43 飞鸟各投林 阅读(994) 评论(1) 推荐(0) 编辑

机器学习面试问题8

摘要: userCF和itemCF在实际当中如何使用,提供具体操作,以及它们的优势(推荐系统) 基于用户的协同过滤算法UserCF 基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户间的相似性做出推荐。 简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品。 基于UserCF的 阅读全文

posted @ 2017-03-31 23:40 飞鸟各投林 阅读(765) 评论(0) 推荐(0) 编辑

决策树与随机森林算法

摘要: 决策树 决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。 一个简单的决策树分类模型:红色框出的是特征。 决策树模型学习过程通常包3个步骤:特征选择、 阅读全文

posted @ 2017-03-31 23:34 飞鸟各投林 阅读(2467) 评论(0) 推荐(0) 编辑

机器学习面试问题汇总

摘要: 伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推荐算法,聚类算法,等等机器学习领域的算法 基本知识: 1)监督与非监督区别; 是 阅读全文

posted @ 2017-03-31 23:31 飞鸟各投林 阅读(9426) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 15 下一页