摘要:
小Q系列故事——屌丝的逆袭Time Limit : 300/100ms (Java/Other)Memory Limit : 65535/32768K (Java/Other)Problem Description 毕业于普通本科的小Q一直自称是资深屌丝,不仅学校不知名,甚至他自己在这个普通学校也是默默无闻——直到临近毕业的时候,班里5朵金花中的2位甚至从没和他说过话! 谁又能想到,如此不起眼的小Q在历经重重面试环节后,竟然如愿以偿加入了心仪已久的腾讯公司!消息刚刚传开的那几天,这在他们班甚至整个学院都是讨论的热门话题,如果这时候你还表示不知道小Q是谁,你都会被大家当作怪物的。 正所谓... 阅读全文
摘要:
【团队介绍】: 教育属于字节的战略级业务,公司不惜成本和耐心大力投入在线教育,我们属于字节教育prek研发团队,团队运用技术,推动互联网和教育行业深度融合。我们生产优质教育资源,增加教育资源有效供给。我们参与教育信息化建设,满足用户多样化、个性化的教育需求,并积极投身“互联网+教育”的建设与发展。 阅读全文
摘要:
一:回归模型介绍从理论上讲,回归模型即用已知的数据变量来预测另外一个数据变量,已知的数据属性称为输入或者已有特征,想要预测的数据称为输出或者目标变量。下图是一个例子: 图中是某地区的面积大小与房价的关系图,输入变量X是面积,输出变量Y是房价,把已有的数据集(x,y)作为一个训练数据,拟合出线性回归... 阅读全文
摘要:
本课程是由斯坦福机器学习大牛Andrew Ng主讲的,对我这样的菜鸟很有用,可以作为机器学习入门的一门课程。 课程网址:https://www.coursera.org/course/ml 课程完全免费,每年会开几次课,只要注册成为coursera用户,找到machine learning课程就可以跟着课程节奏学习,跟在学校学习一样一样的,每节课有对应的作业和编程实验,需... 阅读全文
摘要:
同样是同学发过来的题目,做了下,代码如下 描述: 计算麻将的番数 麻将游戏越来越受到大家喜爱,也在网络上盛行。本题目是给定一组已经和牌的麻将,编写一个函数计算这组麻将的番数。为简化题目,假设麻将只有筒子和条子两种花型,能翻番的规则也只有以下三种,当一组牌中没有下述三种情况中的一种或多种,则这组牌为0番,每种番数是加的关系,例如一组牌既有卡2条又有四归一,则番数为3番。 1.卡2... 阅读全文
摘要:
同学发过来个文件,让我帮他做几个题目的,就做了下,贴在这里 题目: 描述: 输入一串数字,找到其中包含的最大递增数。递增数是指相邻的数位从小到大排列的数字。如: 2895345323,递增数有:289,345,23, 那么最大的递减数为345。 输入: 输入一串数字,默认这串数字是正确的,即里面不含有字符/空格等情况 输出: 输出最大递增数 样例输入: ... 阅读全文
摘要:
摘要:最近在学习机器学习/数据挖掘的算法,在看一些paper的时候经常会遇到以前学过的数学公式或者名词,又是总是想不起来,所以在此记录下自己的数学复习过程,方便后面查阅。 1:数学期望 数学期望是随机变量的重要特征之一,随机变量X的数学期望记为E(X),E(X)是X的算术平均的近似值,数学期望表示了X的平均值大小。 当X为离散型随机变量时,并且其分布律为 P(X=xk) = pk ,其中k=1,2,…,n;则数学期望(要求绝对收敛). 当X为连续型随机变量时,设其概率密度为f(x),则数学期望为(要求绝对收敛). 2: 方差 数学期望给出了随机变量的平均大小... 阅读全文
摘要:
摘要:旁听了清华大学王建勇老师的 数据挖掘:理论与算法 的课,讲的还是挺细的,好记性不如烂笔头,在此记录自己的学习内容,方便以后复习。 一:贝叶斯分类器简介 1)贝叶斯分类器是一种基于统计的分类器,它根据给定样本属于某一个具体类的概率来对其进行分类。 2)贝叶斯分类器的理论基础是贝叶斯理论。 3)贝叶斯分类器的一种简单形式是朴素贝叶斯分类器,跟随机森林、神经网络等分类器都有可比的性能。 4)贝叶斯分类器是一种增量型的分类器。 二:贝叶斯理论 第一次接触贝叶斯还是本科学概率论的时候,那时候也就只知道做题目,没想到现在还能够在工作和学习中用到它,先复习下相关的基础概率公式... 阅读全文
摘要:
摘要:在随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪音,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征。 一:特征重要性 在随机森林中某个特征X的重要性的计算方法如下: 1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1. 2: 随机地对袋外数据OOB所有样本的特征X加入噪声... 阅读全文
摘要:
摘要:在随机森林之Bagging法中可以发现Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,那是不是意味着就没有用了呢,答案是否定的。我们把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法. 在论文: 1:Bias,variance and prediction error for classification rules. 2: An Efficient Method To Estimate Baggin’s Generalization Error. 3:Bagging P... 阅读全文
摘要:
摘要:在随机森林介绍中提到了Bagging方法,这里就具体的学习下bagging方法。 Bagging方法是一个统计重采样的技术,它的基础是Bootstrap。基本思想是:利用Bootstrap方法重采样来生成多个版本的预测分类器,然后把这些分类器进行组合。通常情况下组合的分类器给出的结果比单一分类器的好,因为综合了各个分类器的特点。之所以用可重复的随机采样技术Bootstrap,是因为进行重复的随机采样所获得的样本可以得到没有或者含有较少的噪声数据。 在训练集上采样Bootstrap的方法进行采样,平均1/3的样本不会出现在采样的样本集合中,这就意味着训练集中的噪声点可能不会出现在Boo.. 阅读全文