摘要:
这四种都是非常流行的集成学习(Ensemble Learning)方式,在本文简单总结一下它们的原理和使用方法. Random Forest(随机森林): 随机森林属于Bagging,也就是有放回抽样,多数表决或简单平均.Bagging之间的基学习器是并列生成的.RF就是以决策树为基学习器的Bagg 阅读全文
摘要:
Hadoop基础及演练 第1章 初识大数据 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. 第2章 Hadoop核心HDFS Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案,Hadoop=HDFS(分布式文件系统)+MapReduce 阅读全文
摘要:
第一章 使用神经网络识别手写数字 1.1 感知器 感知器是一种人工神经元.它接受几个二进制输出并产生一个二进制输入.如果引入权重和阈值,那么感知器的参数可以表示为:,如果再引入偏置(表示激活感知器有多容易的估算),那么规则可以简洁表示为: 感知器是单输出的,但这个单输出可以被用于多个其它感知器的输入 阅读全文
摘要:
使用Keras中文文档学习 基本概念 Keras的核心数据结构是模型,也就是一种组织网络层的方式,最主要的是序贯模型(Sequential).创建好一个模型后就可以用add()向里面添加层.模型搭建完毕后需要使用complie()来编译模型,之后就可以开始训练和预测了(类似于sklearn). Se 阅读全文
摘要:
书中涉及到一些机器学习相关的内容,在统计学习方法读书笔记和西瓜书读书笔记中有所记录,所以只简单带过. 本书源代码下载地址 书中使用的python技巧 字典的setdefault(key,value)方法,作用是如果键不在字典中,则添加键与默认值 Feed Parser是一个解析RSS订阅源的库 pr 阅读全文
摘要:
大一下的时候学过数据结构,但是面试的时候发现一些基础知识都忘的差不多了,所以打算借这本书重新学习一下算法与数据结构.使用的语言是JAVA.IDE是Eclipse,相关设置请看以下两篇文章: 配置算法(第4版)的Java编译环境 Eclipse直接运行算法第4版例子(重定向和读取指定路径文件) 注意数 阅读全文
摘要:
投了近20家大厂,由于才大二,简历内容也不算丰富,所以大多数在简历关就挂了.得到笔试机会的有网易,今日头条,百词斩. 百词斩(一面挂) 一面: 总共持续了半小时左右,面试官比较和蔼.由于恰好感冒所以问题回答的都不大好. 今日头条(二面挂) 一面: 二面: 总结 不同公司侧重点很不一样,比如百词斩问了 阅读全文
摘要:
因为要准备面试,本文以李航的《统计学习方法》为主,结合西瓜书等其他资料对机器学习知识做一个整理. 知识点 进程和线程:进程和线程都是一个时间段的描述,是CPU工作时间段的描述,不过是颗粒大小不同.进程就是包换上下文切换的程序执行时间总和 = CPU加载上下文+CPU执行+CPU保存上下文.线程是共享 阅读全文
摘要:
由于之前对算法题接触不多,因此暂时只做easy和medium难度的题. 看完了《算法(第四版)》后重新开始刷LeetCode了,这次决定按topic来刷题,有一个大致的方向.有些题不止包含在一个topic中,就以我自己做的先后顺序为准了. Array 11.Container With Most W 阅读全文
摘要:
大部分基础概念知识已经在Machine Learning|Andrew Ng|Coursera 吴恩达机器学习笔记这篇博客中罗列,因此本文仅对感觉重要或不曾了解的知识点做摘记 第1章 绪论 对于一个学习算法a,若它在某问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.即"没有免费的午餐"定 阅读全文