摘要:
IO流用来处理设备间数据传输,java对数据的操作是通过流的方式,而这些操作流的对象被封装在IO包中。流可以分为字符流和字节流。字符流可以设置编码方式,这就使得处理文本更加方便。 IO常用基类字节流抽象基类InputStream,OutputStream。字符流抽象基类Reader,Writer。 ... 阅读全文
摘要:
概率论是机器学习基础,为了更好的理解机器学习中的一些算法,而每个机器学习问题的背后,都有一个求最优解的问题。这里用最浅显的语言描述概率论的基础知识用于求最优解问题的应用。 首先,联合概率p(x,y)表示两个事件同时发生的概率,而条件概率p(x|y)表示在已知事件y发生的情况下,事件x发生的概率。在机... 阅读全文
摘要:
HDFS特点概述
Hadoop整合抽象了众多的文件系统类,HDFS只是其中一种的具体实现。它是基于流数据模式和处理超大文件的需求开发的,主要特点如下:
处理超大文件
这里的超大文件通常是指MB到TB级别的数据文件,在实际应用中已经可达到PB级。
流式地访问数据
HDFS提供一次写入,多次读取的服务。一个数据集一旦提交,会复制分发到不同数据节点上,大多数数据分析任务都会涉及数据集中的大多数数据,请求... 阅读全文
摘要:
集合与数组都是容器,而它们的最大区别在于: 数组可以存储基本数据类型,也可存储对象,而集合只能存储对象(1.5后也可以添加基本数据类型); 数组长度固定,而集合长度是可变的,可以存储不同类型的对象。 由于这样的特点,某些场景下集合比数组更适合存储对象。在内存中,数组和集合中存放的都是对象的地址。JA... 阅读全文