09 2017 档案
摘要:不多说,直接上干货! 福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 说
阅读全文
摘要:不多说,直接上干货! 福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 问
阅读全文
摘要:不多说,直接上干货! 结构化数据类型包括预定义的数据类型、 格式和结构的数据, 常见的比如关系型数据库中数据表里的数据 。 半结构化数据,具有可识别的模式并可以解析的文本数据文件, 比如XML数据文件 。 准结构化数据,具有不规则数据格式的文本数据, 使用工具可以使之格式化, 比如说包含不一样数据值
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/jianglushou9763/article/details/73332805 如果需要 APACHE BEAM2.0.0版本如何支持SPARK2.0.2 则 http://blog.csdn.net/lvyanwenwen/arti
阅读全文
摘要:不多说,直接上干货! Docker的基本概念 1、Registry Registry是一个服务,它负责管理一个或多个Repository(仓库),而Repository还包含公共仓库(Public Repository)和私有仓库(Private Repository)。默认的Registry是Do
阅读全文
摘要:不多说,直接上干货! Docker的基本构架 Docker基于Client-Server架构,Docker daemon是服务端,Docker client是客户端。 Docker的基本架构,如下图所示: 上图中,除了展现了Docker的Client、Server、Containers、Images
阅读全文
摘要:不多说,直接上 干货! Docker是什么? 见【博主】撰写的 https://mp.weixin.qq.com/s/iWAzj7baD93hexsVJ7pBfQ Docker是一个开源的应用容器引擎,开发人员可以非常容易地打包已经开发好的应用,同时将应用相关的依赖包也打包到这样一个可移植的容器中,
阅读全文
摘要:不多说,直接上干货! Redis是一个NoSQL数据库,在数据需要频繁更新,并且数据的访问热点范围比较广的应用场景下,Redis的效率很不错。 下面介绍Redis的安装过程,如下面的步骤所示。 第一步:下载安装 wget http://redis.googlecode.com/files/redis
阅读全文
摘要:不多说,直接上干货! 来自官网的: The WordCount examples demonstrate how to set up a processing pipeline that can read text, tokenize the text lines into individual w
阅读全文
摘要:不多说,直接上干货! 之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大数据入门基础系列之初步认识大数据生态系统圈 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下
阅读全文
摘要:不多说,直接上干货! Beam编程系列之Java SDK Quickstart(官网的推荐步骤)
阅读全文
摘要:不多说,直接上干货! Apache Beam Java SDK Quickstart This Quickstart will walk you through executing your first Beam pipeline to run WordCount, written using Be
阅读全文
摘要:不多说,直接上干货! 在 Beam 管道上运行引擎会根据你选择的分布式处理引擎,其中兼容的 API 转换你的 Beam 程序应用,让你的 Beam 应用程序可以有效的运行在指定的分布式处理引擎上。因而,当运行 Beam 程序的时候,你可以按照自己的需求选择一种分布式处理引擎。当前 Beam 支持的管
阅读全文
摘要:不多说,直接上干货! Beam SDK 提供了一个统一的编程模型,来处理任意规模的数据集,其中包括有限的数据集和无限的流数据。Apache Beam SDK 使用相同的类来表达有限和无限的数据,同样使用相同的转换方法对数据进行操作。Beam 提供了多种 SDK,你可以选择一种你熟悉的来建立数据处理管
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/jianglushou9763/article/details/70859616
阅读全文
摘要:不多说,直接上干货! Apache Beam的API设计 Apache Beam还在开发之中,后续对应的API设计可能会有所变化,不过从当前版本来看,基于对数据处理领域对象的抽象,API的设计风格大量使用泛型来定义,具有很高的抽象级别。下面我们分别对感兴趣的的设计来详细说明。 Source Sour
阅读全文
摘要:不多说,直接上干货! Apache Beam的基本概念 在使用Apache Beam构建数据处理程序,首先需要使用Beam SDK中的类创建一个Driver程序,在Driver程序中创建一个满足我们数据处理需求的Pipeline,Pipeline中包括输入(Inputs)、转换(Transforma
阅读全文
摘要:不多说,直接上干货! Apache Beam的目标 统一(UNIFIED) 基于单一的编程模型,能够实现批处理(Batch processing)、流处理(Streaming Processing),通常的做法是把待处理的数据集(Dataset)统一,一般会把有界(Bound)数据集作为无界(Unb
阅读全文
摘要:不多说,直接上干货! Apache Beam是一个开源的数据处理编程库,由Google贡献给Apache的项目,前不久刚刚成为Apache TLP项目。它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeline的方式实现批量、流数据处理,并且构建好的Pipeline能够运行在底层不同的执行
阅读全文
摘要:不多说,直接上干货! Apache Beam中的函数式编程理念 Apache Beam的编程范式借鉴了函数式编程的概念,从工程和实现角度向命令式妥协。 编程的领域里有三大流派:函数式、命令式、逻辑式。 此处的函数不是编程语言中的函数,而是数学中的函数。现代计算的理论模型是图灵机,冯诺依曼体系是图灵机
阅读全文
摘要:不多说,直接上干货! Pipeline 数据处理流水线 Pipeline将Source PCollection ParDo、Sink组织在一起形成了一个完整的数据处理的过程。 Beam概念学习系列之PCollection数据集 Beam概念学习系列之PTransform数据处理
阅读全文
摘要:不多说,直接上干货! PTransform数据处理 PTransform对PCollection进行并行处理,每次处理1条,例如Filter过滤、Groupby分组、Combine统计、Join关联等等,还允许根据业务逻辑编写ParDo。Apache Beam借鉴了函数式编程的不可变性,PTrans
阅读全文
摘要:不多说,直接上干货! PCollection数据集 PCollection是Apache Beam中数据的不可变集合,可以是有限的数据集合也可以是无限的数据集合。 有限数据集,这种一般对应的是批处理,无限数据集数据持续不断的产生,只要系统不停止数据就持续产生下去,无法知道数据在什么时候结束,对应的是
阅读全文
摘要:不多说,直接上干货! Beam内置的Java数据源清单: Beam内置的Python数据源清单:
阅读全文
摘要:不多说,直接上干货! Apache Beam抽象模型 计算机最简单的抽象模型是输入+计算+输出。对于数据处理类的应用来说,将计算的部分展开,变成了 数据输入 + 数据集 + 数据处理 + 数据输出 = 数据处理流程。 图1 数据处理流程 在Apache Beam中对应如下: IO Source/Si
阅读全文
摘要:不多说,直接上干货! Apache Beam 有两大特点: 1、统一了数据批处理(batch)和流处理(stream)编程范式; 2、能在任何执行引擎上运行。 它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。
阅读全文
摘要:不多说,直接上干货! 以下是Apache Beam的官网 : Apache Beam的前世今生 Apache Beam前身是Google Dataflow SDK,DataFlow是谷歌的提供大数据计算平台。在DataFlow之前,谷歌的批处理和流处理(流计算,实时处理)使用了不同系统,流处理有Mi
阅读全文
摘要:不多说,直接上干货! Kudu1.1.0 新特性 优化和改进 工具 兼容性 参考 https://github.com/cloudera/kudu/blob/master/docs/prior_release_notes.adoc 个人github https://github.com/qiulp/
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51438109
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/51416829
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lookqlp/article/details/70858466
阅读全文
摘要:不多说,直接上干货! http://blog.csdn.net/lovebyz/article/details/77372907
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! Kudu安装前的建议说明(博主推荐) 这是安装Kudu的另一种方法 Kudu安装(官网推荐的步骤)(installing Kudu using parcels or packages) Build From Source If installing Kudu using par
阅读全文
摘要:不多说,直接上干货! Kudu安装前的建议说明(博主推荐) Kudu官网推荐的步骤: 本篇博文是installing Kudu using parcels or packages的方式。 规划 kudumaster kudu-tserver master 是 是 slave1 否 是 slave2
阅读全文
摘要:不多说,直接上干货! 能点击进来看我写的这篇博文的朋友,肯定是刚入门的你。 其实以下是我从官网翻译过来的。 硬件: 一台或者多台机器跑kudu-master。建议跑一个master(无容错机制)、三个master(允许一个节点运行出错)或者五个master(允许两个节点出错)。 一台或者多台机器跑k
阅读全文
摘要:不多说,直接上干货! Columnar Data Store(列式数据存储) Kudu 是一个 columnar data store(列式数据存储)。列式数据存储在强类型列中。由于几个原因,通过适当的设计,Kudu 对 analytical(分析)或 warehousing(数据仓库)工作会非常出
阅读全文
摘要:不多说,直接上干货! Kudu-Impala 集成特性 CREATE / ALTER / DROP TABLE Impala 支持使用 Kudu 作为持久层来 creating(创建),altering(修改)和 dropping(删除)表。这些表遵循与 Impala 中其他表格相同的 Intern
阅读全文
摘要:不多说,直接上干货! Kudu 常见的几个应用场景 实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。 时间序列相关的应用,需要同时支持: 根据海量历史数据查询。 必须非常快地返回关于单个实体的细粒度查询。 实时预测模型的应用,支持根据所有历史数据周期地更新模型。 有关这些和其他方案的更多
阅读全文
摘要:不多说,直接上干货! Kudu目前具有以下优点 OLAP 工作的快速处理; 与 MapReduce,Spark 和其他 Hadoop 生态系统组件集成; 与 Apache Impala(incubating)紧密集成,使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代
阅读全文
摘要:不多说,直接上干货! Kudu的性能测试 1. kudu和parquet的比较 上图是官方给出的用Impala跑TPC-H的测试,对比Parquet和Kudu的计算速度。从图中我们可以发现,Kudu的速度和parquet的速度差距不大,甚至有些Query比parquet还快。然而,由于这些数据都是在
阅读全文
摘要:不多说,直接上干货! Kudu的架构 1、kudu的 基本框架 Kudu 是用于存储结构化( structured )的表( Table )。表有预定义的带类型的列( Columns ),每张表有一个主键( primary key )。主键带有唯一性( uniqueness )限制,可作为索引用来支
阅读全文
摘要:不多说,直接上干货! Kudu和HBase定位的区别 Kudu 的定位是提供 “ast analytics on fast data” ,也就是在快速更新的数据上进行快速的查询。它定位 OLAP 和少量的 OLTP 工作流。 如果有大量的 random accesses ,官方建议还是使用 HBas
阅读全文
摘要:不多说,直接上干货! 那既然有了HBase,为什么还需要Kudu呢? 简单的说,就是嫌弃HBase在OLAP(联机分析处理)场合,SQL/MR类的批量检索场景中,性能不够好。通常这种海量数据OLAP场景,要不走预处理的路,比如像EBAY麒麟这样走Cube管理的,或者像谷歌Mesa这样按业务需求走预定
阅读全文
摘要:不多说,直接上干货! Cloudera Kudu是什么? kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统
阅读全文
摘要:不多说,直接上干货! DateDistance.java 当然,我们可以进一步,将其放到一个时间的工具类去。 java编程如何实现多条2017-08-08 22:10:00.0这样的时间数据,相差多少天?(隔24小时为相差1天,否则为0天) java编程如何实现多条2017-01-16 22:28:
阅读全文
摘要:不多说,直接上干货! 在前面的博文里,我已经介绍了 大数据入门基础系列之Linux操作系统简介与选择 大数据入门基础系列之虚拟机的下载、安装详解 大数据入门基础系列之Linux的安装详解 大数据入门基础系列之远程连接工具下载和安装详解 大数据入门基础系列之Apache版本的hadoop集群详细部署搭
阅读全文
摘要:不多说,直接上干货! 获取文件名称、获取文件路径、获取文件大小、获取文件修改时间 FileMethodDemo.java 创建与删除 FileMethodDemo.java 判断 FileMethodDemo.java 重命名 FileMethodDemo.java 系统根目录 FileMethod
阅读全文
摘要:不多说,直接上干货! CopyTextByBufTest.java
阅读全文
摘要:不多说,直接上干货! 把提高效率的动作,封装成一个对象。即把缓冲区封装成一个对象。 就是在一个类里封装一个数组,能对流锁操作数据进行缓存。 什么是字符流缓冲区? 善于使用字符流缓冲区,减轻负担,提高下效率。 其实啊,无非是将源中数据,存储到自定义数组里,进行缓存。并对数组操作,从而提高效率。 即Bu
阅读全文
摘要:不多说,直接上干货! CopyTextTest.java 还可以这样来写。 CopyTextTest.java
阅读全文
摘要:不多说,直接上干货! IO流用来处理设备之间的数据传输。 java对数据的操作是通过流的方式。 java用于操作流的对象都在IO包中。 IO流按操作数据分为两种:字节流和字符流。 IO流按流向分为:输入流、输出流。 输入流和输出流 输入流做什么事: 将硬盘中的数据读出来,放到内存里去运算。 输出流做
阅读全文
摘要:不多说,直接上干货! 代码需求 由 变成 CollectionsDemo.java
阅读全文
摘要:不多说,直接上干货! 代码需求 想从 变成 CollectionsDemo.java ComparatorByLength.java
阅读全文
摘要:不多说,直接上干货! 代码需求 如有这么一个字符串 MapTest.java
阅读全文
摘要:不多说,直接上干货! 什么是匿名对象? 答: 没有名字的实体,也就是该实体没有对应的变量名引用。 没有名字的实体,没有引用类型变量指向的对象称作为匿名对象。 正常的,是 Car car = new Car(); 匿名对象的,是 new Car(); 匿名对象的简单演示 匿名对象的内存结构图 1:ne
阅读全文
摘要:不多说,直接上干货! 先来看个泛型概念提出的背景的例子。 GenericDemo.java 输出 以上是运行时期出现问题了。 定义了一个List类型的集合,先向其中加入了两个字符串类型的值,随后加入一个Integer类型的值。这是完全允许的,因为此时list默认的类型为Object类型。在之后的循环
阅读全文
摘要:不多说,直接上干货! 什么是进程? 正在进行中的程序(直译)。 什么是线程? 就是进程中一个负责程序执行的控制单元(执行路径)。 见 牛客网Java刷题知识点之进程和线程的区别 什么是多线程? 一个进程中可以多执行路径,称之为多线程。 一个进程中至少要有一个线程。 开启多个线程是为了同时运行多部分代
阅读全文
摘要:不多说,直接上干货! 什么是单例设计模式? 解决的问题:可以保证一个类在内存中的对象唯一性,必须对于多个程序使用同一个配置信息对象时,就需要保证该对象的唯一性。 如何保证? 1、不允许其他程序用new创建该类的对象 2、在该类中创建一个本类的实例 3、对外提供一个方法让其他程序可以获取该对象 步骤(
阅读全文
摘要:不多说,直接上干货! 代码块包括局部代码快、构造代码块、静态代码块。 代码块,就是一段独立的代码空间。 1、局部代码快 对局部变量的生命周期进行控制。 2、构造代码块 对所有对象进行初始化。 3、静态代码块 对类进行初始化。 1、什么是局部代码快 是在函数中的代码块。 如 2、什么是构造代码块 构造
阅读全文
摘要:不多说,直接上干货! 父类中的私有内容,子类是否具备? 答:不具备 子类不可直接,但可间接访问父类中的私有内容 这样情况,开发中不所见,但是,面试的时候,必考非常常见。
阅读全文
摘要:不多说,直接上干货! 通过 牛客网Java刷题知识点之构造函数是什么、一般函数和构造函数什么区别呢、构造函数的重载、构造函数的内存图解 我们对构造函数有了一个比较清楚的认识,当我们在创建对象时,我们会调用构造函数。那么我们在定义和调用构造函数时,需要注意哪些细节呢? 牛客网Java刷题知识点之构造函
阅读全文
摘要:不多说,直接上干货! 通过 牛客网Java刷题知识点之构造函数是什么、一般函数和构造函数什么区别呢、构造函数的重载、构造函数的内存图解 我们对构造函数有了一个比较清楚的认识,当我们在创建对象时,我们会调用构造函数。那么我们在定义和调用构造函数时,需要注意哪些细节呢? 需要注意的细节:构造函数与set
阅读全文
摘要:不多说,直接上干货! 构造函数是什么? 构建创造对象时调用的函数。 构造函数是一种特殊的函数,用来在对象实例化时初始化对象的成员变量。 注意: 创建对象都必须要通过构造函数初始化。 构造函数的特点 1)构造函数必须与类的名字相同,并且不能有返回值(返回值也不能为void)。 2)每个类可以有多个构造
阅读全文
摘要:不多说,直接上干货! 一、对于基本数据类型参数传递代码的运行过程分析: 1、main方法进栈内存,main方法中有基本数据类型变量int x; 2、为main方法中的变量x赋值为3; 3、调用change(x)方法,则change方法进栈; 4、为change方法变量x赋值为4; 5、跳出chang
阅读全文
摘要:不多说,直接上干货! 匿名对象的两种用途: 1、当对象对方法仅进行一次调用的时候,就可以简化成匿名对象。 2、匿名对象可以作为实际参数进行传递。 匿名对象顾名思义就是没有名字的对象。 如下,就是有名对象 Car c = new Car();//这个是有名对象 c.run(); 变成, new Car
阅读全文
摘要:不多说,直接上干货! 给定一个数组,对其进行反转。 {3,1,6,5,8,2} --> {2,8,5,6,1,3}; 其实就是头尾元素的位置置换。
阅读全文
摘要:不多说,直接上干货! 插入排序包括直接插入排序、希尔排序。 1、直接插入排序: 如何写成代码: 首先设定插入次数,即循环次数,for(int i=1;i<length;i++),1个数的那次不用插入。 设定插入数和得到已经排好序列的最后一个数的位数。insertNum和j=i-1。 从最后一个数开始
阅读全文
摘要:不多说,直接上干货! 其中 1)程序计数器:用于指示当前线程所执行的字节码执行到了第几行,可以理解为当前线程的行号指示器。每个计数器志勇赖记录一个线程的行号,所以它是线程私有的。 2)虚拟机栈:一个线程的每个方法在执行的同时,会创建一个栈帧,栈帧中存储的有:局部变量、操作栈、动态链接、方法出口等。当
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! TypeConvertDemo.java
阅读全文
摘要:不多说,直接上干货! byte-short-int-long,方便识记。
阅读全文
摘要:不多说,直接上干货! 定义类其实就是在定义类中的成员。成员:成员变量<-->属性,成员函数<-->行为。 局部变量在方法内部声明,并且只能在方法内部使用,在外层的方法被调用时被分配内存,请求在方法执行完毕后自动释放内存而消亡,在使用局部变量的时候必须先对其进行初初始化。它是在方法体中定义的变量以及方
阅读全文
摘要:不多说,直接上干货! 第一种方法 PWDemo.java 第二种方法 字符流FileWriter FileWriterDemo.java(涉及到换行和续写)
阅读全文
摘要:不多说,直接上干货! 见 https://blog.henix.info/blog/windows-cmdbasic/
阅读全文
摘要:不多说,直接上干货! 见 http://www.runoob.com/python/python-tutorial.html
阅读全文
摘要:不多说,直接上干货! 见 http://liuchengxu.org/pelican-blog/jupyter-notebook-tips.html
阅读全文
摘要:不多说,直接上干货! java里如何实现循环打印出字符里的内容 没写,暂时不会 java里如何实现循环打印出字符数组里的内容
阅读全文
摘要:不多说,直接上干货! java里如何实现循环打印出字符串里的内容 思路:可以先将字符串转换成字符串数组。 java里如何实现循环打印出字符串数组里的内容
阅读全文
摘要:不多说,直接上干货! 如果 则,结果也是2
阅读全文
摘要:不多说,直接上干货! timereplace.java
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! 这是yyyy-MM-dd HH:mm:ss.S GetIntervalDays.java
阅读全文
摘要:不多说,直接上干货! 有时候,我们需要用到这样的一个场景。 ReadLocalFile1WriteLocalFile2.java (以下是相当于复制,读取文件1里的全部内容,并写入到文件2里) 得到
阅读全文
摘要:不多说,直接上干货! hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点 一、在新增节点配置运行环境 1、安装和其他节点相同的java环境,jdk版本要相同
阅读全文
摘要:不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Mav
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习(算法、源码及实战详解)的第2章 Spark数据操作
阅读全文
摘要:不多说,直接上干货! 比如,我这里拿主成分分析(PCA)。 1、主成分分析(PCA)的概念介绍 主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐
阅读全文
摘要:不多说,直接上干货! 最近在做一个Storm项目,需要用到Jetty来进行展示。它类似于Tomcat。 一、eclipse中jetty插件安装 打开eclipse,依次点击菜单Help->Eclipse Marketplace,在Find后面的框中输入jetty,选择第一项进行install即可。
阅读全文
摘要:不多说,直接上干货! 相比于决策树,保序回归的应用范围没有决策树算法那么广泛。 特别在数据处理较为庞大的时候,采用保序回归做回归分析,可以极大地节省资源,从而提高计算效率。 保序回归的思想,是对数据进行均值排序,从数据集的第一个数开始,如果下一个数出现乱序,即与设定的顺序不符,则从乱序的数据开始逐个
阅读全文
摘要:不多说,直接上干货! 回归与梯度下降 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如本地加权回归、逻辑回归,等等。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的开
阅读全文
摘要:不多说,直接上干货! 问题详情 问题分析 可能原因导致1:你的程序也许,是在他人那里复制而来,会导致这样的问题。 可能原因导致2:由于页面编码造成的。 可能原因导致1的解决办法 这个,好比,我这里,直接在该包下,新建一个.scala程序即可,然后,复制粘贴进去就行了。 别直接将别人的这个Linear
阅读全文
摘要:不多说,直接上干货! 常见的推荐算法 1、基于关系规则的推荐 2、基于内容的推荐 3、人口统计式的推荐 4、协调过滤式的推荐 (广泛采用) 协调过滤的概念 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (C
阅读全文
摘要:不多说,直接上干货! 常见的推荐算法 1、基于关系规则的推荐 2、基于内容的推荐 3、人口统计式的推荐 4、协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐算法中最常用和最经典的算法。 协调过滤算法主要有两种: 用户对物品: 考查具有相同爱好的用户对相同物
阅读全文
摘要:不多说,直接上干货! 第一步: 选择自己喜欢的显示风格后,点击“get your flag counter"按钮 第二步: 我这里,为了保持,我博客园所接收消息,也是采用本人的Q,一致。 当然,你也可以直接选择skip跳过 然后,会生成两组代码: 第三步: 这里我选择html格式的代码,复制后粘贴到
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 为了进一步打造提升(大数据躺过的坑)本微信公众平台的博文高质量水平,特邀请善于分享、主动、敢于专研尝试新技术新领域的您,一起共同维护好我们的知识小天地。目前涉及领域有:大数据领域:Hadoop、Hive、HBase、Zookeeper、Flume、Sqoop、Kafka、Spa
阅读全文
摘要:不多说,直接上干货! 集合框架中包含了大量集合接口、这些接口的实现类和操作它们的算法。 集合容器因为内部的数据结构不同,有多种具体容器。 不断的向上抽取,就形成了集合框架。 Map是一次添加一对元素。Collection是一次添加一个元素。 iterator是迭代获取元素 第一大类:Iterator
阅读全文
摘要:不多说,直接上干货! 正则表达式是什么? 正则表达式是一种可以用于模式匹配和替换的规范, 一个正则表达式就是由普通的字符(例如字符a到z) 以及特殊字符(元字符) 组成的文字模式, 它用以描述在查找文字主体时需要匹配的一个或多个字符串。 正则表达式作为一个模板, 将某个字符模式与所搜索的字符串进行匹
阅读全文
摘要:不多说,直接上干货!
阅读全文
摘要:不多说,直接上干货! 在这个世界不可能存在完美的东西,不管完美的思维有多么缜密,细心,我们都不可能考虑所有的因素,这就是所谓的智者千虑必有一失。同样的道理,计算机的世界也是不完美的,异常情况随时都会发生,我们所需要做的就是避免那些能够避免的异常,处理那些不能避免的异常。这里我将记录如何利用异常还程序
阅读全文
摘要:不多说,直接上干货! 这种形式的程序段我们将其称之为代码块,所谓代码块就是用大括号({})将多行代码封装在一起,形成一个独立的数据体,用于实现特定的算法。一般来说代码块是不能单独运行的,它必须要有运行主体。在Java中代码块主要分为四种: 普通代码块 普通代码块是我们用得最多的也是最普遍的,它就是在
阅读全文
摘要:不多说,直接上干货! 可以将一个类的定义放在另一个类的定义内部,这就是内部类。 内部类是一个非常有用的特性但又比较难理解使用的特性(鄙人到现在都没有怎么使用过内部类,对内部类也只是略知一二)。 内部类我们从外面看是非常容易理解的,无非就是在一个类的内部在定义一个类。 在这里InnerClass就是内
阅读全文
摘要:不多说,直接上干货! static修饰的方法我们称之为静态方法,我们通过类名对其进行直接调用。由于它在类加载的时候就存在了,它不依赖于任何实例,所以static方法必须实现,也就是说它不能是抽象方法。
阅读全文
摘要:不多说,直接上干货! 牛客网Java刷题知识点之关键字static static代表着什么 在Java中并不存在全局变量的概念,但是我们可以通过static来实现一个“伪全局”的概念,在Java中static表示“全局”或者“静态”的意思,用来修饰成员变量和成员方法,当然也可以修饰代码块和内部类。
阅读全文
摘要:不多说,直接上干货! 接口和内部类为我们提供了一种将接口与实现分离的更加结构化的方法。 抽象类与接口是Java语言中对抽象概念进行定义的两种机制,正是由于它们的存在才赋予java强大的面向对象的能力。它们两者之间对抽象概念的支持有很大的相似,甚至可以互换,但是也有区别。 一、抽象类 我们都知道在面向
阅读全文
摘要:不多说,直接上干货! 子类可以继承父类的属性和方法,除了那些private的外还有一样是子类继承不了的 构造器。对于构造器而言,它只能够被子类调用,而不能被子类继承。 调用父类的构造方法我们使用super()即可。
阅读全文
摘要:不多说,直接上干货! 面向对象java的四大特性之抽象 面向对象java的四大特性之封装 封装从字面上来理解就是包装的意思,专业点就是信息隐藏,是指利用抽象数据类型将数据和基于数据的操作封装在一起,使其构成一个不可分割的独立实体,数据被保护在抽象数据类型的内部,尽可能地隐藏内部的细节,只保留一些对外
阅读全文
摘要:不多说,直接上干货! 什么是匿名内部类 匿名内部类就是没有名字的内部类。 不使用关键字class 、 extends 、implements 没有构造函数 必须继承其他类或实现其他接口 正因为没有名字,所以匿名内部类只能使用一次,它通常用来简化代码编写。 匿名内部类是直接使用new来生成一个对象的引
阅读全文
摘要:不多说,直接上干货! RowMatrix要从RDD[Vector]构造,m是mat的行数,n是mat的列。 x和y分别代表标示坐标的坐标轴标号,value是具体内容。x是行坐标,y是列坐标。
阅读全文
摘要:不多说,直接上干货! 更多具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! Labeled point: 向量标签 向量标签用于对Spark Mllib中机器学习算法的不同值做标记。 例如分类问题中,可以将不同的数据集分成若干份,以整数0、1、2,....进行标记,即我们程序开发者可以根据自己业务需要对数据进行标记。 向量标签和向量是一起的,简单来说,
阅读全文
摘要:不多说,直接上干货! Local vector : 本地向量集 由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1)、密集型数据集 例如一个向量数据(9,5,2,7),可以设定为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储。 (2)、稀疏型数据集 例如一个向
阅读全文
摘要:不多说,直接上干货! Spark Mllib基本数据类型,根据不同的作用和应用场景,分为四种不同的类型 1、Local vector : 本地向量集,主要向spark提供一组可进行操作的数据集合 2、Labeled point: 向量标签,让用户能够分类不同的数据集合 3、Local matrix:
阅读全文
摘要:不多说,直接上干货! 注意: 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
阅读全文
摘要:不多说,直接上干货! 问题详解 解决办法 是
阅读全文
摘要:不多说,直接上干货! 问题详解 相关博客是 Zeppelin的入门使用系列之使用Zeppelin运行shell命令(二) 解决办法 是
阅读全文
摘要:不多说,直接上干货! 前期博客 Zeppelin的入门使用系列之使用Zeppelin来创建临时表UserTable(三) 1、 运行年龄统计的Spark SQL (1) 输入Spark SQL时,必须在第一行输入%sql 。 %sql主要是告诉Zeppelin的解释器(Interpreter),后续
阅读全文
摘要:不多说,直接上干货! 前期博客 Zeppelin的入门使用系列之使用Zeppelin运行shell命令(二) 我们必须要先使用Spark 语句创建临时表UserTable,后续才能使用Spark SQL进行数据分析以及数据可视化。 1、加载用户数据文件到userText 2、创建UserTable类
阅读全文
摘要:不多说,直接上干货! 前期博客 Zeppelin的入门使用系列之创建新的Notebook(一) 接下来,我将以ml-100k数据集,示范如何使用Spark SQL进行数据分析与数据可视化 因为 得到 列出ml-100k文件列表 然后,在ml-100k Notebook新的段落中输入命令,如下 Zep
阅读全文
摘要:不多说,直接上干货! 问题详情 问题分析 是jdk的版本、scala版本的子小版本导致的。 是以下的 是以下的 解决办法 用我下面的这两个
阅读全文
摘要:不多说,直接上干货! 问题详情 52.0是jdk1.8 51.0是jdk1.7 问题分析 是jdk的版本、scala版本的子小版本导致的。 是以下的 是以下的 解决办法 用我下面的这两个
阅读全文
摘要:不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredEr
阅读全文
摘要:不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier 见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) 在决策树回归分析参数设置中: 使用DecisionTree.t
阅读全文
摘要:不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集
阅读全文
摘要:不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集
阅读全文
摘要:不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章 决策树多元分类UCI Covertype数据集
阅读全文
摘要:不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第17章 决策树多元分类UCI Covertype数据集
阅读全文
摘要:不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集 Spark Mllib里决策
阅读全文
摘要:不多说,直接上干货! 决策树二元分类的分类数目numClasses控制 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集 决策树多元分类的分类数目numClasses控制 具体,见 Hadoop+Spark
阅读全文
摘要:不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第16章 朴素贝叶斯二元分类算法来预测分类StumbleUpon数据集
阅读全文
摘要:不多说,直接上干货! NaiveBayes数值特征字段一定要大于0,所以加入下述命令将负数转换为0。 朴素贝叶斯分类算法在进行数据标准化时,参数withMean必须设置为false。 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第16章 朴素贝叶斯二元分类算法来预测分类S
阅读全文