摘要: 每次接触一个新的知识之前我都抱有恐惧之心,因为总认为自己没有接触到的知识都很高大上,比如上篇介绍到的Hadoop的安装与使用与本篇要介绍的Spark,其实在自己真正琢磨以后才发现本以为高大上的知识其实也不过如此。 由于Spark是最新火起来的处理大数据的框架,国内教程资源少之甚少,所以本篇文章是本人 阅读全文
posted @ 2017-10-11 16:51 成长路上的。。。。 阅读(7648) 评论(1) 推荐(0) 编辑
摘要: 每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx(或者其他方式,我们 阅读全文
posted @ 2017-10-11 16:47 成长路上的。。。。 阅读(1844) 评论(0) 推荐(0) 编辑
摘要: package testimport java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.{SQLContext, S 阅读全文
posted @ 2017-09-19 16:27 成长路上的。。。。 阅读(2688) 评论(0) 推荐(0) 编辑
摘要: 1.环境 jdk : 1.8 scala : 2.11.7 hadoop:2.7 spark : 2.2.0 2. 开发工具 idea 2017.2 3.maven的pom文件 <dependencies> <!-- https://mvnrepository.com/artifact/com.su 阅读全文
posted @ 2017-09-19 16:24 成长路上的。。。。 阅读(241) 评论(0) 推荐(0) 编辑
摘要: hadoop分布式搭建 一、首先是搞好master 1、创建用户组 groupadd hadoop 添加一个组 useradd hadoop -g hadoop 添加用户 2、jdk的安装 这里安装的版本是jdk-7u9-linux-i586.tar.gz ,使用 tar -zsvf jdk-7u9 阅读全文
posted @ 2017-07-10 12:44 成长路上的。。。。 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等; 新表的统计信息 对于一个新创建的表,默认情况下,如果通过INSERT 阅读全文
posted @ 2017-07-10 12:42 成长路上的。。。。 阅读(5959) 评论(1) 推荐(0) 编辑
摘要: 一、基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceManager负责整个系统的资源管 阅读全文
posted @ 2017-07-10 12:38 成长路上的。。。。 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 这篇文章解释了Java 虚拟机(JVM)的内部架构。下图显示了遵守 Java SE 7 规范的典型的 JVM 核心内部组件。 上图显示的组件分两个章节解释。第一章讨论针对每个线程创建的组件,第二章节讨论了线程无关组件。 线程 JVM 系统线程 每个线程相关的 程序计数器 栈 本地栈 栈限制 栈帧 局 阅读全文
posted @ 2017-07-10 12:33 成长路上的。。。。 阅读(830) 评论(0) 推荐(0) 编辑
摘要: 今天要讲的主要内容是协同过滤,即Collaborative Filtering,简称CF。 Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协同过滤的简介 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者 阅读全文
posted @ 2017-04-28 09:52 成长路上的。。。。 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 在前面的章节我们已经了解到MySQL可以通过 LIKE ...% 来进行模糊匹配。 MySQL 同样也支持其他正则表达式的匹配, MySQL中使用 REGEXP 操作符来进行正则表达式匹配。 如果您了解PHP或Perl,那么操作起来就非常简单,因为MySQL的正则表达式匹配与这些脚本的类似。 下表中 阅读全文
posted @ 2017-04-23 20:27 成长路上的。。。。 阅读(349) 评论(0) 推荐(0) 编辑