我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。
摘要:1:我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。
阅读全文
posted @
2017-12-25 14:51
别先生
阅读(288)
推荐(0) 编辑
实验手册——搜狗搜索日志分析系统
摘要:前奏:请提前搭建好你的集群和必要的软件:hadoop + jdk + hive + Sqoop + HBase; 数据(链接是网友的,感谢,感谢,感谢。里面有测试数据):链接:http://pan.baidu.com/s/1dFD7mdr 密码:xwu8 一:数据预处理(Linux 环境): 1:查
阅读全文
posted @
2017-12-21 18:27
别先生
阅读(5685)
推荐(3) 编辑
Scala的安装,入门,学习,基础
摘要:1:Scala的官方网址:http://www.scala-lang.org/ 推荐学习教程:http://www.runoob.com/scala/scala-tutorial.html Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Ja
阅读全文
posted @
2017-12-19 15:53
别先生
阅读(3224)
推荐(1) 编辑
导入别人的项目源码,如何才可以正常运行呢???
摘要:犹犹豫豫,不断有人问,开始写的时候是十月份,后来对某些只是为了应付大作业的人,我实在不想写,搁置两个月,今天有一个问的,一气之下,找到草稿,最后一次更新自己当初bug不断的图书管理系统。 1:本来不想写此篇博客的,但是之前上传一个关于图书管理系统的源码,好心网友下载了,然后直接说不好使,404,报错
阅读全文
posted @
2017-12-19 13:18
别先生
阅读(13826)
推荐(1) 编辑
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
摘要:1:这个问题都被大家玩烂了,这里我也记载一下,方便以后脑补: 我是测试Hbase创建数据表的时候遇到的这种问题,总之吧,window操作hadoop都会遇到这种问题: 停更......
阅读全文
posted @
2017-12-18 18:43
别先生
阅读(3766)
推荐(1) 编辑
网站点击流数据分析项目----之现学现卖
摘要:1:网站点击流数据分析项目推荐书籍: 可以看看百度如何实现这个功能的:https://tongji.baidu.com/web/welcome/login 2:整体技术流程及架构: 2.1 数据处理流程 该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步
阅读全文
posted @
2017-12-17 20:27
别先生
阅读(2012)
推荐(0) 编辑
我的博客即将搬运同步至腾讯云+社区
摘要:我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan
阅读全文
posted @
2017-12-15 17:10
别先生
阅读(389)
推荐(0) 编辑
sqoop数据迁移(基于Hadoop和关系数据库服务器之间传送数据)
摘要:1:sqoop的概述: (1):sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。(2):导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;(3):导出数据:从Hadoop的文件系统中导出数据到关系数据库 (4
阅读全文
posted @
2017-12-15 14:15
别先生
阅读(2869)
推荐(0) 编辑
工作流调度器azkaban(以及各种工作流调度器比对)
摘要:1:工作流调度系统的作用: (1):一个完整的数据分析系统通常都是由大量任务单元组成:比如,shell脚本程序,java程序,mapreduce程序、hive脚本等;(2):各任务单元之间存在时间先后及前后依赖关系;(3):为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; (4
阅读全文
posted @
2017-12-14 15:09
别先生
阅读(5531)
推荐(0) 编辑
日志采集框架Flume以及Flume的安装部署(一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统)
摘要:Flume支持众多的source和sink类型,详细手册可参考官方文档,更多source和sink组件 http://flume.apache.org/FlumeUserGuide.html Flume官网入门指南: 1:Flume的概述和介绍: (1):Flume是一个分布式、可靠、和高可用的海量
阅读全文
posted @
2017-12-13 13:19
别先生
阅读(9092)
推荐(0) 编辑
Hive thrift服务(将Hive作为一个服务器,其他机器可以作为客户端进行访问)
摘要:步骤一:启动为前台:bin/hiveserver2 步骤二:启动为后台:nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err & 1:启动成功后,可以在别的节点上用beeline去连接 方式一: hive/
阅读全文
posted @
2017-12-12 20:54
别先生
阅读(9028)
推荐(0) 编辑
[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
摘要:1:出现此种错误应该是jar版本包冲突了,启动hive的时候,由于hive依赖hadoop,启动hive,会将hadoop的配置以及jar包等等导入到hive中,导致jar包版本冲突,下面贴一下错误,然后贴一下解决方法: 2:hive里面的 这个jar包是jline-2.12.jar,而hadooo
阅读全文
posted @
2017-12-10 11:11
别先生
阅读(3709)
推荐(0) 编辑
file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.i386 conflicts with file from package mysql-libs-5.1.73-8.el6_8.i686
摘要:1:也许之前的机器安装过Mysql,但是自己不知道,账号密码也忘记了,又执行安装操作,导致Mysql不兼容问题。Linux上安装MySQL时出现不兼容的解决办法,错误如下所示: 2:出现问题了,就解决呗,原因是系统已经安装了其他版本的mysql-libs包导致不兼容。 可以使用命令查看yum lis
阅读全文
posted @
2017-12-09 23:44
别先生
阅读(3382)
推荐(0) 编辑
大数据平台网站日志分析系统
摘要:1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2)
阅读全文
posted @
2017-12-09 22:52
别先生
阅读(6635)
推荐(2) 编辑
The authenticity of host 'slaver2 (192.168.199.132)' can't be established. RSA key fingerprint is cc:4e:23:01:ca:97:52:21:85:78:bc:29:ca:b3:12:52.
摘要:1:ssh登录 The authenticity of host 192.168.199.132 can't be established. 的问题 问题出现了,总要解决吧,百度一下,详细介绍的很多,这里不做多叙述,使用百度的方法可以很好解决问题,这里脑补一下: ssh -o StrictHostK
阅读全文
posted @
2017-12-09 17:48
别先生
阅读(3527)
推荐(0) 编辑
Hadoop集群最迅速的配置免密码登陆方法
摘要:1:多台机器互相免密登陆的思路(默认你的linux操作系统已经安装好ssh): 第一步:在各自的机器上面生成密钥: 在第1台机器上生产一对钥匙: ssh-keygen -t rsa 在第2台机器上生产一对钥匙: ssh-keygen -t rsa 在第3台机器上生产一对钥匙: ssh-keygen
阅读全文
posted @
2017-12-09 16:30
别先生
阅读(1379)
推荐(0) 编辑