随笔分类 -  大数据

摘要:当虚拟机服务器运行Docker久了后,发现Docker的文件越来越大,某天发现此台机上的数据库访问不了了,再重启数据库等日志,提示空间不足,查看磁盘空间: root分区满载啊,前段时间还有不少空间的,查下什么大文件内容占了空间。 find / -xdev -size +100M -exec ls - 阅读全文
posted @ 2018-01-30 09:32 欢醉 阅读(820) 评论(0) 推荐(0) 编辑
摘要:在前篇 高可用高性能分布式文件系统FastDFS进阶keepalived+nginx对多tracker进行高可用热备 中已介绍搭建高可用的分布式文件系统架构。 那怎么在程序中调用,其实网上有很多栗子,这里在他们的基础上作个简单的介绍。 下载源码并加入本地仓库 官网Java客户端源代码:https:/ 阅读全文
posted @ 2018-01-23 09:15 欢醉 阅读(3852) 评论(2) 推荐(0) 编辑
摘要:在上一篇 分布式文件系统FastDFS如何做到高可用 中已经介绍了FastDFS的原理和怎么搭建一个简单的高可用的分布式文件系统及怎么访问。 高可用是实现了,但由于我们只设置了一个group,如果现在有5台服务器那将会出现5台只有一个group,每台服务器内的文件内容都相同(互备份)如下图,会造成资 阅读全文
posted @ 2018-01-18 08:38 欢醉 阅读(6260) 评论(2) 推荐(1) 编辑
摘要:FastDFS是用C语言编写的一款开源的轻量级分布式文件系统。它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。 FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、 阅读全文
posted @ 2018-01-15 08:38 欢醉 阅读(10612) 评论(0) 推荐(1) 编辑
摘要:zabbix并没有给我们提供这么一个模板来完成在Linux中磁盘IO的监控,所以我们需要自己来创建一个,在此还是在Linux OS中添加。 由于一台服务器中磁盘众多,如果只一两台可以手动添加,但服务集群达到几十那就非常麻烦,因此需要利用 自动发现 这个功能,自动发现后自动添加对服务器磁盘的监控,而且 阅读全文
posted @ 2018-01-08 08:45 欢醉 阅读(3184) 评论(6) 推荐(1) 编辑
摘要:概要 为什么要做监控 线上发布了服务,怎么知道它一切正常,比如发布5台服务器,如何直观了解是否有请求进来,访问一切正常。当年有一次将线上的库配置到了Beta,这么低级的错误,排错花了一个通宵,十几个人。某个核心服务挂了,导致大量报错,如何确定到底是哪里出了问题。SOA带来的问题,调用XX服务出问题, 阅读全文
posted @ 2017-09-11 08:45 欢醉 阅读(14249) 评论(3) 推荐(4) 编辑
摘要:在如何开发自己的搜索帝国之Elasticsearch中已经介绍安装好了ES,下面就Kibana对ES的查询监控作介绍,就是常提到的大数据日志处理组件ELK里的K。 什么是Kibana?现引用园友的一段对此的介绍,个人觉得比较全。 Kibana是一个针对Elasticsearch的开源分析及可视化平台 阅读全文
posted @ 2017-08-11 08:33 欢醉 阅读(25529) 评论(6) 推荐(5) 编辑
摘要:搜索引擎是什么? 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 Elasticsearc 阅读全文
posted @ 2017-08-10 08:33 欢醉 阅读(5115) 评论(3) 推荐(5) 编辑
摘要:在Net中VS2015用RdKafka组件开发消息发布和消费,引发下面的异常 RdKafka.Internal.LibRdKafka 的类型初始值设定项引发异常System.TypeInitializationException: “RdKafka.Internal.LibRdKafka”的类型初始 阅读全文
posted @ 2017-06-30 13:59 欢醉 阅读(1399) 评论(0) 推荐(0) 编辑
摘要:前面介绍了sqoop1.4.6的 如何将mysql数据导入Hadoop之Sqoop安装,下面就介绍两者间的数据互通的简单使用命令。 显示mysql数据库的信息,一般sqoop安装测试用 显示数据库里所有表: mysql导入到hdfs中 sqoop ##sqoop命令import ##表示导入--co 阅读全文
posted @ 2017-06-26 08:42 欢醉 阅读(4899) 评论(0) 推荐(0) 编辑
摘要:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库 阅读全文
posted @ 2017-06-23 09:00 欢醉 阅读(5916) 评论(3) 推荐(2) 编辑
摘要:这里主要介绍几种常见的日志的source来源,包括监控文件型,监控文件内容增量,TCP和HTTP。 Spool类型 用于监控指定目录内数据变更,若有新文件,则将新文件内数据读取上传 在教你一步搭建Flume分布式日志系统最后有介绍此案例 Exec EXEC执行一个给定的命令获得输出的源,如果要使用t 阅读全文
posted @ 2017-06-06 09:32 欢醉 阅读(13433) 评论(0) 推荐(0) 编辑
摘要:在前篇几十条业务线日志系统如何收集处理?中已经介绍了Flume的众多应用场景,那此篇中先介绍如何搭建单机版日志系统。 环境 CentOS7.0 Java1.8 下载 官网下载 http://flume.apache.org/download.html 当前最新版 apache-flume-1.7.0 阅读全文
posted @ 2017-05-31 08:48 欢醉 阅读(3699) 评论(5) 推荐(2) 编辑
摘要:在互联网迅猛发展的今天 各大厂发挥十八般武艺的收集用户的各种信息,甚至包括点击的位置,我们也经常发现自己刚搜完一个东西,再打开网页时每个小广告都会出现与之相关联的商品或信息,在感叹智能的同时不惊想 什么时候泄露的行踪。 许多公司的业务平台每天都会产生大量的日志数据。收集业务日志数据,供离线和在线的分 阅读全文
posted @ 2017-05-26 08:53 欢醉 阅读(8563) 评论(6) 推荐(7) 编辑
摘要:Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA)。网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结。 Hadoop是一个强大的并行框架,它允许任务在其分布式集群上并行处理。但是编写、调试Ha 阅读全文
posted @ 2017-05-17 08:43 欢醉 阅读(3104) 评论(0) 推荐(2) 编辑
摘要:经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 不需要下载最新的3.0版本 阅读全文
posted @ 2017-05-10 08:56 欢醉 阅读(1466) 评论(0) 推荐(2) 编辑
摘要:由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。 VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力,需要 阅读全文
posted @ 2017-05-08 08:42 欢醉 阅读(830) 评论(0) 推荐(2) 编辑
摘要:系统操作 #使用shutdown命令马上重启系统[root@H32 ~]# shutdown –r now #使用shutdown命令马上关闭系统[root@H32 ~]# shutdown –h now #使用shutdown命令设置在15分钟以后自动重启系统[root@H32 ~]# shutd 阅读全文
posted @ 2017-05-04 08:50 欢醉 阅读(487) 评论(0) 推荐(0) 编辑
摘要:在互联网的世界中数据都是以TB、PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示。 大数据什么叫大?4个特征: 体量化 Volume,就是量大。 多样化 Variety,可能是结构 阅读全文
posted @ 2017-05-03 08:54 欢醉 阅读(6776) 评论(3) 推荐(2) 编辑
摘要:我们知道如果要向远程服务器传输数据和操作必须输入用户名和密码远程登录服务器 ,或用FTP等协议,都需要权限控制。 然而如果是两台服务器间的软件需要通讯和数据传输,如hadoop集群中机器互访,是不是每次也要输入用户名和密码?那是不是很麻烦?下面介绍SSH来解决这个问题(不是JAVA中的SSH概念) 阅读全文
posted @ 2017-04-18 08:46 欢醉 阅读(4302) 评论(2) 推荐(1) 编辑

点击右上角即可分享
微信分享提示