摘要:对很多企业来说,大数据的概念已不陌生,但如何在营销中应用大数据仍是说易行难。其实,作为大数据最先落地也最先体现出价值的应用领域,网络营销的数据化之路已有成熟的经验及操作模式。 一、获取全网用户数据 首先需要明确的是,仅有企业数据,即使规模再大,也只是孤岛数据。在收集、打通企业内部的用户数据时,还要与
阅读全文
摘要:在远程管理linux系统基本上都要使用到ssh,原因很简单:telnet、FTP等传输方式是以明文传送用户认证信息,本质上是不安全的,存在被网络窃听的危险。SSH(Secure Shell)目前较可靠,是专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过程中的信息...
阅读全文
摘要:一、pam简介Linux-PAM(linux可插入认证模块)是一套共享库,使本地系统管理员可以随意选择程序的认证方式. 换句话说,不用(重新编写)重新编译一个包含PAM功能的应用程序,就可以改变它使用的认证机制. 这种方式下,就算升级本地认证机制,也不用修改程序.PAM使用配置/etc/pam.d/...
阅读全文
摘要:目前磁盘存储市场上,存储分类(如下表一)根据服务器类型分为:封闭系统的存储和开放系统的存储,封闭系统主要指大型机,AS400等服务器,开放系统指基于包括Windows、UNIX、Linux等操作系统的服务器;开放系统的存储分为:内置存储和外挂存储;开放系统的外挂存储根据连接的方式分为:直连式存...
阅读全文
摘要:问题导读:1、Hadoop出现问题时,该如何入手查看问题?2、datanode无法启动,我们该怎么解决?3、如何动态加入DataNode或TaskTracker?一、问题描述当我多次格式化文件系统时,如root@localhost:/usr/local/hadoop-1.0.2# bin/hadoo...
阅读全文
摘要:远程调试对应用程序开发十分有用,那如何调试Hadoop源码?这里介绍如何用IDE远程调试Hadoop源码。本文以IntelliJ IDEA作为IDE,以调试Jobhistory WEB UI代码为例进行说明。 第一步:在启动Hadoop历史服务器进程之前在终端加入以下环境配置:[wyp@date5...
阅读全文
摘要:在Apache官网上下载bin文件,解压到相应目录。然后配置/etc/profile即可,环境变量名为M2_HOME,如下:(配置完后注意source /etc/profile)#Mavenexport M2_HOME=/usr/local/apache-maven-3.3.1export PAT...
阅读全文
摘要:前言:由于官网提供的64位hadoop是没有编译的,所以当我们用到64位的hadoop时,需要在自己的64位linux系统上编译hadoop源码。另外,要想在eclipse里查看hadoop源码,修改源码等,也要进行编译。现在把两者编译的方法列在下面,其中准备阶段是共同的,都必须做。环境:Ubunt...
阅读全文
摘要:问题按如下步骤在Ubuntu上编译安装Google Protocol Buffers$ ./configure $ make $ make check $ sudo make install 运行$ protoc --version 出现找不到动态库的错误protoc: error while lo...
阅读全文
摘要:1.hadoop本地库的作用是什么?2.哪两个压缩编码器必须使用hadoop本地库才能运行?3.hadoop的使用方法?4.hadoop本地库与系统版本不一致会引起什么错误?5.$ export HADOOP_ROOT_LOGGER=DEBUG,console有什么作本帖最后由 pig2 于 201...
阅读全文
摘要:生成key:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys -t 密钥类型可以用 -t 选项指定。如果没有指定则默认生成用于SSH-2的RSA密钥。 -f file...
阅读全文
摘要:配置SSH无登陆验证,在很多场景下是非常方便的,尤其是在管理大型集群服务时,避免了繁琐的密码验证,在安全级别越高的服务器上,通常密码的设置更复杂,配置SSH,不仅可以用密钥保证节点间通信的安全性,同时也降低了频繁输入密码登陆的耗时,大大提高了管理效率。散仙写此篇文章,也是给准备入手Hadoop的道友...
阅读全文
摘要:问题导读:1.如何配置各个节点之间无密码互通?2.启动hadoop,看不到进程的原因是什么?3.配置hadoop的步骤是什么?4.有哪些配置文件需要修改?5.如果没有配置文件,该如何找到该配置文件?6.环境变量配置了,但是不生效的原因是什么?7.如何查看hadoop2监控页面首先说一下这个安装过程需...
阅读全文
摘要:1.job的本质是什么?2.任务的本质是什么?3.文件系统的Namespace由谁来管理,Namespace的作用是什么?4.Namespace 镜像文件(Namespace image)和操作日志文件(edit log)文件的作用是什么?5.Namenode记录着每个文件中各个块所在的数据节点的位...
阅读全文
摘要:问题导读:1.如果获取hadoop srcmaven包?2.编译hadoop需要装哪些软件?3.如何编译hadoop2.4?扩展:编译hadoop为何安装这些软件?一、首先下载hadoop源码包下载的方式还是比较多的1.svn的方式svn下载首先需要安装SVN,如果想尝试使用svn,可以参考源码管理...
阅读全文
摘要:通常,如果我们想更改主机地址为静态地址或者更改主机名,需要修改的几个文件包括: /etc/sysconfig/network Centos设置主机名和网络配置 /etc/sysconfig/network-scripts/ifcfg-eth0针对特定的网卡进行设置 /etc/resolv.conf设...
阅读全文
摘要:/etc/resolv.conf该文件是DNS域名解析的配置文件,它的格式很简单,每行以一个关键字开头,后接配置参数。resolv.conf的关键字主要有四个,分别是:nameserver #定义DNS服务器的IP地址domain #定义本地域名search #定义域名的搜索列表sortlist #...
阅读全文
摘要:1. 前言Hadoop-2.4.0的源码目录下有个BUILDING.txt文件,它介绍了如何在Linux和Windows下编译源代码,本文基本是遵照BUILDING.txt指示来操作的,这里再做一下简单的提炼。第一次编译要求能够访问互联网,Hadoop的编译依赖非常多的东西,一定要保证机器可访问互联...
阅读全文
摘要:一、NFS服务简介 NFS 是Network File System的缩写,即网络文件系统。一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据,让应用程序在客户端通过网络访问位于服务器磁盘中的数据,是在类Unix...
阅读全文
摘要:用于测试,我用4台虚拟机搭建成了hadoop结构我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程中,重启会出错...
阅读全文
摘要:首先需要知道什么是IO: IO是输入输出接口阅读本文章可以带着下面问题1.集群的瓶颈为什么IO?2.你对IO了解多少?这里面只说个人观点:当我们面临集群作战的时候,我们所希望的是即读即得。可是面对大数据,读取数据需要经过IO,这里可以把IO理解为水的管道。管道越大越强,我们对于T级的数据读取就越快。...
阅读全文
摘要:阅读本文思考:1.对磁盘IO了解多少2.为什么是磁盘IO是瓶颈,有没有自己的答案想了解磁盘io可以查看此帖:集群瓶颈:磁盘IO必读(磁盘IO:磁盘输出输出)集群的瓶颈提出多种看法,其中网络和磁盘io的争议比较大。这里需要说明的是网络是一种稀缺资源,而不是瓶颈。对于磁盘IO:当我们面临集群作战的时候,...
阅读全文
摘要:最近将公司的在线业务迁移到Storm集群上,上线后遇到低峰期CPU耗费严重的情况。在解决问题的过程中深入了解了storm的内部实现原理,并且解决了一个storm0.9-0.10版本一直存在的严重bug,目前代码已经合并到了storm新版本中,在这篇文章里会介绍这个问题出现的场景、分析思路、解决的方式...
阅读全文
摘要:构建这里搜集了用来构建应用程序的工具。Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配置,所以维护起来相当困难。Gradle:Gradle采用增量构建。Gradle通过Groov...
阅读全文
摘要:一:jstackjstack命令的语法格式: jstack 。可以用jps查看java进程id。这里要注意的是:1. 不同的 JAVA虚机的线程 DUMP的创建方法和文件格式是不一样的,不同的 JVM版本, dump信息也有差别。本文中,只以 SUN的 hotspot JVM 5.0_06 为例。2...
阅读全文
摘要:问题描述:生产环境下的某台tomcat7服务器,在刚发布时的时候一切都很正常,在运行一段时间后就出现CPU占用很高的问题,基本上是负载一天比一天高。问题分析:1,程序属于CPU密集型,和开发沟通过,排除此类情况。2,程序代码有问题,出现死循环,可能性极大。问题解决:1,开发那边无法排查代码某个模块有...
阅读全文
摘要:问题导读1.如何设置storm内存?2.如果没有配置文件的情况下,该如何配置一些参数?3.通过哪个参数可以配置内存?Storm中真正干活的是各个worker,而worker由supervisor负责启动。在topology启动过程中我们会看到如下的启动日志: 这就是启动一个w...
阅读全文
摘要:《Kafka剖析:Kafka背景及架构介绍》 《Kafka设计解析:Kafka High Availability(上)》 《Kafka设计解析:Kafka High Availability (下)》 《Kafka设计解析:Replication工具》 《Kafka设计解析:Kafka ...
阅读全文
摘要:消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下...
阅读全文