摘要: 数据挖掘 1、定义: 数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。 2、数据挖掘与机器学习的关系: 机器学习可以用来作为数据挖掘的一种工具或手段; 数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法 阅读全文
posted @ 2017-07-10 20:40 ahu-lichang 阅读(852) 评论(0) 推荐(0) 编辑
摘要: Numpy安装(要先安装好python,见《windows下的python环境搭建(python2和python3不兼容,python2用的多)》) Numpy是Python的一个科学计算的库 主要提供矩阵运算的功能,而矩阵运算在机器学习领域应用非常广泛 Numpy(科学计算库)一般与Scipy(工 阅读全文
posted @ 2017-07-08 22:51 ahu-lichang 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: Windows平台下搭建python开发环境 以下为在 Window 平台上安装 Python 的简单步骤: 打开WEB浏览器访问http://www.python.org/download/ 在下载列表中选择Window平台安装包,包格式为:python-XYZ.msi 文件 , XYZ 为你要安 阅读全文
posted @ 2017-06-29 10:09 ahu-lichang 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 用户画像相关知识点 1、用户画像是什么? 用户画像(User Profile),即用户信息标签化。 用户画像有很多的的标签组成,每个标签都规定了观察、认识、描述用户的角度。标签根据企业业务的发展情况,或多或少,对外而言都是一个整体,这个整体称之为用户画像。 2、为什么需要用户画像? 用户画像的核心工 阅读全文
posted @ 2017-06-24 23:54 ahu-lichang 阅读(2102) 评论(1) 推荐(0) 编辑
摘要: Mahout学习(主要学习内容是Mahout中推荐部分的ItemCF、UserCF、Hadoop集群部署运行) 1、Mahout是什么? Mahout是一个算法库,集成了很多算法。 Apache Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供 阅读全文
posted @ 2017-06-24 17:09 ahu-lichang 阅读(43922) 评论(4) 推荐(2) 编辑
摘要: 协同过滤的实现 1、收集用户偏好及标准化处理 要从用户的行为和偏好中发现规律,并基于此给予推荐,如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多方式向系统提供自己的偏好信息,而且不同的应用也可能大不相同。 以上列举的用户行为都是比较通用的,推荐引擎设计人员可以根据自己应用的特点添加 阅读全文
posted @ 2017-06-23 21:44 ahu-lichang 阅读(2897) 评论(0) 推荐(0) 编辑
摘要: 1、推荐系统是什么? 推荐系统本质上是销售系统的一部分。 为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统。 推荐系统广泛存在于各类网站中,作为一个应用为用户提供个性化的推荐。它需要一些用户的历史数据,一般由三个部分组成:基础数据、推荐算法系统、前台展示。 基础数据 阅读全文
posted @ 2017-06-23 10:40 ahu-lichang 阅读(1325) 评论(0) 推荐(1) 编辑
摘要: 脚本生产数据 >flume采集数据 >kafka消费数据 >storm集群处理数据 日志文件使用log4j生成,滚动生成! 当前正在写入的文件在满足一定的数量阈值之后,需要重命名!!! flume+Kafka整合步骤及相关配置:(先安装好zookeeper集群和Kafka集群) 配置flume: 1 阅读全文
posted @ 2017-06-19 15:07 ahu-lichang 阅读(1515) 评论(0) 推荐(0) 编辑
摘要: 1、kafka是什么 类JMS消息队列,结合JMS中的两种模式(点对点模型,发布者/订阅者模型),可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发 阅读全文
posted @ 2017-06-03 18:11 ahu-lichang 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 使用idea实现相关API操作,先要再pom.xml重添加Kafka依赖: Kafka生产者API: Kafka消费者API: kafka自定义patition: 阅读全文
posted @ 2017-06-03 11:36 ahu-lichang 阅读(4625) 评论(0) 推荐(0) 编辑
摘要: Kafka介绍 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS 1、Apache Kafka是一个开源消息系统,用Scala写成。 2、Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性, 阅读全文
posted @ 2017-05-25 23:00 ahu-lichang 阅读(623) 评论(0) 推荐(0) 编辑
摘要: storm消息容错机制(ack-fail) 1、介绍 在storm中,可靠的信息处理机制是从spout开始的。 一个提供了可靠的处理机制的spout需要记录他发射出去的tuple,当下游bolt处理tuple或者子tuple失败时spout能够重新发射。 Storm通过调用Spout的nextTup 阅读全文
posted @ 2017-05-25 16:40 ahu-lichang 阅读(3243) 评论(0) 推荐(0) 编辑
摘要: Worker间的通信:经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信:不同worker的thread通信使用LMAX Disruptor来完成。 不同topologey之间的通信:Storm不负责,需要自己 阅读全文
posted @ 2017-05-24 23:19 ahu-lichang 阅读(1270) 评论(0) 推荐(0) 编辑
摘要: 概念 Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology Exec 阅读全文
posted @ 2017-05-24 16:15 ahu-lichang 阅读(364) 评论(0) 推荐(0) 编辑
摘要: Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程 阅读全文
posted @ 2017-05-24 13:00 ahu-lichang 阅读(760) 评论(0) 推荐(0) 编辑
摘要: Storm集群启动流程分析 程序员 1、客户端运行storm nimbus时,会调用storm的python脚本,该脚本中为每个命令编写了一个方法,每个方法都可以生成一条相应的Java命令。 命令格式:java -server xxx.ClassName -args nimbus >Running: 阅读全文
posted @ 2017-05-20 10:04 ahu-lichang 阅读(445) 评论(0) 推荐(0) 编辑
摘要: Storm常用操作命令 1、任务提交命令:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】 storm jar /export/servers/storm/examples/storm-starter/storm-starter-topologies-1.0.3.jar or 阅读全文
posted @ 2017-05-18 10:04 ahu-lichang 阅读(6341) 评论(0) 推荐(0) 编辑
摘要: Storm集群部署 所有集群部署的基本流程都差不多:下载安装包并上传、解压安装包并配置环境变量、修改配置文件、分发安装包、启动集群、查看集群是否部署成功。 1、所有的集群上都要配置hosts vi /etc/hosts 192.168.33.201 storm1 hadoop1 zk1 192.16 阅读全文
posted @ 2017-05-16 16:07 ahu-lichang 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 离线计算 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度 流式计算 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表 阅读全文
posted @ 2017-05-15 22:25 ahu-lichang 阅读(2532) 评论(0) 推荐(0) 编辑
摘要: HBase介绍(NoSql,不是关系型数据库) HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase利用hadoop hdfs作为其文件存储系统,利用hadoop MapReduce来处理HBase中 阅读全文
posted @ 2017-05-13 17:32 ahu-lichang 阅读(399) 评论(0) 推荐(0) 编辑
摘要: sqoop介绍 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 sqoop工作机制 将导入或导出 阅读全文
posted @ 2017-05-11 11:38 ahu-lichang 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 工作流调度实现方式 简单的任务调度 阅读全文
posted @ 2017-05-10 17:57 ahu-lichang 阅读(1333) 评论(0) 推荐(0) 编辑
摘要: 使用rpm -qa|grep yum,可以发现有好多关于yum的安装插件等东西。。。 从里面将的一些东西删除掉,只留下下面三个即可,其余的全部删除掉rpm -e yum-plugin-security-* --nodeps: 这样一来,就可以使用yum在Linux中在线安装各种软件了。 注意:有的时 阅读全文
posted @ 2017-05-09 00:09 ahu-lichang 阅读(326) 评论(0) 推荐(0) 编辑
摘要: flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flum 阅读全文
posted @ 2017-05-08 22:06 ahu-lichang 阅读(662) 评论(0) 推荐(0) 编辑
摘要: hive利用hdfs存储数据文件,利用MapReduce查询数据。 数据库:支持在线联机业务(实时、事务控制) 数据仓库:存储历史数据,面向主题的。主要用于离线数据分析的。 阅读全文
posted @ 2017-05-07 21:47 ahu-lichang 阅读(531) 评论(0) 推荐(0) 编辑
摘要: hive1.2.1在hadoop2.6.4集群上的安装 hive只需在一个节点上安装即可,这里再hadoop1上安装 1、上传hive安装包到/usr/local/目录下 2、解压 tar -zxvf /usr/local/hive-1.2.1.tar.gz 重命名 mv hive-1.2.1 hi 阅读全文
posted @ 2017-05-06 10:30 ahu-lichang 阅读(1008) 评论(0) 推荐(0) 编辑
摘要: hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hado 阅读全文
posted @ 2017-05-04 10:56 ahu-lichang 阅读(4568) 评论(0) 推荐(1) 编辑
摘要: MapReduce的shuffle机制 1、概述 mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle; shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输出的 阅读全文
posted @ 2017-05-01 22:25 ahu-lichang 阅读(497) 评论(0) 推荐(0) 编辑
摘要: MapReduce编程规范: (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端) (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper的输出数据是KV对的形式(KV的类型可自定义) (4)Mapper中的业务逻辑写 阅读全文
posted @ 2017-04-28 22:50 ahu-lichang 阅读(350) 评论(0) 推荐(0) 编辑
摘要: Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 为什么要MAPREDUCE (1)海量数据在单机上 阅读全文
posted @ 2017-04-28 22:35 ahu-lichang 阅读(484) 评论(0) 推荐(0) 编辑
摘要: HDFS基本概念 1、HDFS设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析 2、概念和特性 概念:HDFS是一个分布式的文件系统。 特性: (1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs 阅读全文
posted @ 2017-04-26 23:02 ahu-lichang 阅读(825) 评论(0) 推荐(2) 编辑
摘要: 1、离线数据分析流程 一个应用广泛的数据分析系统:“web日志数据挖掘” 1.1 需求分析 1.1.1 案例名称 “网站或APP点击流日志数据挖掘系统”。 1.1.2 案例需求描述 “Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页 阅读全文
posted @ 2017-04-24 10:30 ahu-lichang 阅读(5247) 评论(0) 推荐(0) 编辑
摘要: hadoop集群搭建(亲自操作成功步骤!值得信赖!) 1.1集群简介 hadoop的核心组件: HDFS(分布式文件系统) YARN(运算资源调度系统) MapReduce(分布式运算编程框架) HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HD 阅读全文
posted @ 2017-04-23 23:05 ahu-lichang 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 1、Java监控工具使用 1.1jconsole jconsole是一种集成了上面所有命令功能的可视化工具,可以分析jvm的内存使用情况和线程等信息。 启动jconsole 通过JDK/bin目录下的“jconsole.exe”启动Jconsole后,将自动搜索出本机运行的所有虚拟机进程,不需要用户 阅读全文
posted @ 2017-04-20 23:19 ahu-lichang 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 反射 通过反射的方式Class.forName(“com.ahu.Person”)可以获取class对象的实例以及其中的属性、方法、构造函数等 动态代理 动态代理:在不修改原业务的基础上,基于原业务方法,进行重新的扩展,实现新的业务。 例子: 1、 旧业务 买家调用action,购买衣服,衣服在数据 阅读全文
posted @ 2017-04-20 16:30 ahu-lichang 阅读(316) 评论(0) 推荐(0) 编辑
摘要: JMS即Java消息服务(Java Message Service)应用程序接口是一个Java平台中关于面向消息中间件(MOM:指的是利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。)的API, 用于在两个应用程序之间,或分布式系统中发送消息,进行异步通信。J 阅读全文
posted @ 2017-04-20 15:05 ahu-lichang 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 进程:它是内存中的一段独立的空间。 线程:位于进程中,负责当前进程中的某个具备独立运行资格的空间。 进程是负责整个程序的运行,而线程是程序中具体的某个独立功能的运行。一个进程中至少应该有一个线程。 多线程:在一个进程中,我们同时开启多个线程,让多个线程同时去完成某些任务(功能)。(比如后台服务系统, 阅读全文
posted @ 2017-04-19 22:21 ahu-lichang 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 定义脚本boot.sh启动zookeeper集群(hadoop1,hadoop2,hadoop3) 阅读全文
posted @ 2017-04-17 21:56 ahu-lichang 阅读(2193) 评论(0) 推荐(0) 编辑
摘要: 前提条件:搭建好zookeeper服务器集群《Zookeeper深入认识》,并且集群成功开启。 执行zkServer.sh,客户端连接上服务器hadoop1。 都有哪些命令行操作呢?(见下图) 1、使用 ls 命令来查看当前 ZooKeeper 中所包含的内容: 2、创建一个新的 znode ,使用 阅读全文
posted @ 2017-04-17 21:52 ahu-lichang 阅读(726) 评论(0) 推荐(0) 编辑
摘要: 1、zookeeper概念 zookeeper是一个分布式协调服务:a:zookeeper是为别的分布式程序服务的 b:zookeeper本身就是一个分布式程序(只要半数以上节点存活,zookeeper就能正常服务。) c:zookeeper的服务范围:主从协调、服务器节点动态上下线、统一配置管理、 阅读全文
posted @ 2017-04-17 17:19 ahu-lichang 阅读(26245) 评论(4) 推荐(2) 编辑