04 2017 档案
摘要:Apriori的挑战及改进方案 挑战 多次数据库扫描 巨大数量的候补项集 繁琐的支持度计算 改善Apriori: 基本想法 减少扫描数据库的次数 减少候选项集的数量 简化候选项集的支持度计算 FPGROWTH算法优点 相比Apriori算法需要多次扫描数据库,FPGrowth只需要对数据库扫描2次。
阅读全文
摘要:贝叶斯决策 简单例子引入 先验概率 后验概率 最小错误率决策 最小风险贝叶斯决策 简单的例子 正常情况下,我们可以快速的将街上的人分成男和女两类。这里街上的人就是我们观测到的样本,将每一个人分成男、女两类就是我们做决策的过程。上面的问题就是一个分类问题。 分类可以看作是一种决策,即我们根据观测对样本
阅读全文
摘要:Mahout的推荐系统 什么是推荐系统 为什使用推荐系统 推荐系统中的算法 什么是推荐系统 为什么使用推荐系统? 促进厂商商品销售,帮助用户找到想要的商品 推荐系统无处不在,体现在生活的各个方面 图书推荐;QQ好友推荐;优酷,爱奇艺的视频推荐;豆瓣的音乐推荐;大从点评的餐饮推荐;世纪佳缘的相亲推荐;
阅读全文
摘要:Tachyon实战应用 配置及启动环境 修改spark-env.sh 启动HDFS 启动Tachyon Tachyon上运行Spark 添加core-site.xml 启动Spark集群 读取文件并保存 Tachyon运行MapReduce 修改core-site.xml 启动YARN 运行MapR
阅读全文
摘要:Tachyon命令行使用 Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal ls和lsr count cat mkdir、rm、rmr和touch pin和unpin Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal l
阅读全文
摘要:Tachyon的配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 1 Tachyon的配置 这里以0
阅读全文
摘要:Tachyon编译部署 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 1、Tachyon编译部署 Tachyon目前的最新发布版为0.7.1,其官方网址为http://tachyon-project.o
阅读全文
摘要:算法说明 协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投、拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选资讯,回应不一定局限于特别感
阅读全文
摘要:算法说明 线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归,在实际情况中大多数都是多元回归。 线性回归(Linear Regression)问题属于监督学习(Supervised Le
阅读全文
摘要:算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常
阅读全文
摘要:不多说,直接上干货! • 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生
阅读全文
摘要:不多说,直接上干货! • 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.passwo
阅读全文
摘要:不多说,直接上干货! Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表 更多参考 http://www.cloudera.com/content/cloudera/en/
阅读全文
摘要:不多说,直接上干货! Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到表和视图。 在其他的数据库中,表都是以
阅读全文
摘要:不多说,直接上干货! 其实,跟hive差不多,大家可以去参考我写的hive学习概念系列。 Impala SQL VS HiveQL 下面是Impala对基础数据类型和扩展数据类型的支持 • 此外,Impala不支持HiveQL以下特性: – 可扩展机制,例如:TRANSFORM、自定义文件格式、自定
阅读全文
摘要:不多说,直接上干货! hive的元数据存储在/user/hadoop/warehouse Impala的内部表也在/user/hadoop/warehouse。 那两者怎么区分,看前面的第一列。 下面是Impala对文件的格式及压缩类型的支持 • 添加分区方式 – 1、partitioned by
阅读全文
摘要:这里, 以后更新。 Impala的安装(含使用CM安装 和 手动安装)(图文详解) Impala的安装(含使用CM安装 和 手动安装)(图文详解) 可以通过下面的链接来访问Impala的监护管理页面: • 查看StateStore – http://node1:25020/ • 查看Catalog
阅读全文
摘要:不多说,直接上干货! 查看帮助文档 刷新整个云数据 去格式化,查询大数据量时可以提高性能 则,效果就跟hive效果一样了。 去格式化时显示列名 指定分隔符 查看对应版本 执行查询文件(常用) 常常把sql语句写到某文件中。 比如vi test.tst 注意,impala是我的数据库,res是这个数据
阅读全文
摘要:Impala有两种安装方式: 1)使用CM安装Impala 2)手动安装Impala 注意:Impala不支持在Debian/Ubuntu, SuSE, RHEL/CentOS 6.5系统中安装。 基于CM的Impala安装 首先在CM端安装Hive,再安装Impala的组件。 Cloudera M
阅读全文
摘要:Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。 与Hive
阅读全文
摘要:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Quer
阅读全文
摘要:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impal
阅读全文
摘要:Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析 分类算法 回归算法 聚类算法 协同过滤 MLlib的实用程序分析 分类算法 回归算法 聚类算法 协同过滤 从架构图可以看出MLlib主要包含三个部分: 底层基础:包括Spark的运行库、矩阵库和向量库; 算法库:包含广
阅读全文
摘要:不多说,因最近科研的需要,为此从hadoop和spark领域,得结合机器学习/深度学习。为此,给大家带来进一步的干货! 1、机器学习概念 1.1 机器学习的定义 1.2 机器学习的分类 1.2.1 监督学习 1.2.2 无监督学习 1.2.3 半监督学习 1.2.4 强化学习 1.3 机器学习的常见
阅读全文
摘要:storage是存储系统,可以是一个普通file,也可以是HDFS,HIVE,HBase,分布式存储等。 Master是管理协调Agent和Collector的配置等信息,是flume集群的控制器。
阅读全文
摘要:Collector的作用是将多个Agent的数据汇总后,加载到Storage中。它的source和sink与agent类似。 数据源(source),如: collectorSource[(port)]:Collector source,监听端口汇聚数据。 autoCollectorSource:通
阅读全文
摘要:Flume的sink console[("format")] :直接将将数据显示在consolr上。 text(“txtfile”):将数据写到文件txtfile中。 dfs(“dfsfile”):将数据写到HDFS上的dfsfile文件中。 syslogTcp(“host”,port):将数据通过
阅读全文
摘要:Flume NG传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。
阅读全文
摘要:Flume的Agent text(“filename”):将文件filename作为数据源,按行发送 tail(“filename”):探测filename新产生的数据,按行发送出去 fsyslogTcp(5140):监听TCP的5140端口,并且接收到的数据发送出去 tailDir(“dirnam
阅读全文
摘要:Channel:是一个存储地,接收source的输出,直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。
阅读全文
摘要:Source:从Client收集数据,传递给Channel。 可以接收外部源发送过来的数据。 不同的 source,可以接受不同的数据格式。 比如有目录池(spooling directory)数据源,可以监控指定文件夹中的新文件变化,如果目录中有文件产生,就会立刻读取其内容。
阅读全文
摘要:Client:生产数据,运行在一个独立的线程。
阅读全文
摘要:Event:一条数据 Client:生产数据,运行在一个独立的线程。 Agent (1)Sources、Channels、Sinks (2)其他组件:Interceptors、Channel Selectors、Sink Processor。
阅读全文
摘要:Flume的可管理性 所有agent和Collector由master统一管理,这使得系统便于维护。 多master情况,Flume利用 ZooKeeper和gossip,保证动态配置数据的一致性。 用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动 态加载。 Fl
阅读全文
摘要:Flume的可扩展性:Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和 collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避 免了单
阅读全文
摘要:Flume的可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to- end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。), Store on failur
阅读全文
摘要:data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。 数据的采集的流向!如下图所示。
阅读全文
摘要:问题详情 在运行mahout中kmeans算法时,采取的是其默认输入路径/user/hadoop/testdata 和 默认输出路径/user/hadoop/output。 当然,你也可以用自定义的输入路径 然后,出现如下问题: 解决办法 说明你的默认输入路径或自定义输入路径下的数据源被损坏或不完全
阅读全文
摘要:继续 http://www.tuicool.com/articles/rmiEz2 http://www.cnblogs.com/jchubby/p/4454888.html
阅读全文
摘要:我目前,收录经常用的是,这两个版本,这个根据博主我本人的经验之谈,最为稳定和合理的。 注意:我的本地路径是在D:/SoftWare/maven/repository,大家自己改为你们自己的即可。 优先用这个(推荐版本1) 推荐版本2
阅读全文
摘要:不多说,直接上干货! Mahout作为Apache基金会的顶级项目之一,Mahout的应用也极其广泛,一般分为商业应用和学术应用。 在商业应用中,Adobe AMP公司使用Mahout的聚类算法把用户区分为不同的圈子,通过精确定位营销来增加客户。Amazon的个人推荐平台也是使用Mahout的算法库
阅读全文
摘要:问题描述详情: 无论你的问题是3.0还是3.1还是任何一个版本,则都可以通过以下版本来解决 解决办法: 把默认的Internal JRE改成了JAVA_HOME。 运行后成功了,截图如下:
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 3.1 Broker Configs The essential configurations are the following: broker.id log.dirs zookeeper.connect broker.id log.dirs zookeepe
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 3. CONFIGURATION 3.1 Broker Configs 3.2 Producer Configs 3.3 Consumer Configs 3.3.1 New Consumer Configs 3.3.2 Old Consumer Configs
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2.5 Legacy APIs A more limited legacy producer and consumer api is also included in Kafka. These old Scala APIs are deprecated and
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2.4 Connect API The Connect API allows implementing connectors that continually pull from some source data system into Kafka or pus
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2.3 Streams API The Streams API allows transforming streams of data from input topics to output topics. Examples showing how to use
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2.2 Consumer API The Consumer API allows applications to read streams of data from topics in the Kafka cluster. Examples showing ho
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2.1 Producer API The Producer API allows applications to send streams of data to topics in the Kafka cluster. Examples showing how
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 2. APIS Kafka includes four core apis: The Producer API allows applications to send streams of data to topics in the Kafka cluster.
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 1.5 Upgrading From Previous Versions Upgrading from 0.8.x, 0.9.x, 0.10.0.x or 0.10.1.x to 0.10.2.0 从0.8.x, 0.9.x 或 0.10.0.X 升级到 0.1
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 1.4 Ecosystem There are a plethora of tools that integrate with Kafka outside the main distribution. The ecosystem page lists many
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 8: Use Kafka Streams to process data Kafka Streams is a client library of Kafka for real-time stream processing and analyzing
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 7: Use Kafka Connect to import/export data Writing data from the console and writing it back to the console is a convenient pl
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 6: Setting up a multi-broker cluster So far we have been running against a single broker, but that's no fun. For Kafka, a sing
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 5: Start a consumer Kafka also has a command line consumer that will dump out messages to standard output. If you have each of
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 4: Send some messages Kafka comes with a command line client that will take input from a file or from standard input and send
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 3: Create a topic Let's create a topic named "test" with a single partition and only one replica: We can now see that topic if
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Step 2: Start the server Kafka uses ZooKeeper so you need to first start a ZooKeeper server if you don't already have one. You can
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 不要局限于,这个版本,我只是以最新的版本,来做个引子,让大家对官网的各个kafka版本懂得如何独立去看。 over
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Commit Log Kafka can serve as a kind of external commit-log for a distributed system. The log helps replicate data between nodes an
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Event Sourcing Event sourcing is a style of application design where state changes are logged as a time-ordered sequence of records
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Stream Processing Many users of Kafka process data in processing pipelines consisting of multiple stages, where raw input data is c
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Log Aggregation Many people use Kafka as a replacement for a log aggregation solution. Log aggregation typically collects physical
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Metrics Kafka is often used for operational monitoring data. This involves aggregating statistics from distributed applications to
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Website Activity Tracking The original use case for Kafka was to be able to rebuild a user activity tracking pipeline as a set of r
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Messaging Kafka works well as a replacement for a more traditional message broker. Message brokers are used for a variety of reason
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Putting the Pieces Together This combination of messaging, storage, and stream processing may seem unusual but it is essential to K
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Kafka for Stream Processing It isn't enough to just read, write, and store streams of data, the purpose is to enable real-time proc
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Kafka as a Storage System Any message queue that allows publishing messages decoupled from consuming them is effectively acting as
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Kafka as a Messaging System How does Kafka's notion of streams compare to a traditional enterprise messaging system? Messaging trad
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Guarantees At a high-level Kafka gives the following guarantees: Messages sent by a producer to a particular topic partition will b
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Consumers Consumers label themselves with a consumer group name, and each record published to a topic is delivered to one consumer
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Producers Producers publish data to the topics of their choice. The producer is responsible for choosing which record to assign to
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Distribution The partitions of the log are distributed over the servers in the Kafka cluster with each server handling data and req
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Topics and Logs Let's first dive into the core abstraction Kafka provides for a stream of records—the topic. A topic is a category
阅读全文
摘要:不多说,直接上干货! 一切来源于官网 Apache Kafka™ is a distributed streaming platform. What exactly does that mean? We think of a streaming platform as having three ke
阅读全文
摘要:看kafka消费者信息? 进入cd $ZOOKEEPER_HOME/bin下。
阅读全文
摘要:什么是kafka同步生产者,什么是kafka异步生产者? 比如这里某个topic有3个分区。 kafka同步生产者:这个生产者写一条消息的时候,它就立马发送到某个分区去。 kafka异步生产者:这个生产者写一条消息的时候,先是写到某个缓冲区,这个缓冲区里的数据还没写到broker集群里的某个分区的时
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) Flume Sink Processors官网剖析(博主推荐) Ev
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) Flume Sink Processors官网剖析(博主推荐) 一切
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) 一切来源于flume官网 Flume Sink Processors
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) 一切来源于flume官网 Flume Sinks HDFS Sink Hive Sink Logger Sink
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) 一切来源于flume官网 Flume Channel Selectors Replicating Channel Selector (default) Multiplexing C
阅读全文
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) 一切来源于flume官网 Flume Channels Memory Channel JDBC Channel Kafka Channel File Channel Spillable Memory Channel Pseudo
阅读全文
摘要:不多说,直接上干货! 一切来源于flume官网 Flume Sources Avro Source Thrift Source Exec Source JMS Source Converter Spooling Directory Source Event Deserializers LINE AV
阅读全文
摘要:进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了。 先给大家来梳理下。spark的运行模式和常用的standalone、yarn部署。这里不多赘述,自行点击去扩展。 1、Spark运行模式概述 2、Spark standalone模式的安装(spark-1.6.1-bin-ha
阅读全文
摘要:好久一直使用默认工作空间。现在,回过头来想让那个提示框回来。 该如何做呢? 1、找到我们的myeclipse安装目录下的 2、false是关闭。 3、改成true 4、同时,新增新的工作区间和之前旧的工作区间,并行选择。注意之间用\n分隔开。 4、重新启动myeclipse 成功! 欢迎大家,加入我
阅读全文
摘要:说白了,这个很简单! 见 -bash : ** : command not found的问题解决(图文详解)
阅读全文
摘要:问题来源 我不小心,配置错了,少了个export和PATH没配对。 source /etc/profile 之前一定要留心,否则出错让你后悔去! 问题导致现象1 问题导致现象2 解决办法 按e键,进入 再按e键,选择kernel选项 再按e,输入single 输入“singel“ 或者是“1“”,又
阅读全文
摘要:进程情况 问题 解决办法 分布式集群HBase启动后某节点的HRegionServer自动消失问题
阅读全文
摘要:Solr 读数据流程: 1、用户提供搜索关键词,也就是搜索语句,需要经过分词器处理以及语言处理。 2、对处理之后的关键词,搜索索引找出对应Document 即记录。 3、用户根据需要从找到的Document中提取需要的Field字段。
阅读全文
摘要:Solr 写数据流程: 1、源字符串首先经过分词器处理,包括:拆分词以及去除stopword。 2、然后经过语言处理,包括大小写转换以及单词转换。 3、将源数据中需要的信息加入到Document中的各个Field字段中,并把需要索引的Field字段索引起来,同时把需要存储的Field字段存储起来。然
阅读全文
摘要:solr索引创建流程: 分词组件Tokenizer 分词组件(Tokenizer)会做以下几件事情(这个过程称为:Tokenize),处理得到的结果是词汇单元(Token)。 1、将文档分成一个一个单独的单词。 2、去除标点符号。 3、去除停词(stop word)。 语言处理组件 语言处理组件(l
阅读全文
摘要:正排索引(正向索引):正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 正排表结构如图1所示,这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建
阅读全文
摘要:Solr 核心组成就是:SolrHome 和 SolrCore。 SolrHome:SolrHome是Solr运行的主目录,该目录可以包含多个solrcore目录。 SolrCore:每个solrcore相互独立,可以单独对外提供搜索和索引服务;Solr实例就是一个solrcore目录,包含运行so
阅读全文
摘要:1.基于标准的开放接口:Solr搜索服务器支持通过XML、JSON和HTTP查询和获取结果。 2.易管理:Solr可以通过HTML页面管理,Solr配置通过XML完成。 3.可伸缩性:能够有效地复制到另外一个Solr搜索服务器。 4.灵活的插件体系:新功能能够以插件的形式方便的添加到Solr服务器上
阅读全文
摘要:在大型的SQL数据库上很难执行高速的查询有Solr是Apache 下的一个开源项目,使用Java基于Lucene开发的全文检索服务; 它是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;
阅读全文
摘要:前期博客 kibana-4.6.3-linux-x86_64.tar.gz的下载(图文详解) 因为,我的机器情况是如下: 1、上传 2、解压 3、删除压缩包和赋予用户组和用户权限 4、为了后续灵活多变,使用多版本(想变成高手的实力必备),创建软链接 大数据各子项目的环境搭建之建立软连接(博主推荐)
阅读全文
摘要:问题状况表现1 这个问题一般是你 的什么配置影响了虚拟机的网卡网关设置!!!。 问题状况表现2 这个问题一般是你 的什么配置影响了虚拟机的网卡网关设置。 解决办法 网上的那些解决方案,我都试过,比如。 http://blog.csdn.net/fengasdfgh/article/details/6
阅读全文
摘要:详细问题 我这里是,我的这个slave1的HRegionServer 进程启动后,不久自动消失。 去查看日志,排查问题: 发现问题: 解决办法 重新启动hbase 成功! 我还查看到网上的其他博客说,是否是hbase-site.xml配置文件多写或漏写,当然,你们可以去参考,我这里也把自己的这个配置
阅读全文
摘要:Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上。 所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行。 同时,比如我这里的master、slave1和slave2组成的hadoop集群。hive的安装可以安装在任一一个节点上,当然,也可以安装在集群之外,取
阅读全文
摘要:建立软连接,好处可以处理多个版本的需要,方便环境变量的配置。相当于windows下的快捷方式! 博主,我这里以jdk为例,对于大数据的其他子项目的搭建,一样的操作。方便!这里我不多赘述。 如何建立jdk1.7版本的软链接? 如何删除建立好的软链接? 如何建立jdk1.8版本的软链接? 成功! 补充
阅读全文
摘要:不多说,直接上干货! TeamViewr是远程支持、远程访问、在线协作和会议软件。 分为从windows7、CentOS6.5和Ubuntu14.04(64bit) 系统来详解下载、安装和初步使用! 官网上下载(各种操作系统和APP都应有尽有) 一、windows7下安装TeamViewr 然后,过
阅读全文
摘要:最近正在学习机器学习和深度学习,需要python,大家都知道,它是这些领域的入门语言,不多说,直接上干货!突然发现python比java好玩多了 下面就开始python的安装以及测试,python2.7.11为例。(注意这里,我安装的是32位的。建议大家用python3.4的64位!!) 关于它的编
阅读全文
摘要:不多说,直接上干货! 首先谈及这款软件,博主我用的理由:搞机器学习和深度学习! 想学习Python的同学们,在这里隆重介绍一款 Python 的开发工具 pyCharm IDE。这是我最喜欢的 Python编辑器利器。而且还是跨平台的,在MAC OS和Windows下面都能安装。接下来就和大家分享下
阅读全文
摘要:不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 图 DataFrame与RDD的区别 从上面的图中可以看
阅读全文
摘要:Spark SQL基本原理 1、Spark SQL模块划分 2、Spark SQL架构--catalyst设计图 3、Spark SQL运行架构 4、Hive兼容性 1、Spark SQL模块划分 Spark SQL模块划分为Core、caralyst、hive和hive- ThriftServer
阅读全文
摘要:前期博客 你可以按照我写的这篇博客去,按照hive的mysql。 1 复习ha相关 + weekend110的hive的元数据库mysql方式安装配置(完全正确配法)(CentOS版本)(包含卸载系统自带的MySQL) 出现如下问题 ERROR 1045 (28000): Access denied
阅读全文
摘要:http://www.cnblogs.com/braveym/p/5854703.html
阅读全文
摘要:问题 好像跟平时的理解不一样,外边是0,进去就是有大小了? 答:hdfs具体文件是针对具体文件的,不是文件目录。 文件夹大小为0,不是里面所有内容为0。
阅读全文
摘要:为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 参考 手工释放linux内存——/proc/sys/vm/drop_cache http://www.linuxidc.com/Linux/2010-
阅读全文
摘要:Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的! Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构化数据源,可以让你
阅读全文
摘要:不多说,直接上干货! Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式, 考虑到大数据处理的特性,一般会优先使用Scala进行编程,其次是Python,最后才是Java。 无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型,
阅读全文
摘要:Spark存储管理机制 概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述 思考: RDD,我们可以直接使用而无须关心它的实现细节,RDD是Spark的基础,但是有个问题大家也许会比较关心:RDD所操作的数据究竟在哪里?它是如何存储
阅读全文
摘要:不多说,直接上干货! spark-submit在哪个位置 打包Spark application 将Spark application打成assemblyed jar。我们都知道,其实我们写好的一个Spark application,它除了spark本身的jar包和hdfs的jar包之外,它还有第三
阅读全文
摘要:不多说,直接上干货! REPL Read-Eval-Print-Loop,即交互式shell,以交互式方式来编程。 那么,什么是REPL呢,如下就是 Spark REPL (scala) (python) (其他) 这里不多说 Spark shell Spark的scala REPL,支持使用sca
阅读全文
摘要:很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理 概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述
阅读全文
摘要:不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式。 master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g (在spark-env.sh) 其实这个问题解决办法很简单
阅读全文
摘要:问题详情: 系统键 + R键,运行 再输入regedit HKEY_CLASSES_ROOT\.docx HKEY_CLASSES_ROOT\Word.Document.12 HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Ex
阅读全文
摘要:参考博客 Cloudera Manager安装之利用parcels方式安装单节点集群 Cloudera Manager安装之Cloudera Manager 5.3.X安装(三)(tar方式、rpm方式和yum方式) ClouderManager官网的安装历史稳定版 说在前面的话(看清楚就好!!!)
阅读全文
摘要:不多说,直接上干货! 福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 前
阅读全文
摘要:不多说,直接上干货! 福利每天都有 => =>=>=>=> 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiu
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege 前期博客 Clouder
阅读全文
摘要:Cloudera Manager安装前准备 (一)机器准备 192.168.80.148 clouderamanager01 (部署ClouderaManager-server和Mirror server) (部署Agent) (分配1G,我这里只是体验过程,当然你可以分配更多或更小) 192.16
阅读全文
摘要:不多说,直接上干货! cloudera manager的核心是管理服务器,该服务器承载管理控制台的Web服务器和应用程序逻辑,并负责安装软件,配置,启动和停止服务,以及管理上的服务运行群集。 Cloudera Manager Server由以下几个部分组成: Agent:安装在每台主机上。该代理负责
阅读全文
摘要:简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 cloudera manager有四大功能: (1)管理:对集群进行管理,如添加
阅读全文
摘要:本博文主要内容有 1、kmeans算法简介 2、kmeans执行过程 3、关于查看mahout中聚类结果的一些注意事项 4、kmeans算法图解 5、mahout的kmeans算法实现原理 6、kmeans算法运行时参数介绍 7、使用mahout自带的fpg算法来对我们的测数据retail.dat进
阅读全文
摘要:mahout算法库 分为三大块 1、聚类算法 2、协同过滤算法(一般用于推荐) 协同过滤算法也可以称为推荐算法!!! 3、分类算法 算法类 算法名 中文名 分类算法 Logistic Regression 逻辑回归 Bayesian 贝叶斯 Support Vector Machines 支持向量机
阅读全文
摘要:http://archive.ics.uci.edu/ml/databases/synthetic_control/ 继续
阅读全文
摘要:不多说,直接上干货! 首先,别在windows下搭建什么,安装什么Cygwin啊!直接在linux,对于企业里推荐用CentOS6.5,在学校里用Ubuntu。 Mahout安装所需软件清单: 软件 版本 说明 操作系统 CentOS6.5 64位 JDK jdk1.7.0_79 Hadoop 2.
阅读全文
摘要:mahout的特性 虽然在开源领域中相对较为年轻,但 Mahout 已经提供了大量功能,特别是在集群和CF 方面。 Mahout 的主要特性包括: Taste CF。Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF 的开源项目,并在 2008 年被赠予 Maho
阅读全文
摘要:mahout历史 Apache Mahout起源于2008年,经过两年的发展,2010年4月ApacheMahout最终成为了Apache的顶级项目。Mahout 项目是由 ApacheLucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其
阅读全文
摘要:不多说,直接上干货! http://mahout.apache.org/ Mahout是Apache Software Foundation(ASF)旗下的一个开源项目。 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout包含许多实现,包括聚类
阅读全文