大数据与云计算 - 随笔分类(第4页) - 一天不进步，就是退步

HBASE+Solr实现详单查询--转

摘要：原文地址：https://mp.weixin.qq.com/s?srcid=0831kfMZgtx1sQbzulgeIETs&scene=23&mid=2663994161&sn=cee222a8534cbc6e28c401706e979dc0&idx=1&__biz=MzA3ODUxMzQxMA% 阅读全文

posted @ 2017-08-31 13:16 一天不进步，就是退步阅读(1057) 评论(0) 推荐(0) 编辑

kettle、Oozie、camus、gobblin

摘要：kettle简介 http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply1.html Oozie介绍 http://blog.csdn.net/john_f_lau/article/details/18972607 camu 阅读全文

posted @ 2017-08-25 17:03 一天不进步，就是退步阅读(534) 评论(0) 推荐(0) 编辑

hive表信息查询：查看表结构、表操作等--转

摘要：原文地址：http://www.aboutyun.com/forum.PHP?mod=viewthread&tid=8590&highlight=Hive 问题导读：1.如何查看hive表结构？2.如何查看表结构信息？3.如何查看分区信息？4.哪个命令可以模糊搜索表？1.hive模糊搜索表 show 阅读全文

posted @ 2017-06-21 14:32 一天不进步，就是退步阅读(21758) 评论(0) 推荐(0) 编辑

Lucene的评分(score)机制研究

摘要：首先，需要学习Lucene的评分计算公式—— 分值计算方式为查询语句q中每个项t与文档d的匹配分值之和，当然还有权重的因素。其中每一项的意思如下表所示：表3.5 评分公式中的因子评分因子描述 tf(t in d) 项频率因子——文档（d)中出现项（t)的频率 idf(t) 项在倒排文档中出现阅读全文

posted @ 2016-12-09 17:20 一天不进步，就是退步阅读(2304) 评论(1) 推荐(0) 编辑

用实例讲解Spark Sreaming--转

摘要：原文地址：http://www.infoq.com/cn/articles/spark-sreaming-practice 本篇文章用Spark Streaming ＋Hbase为列，Spark Streaming专为流式数据处理，对Spark核心API进行了相应的扩展。什么是Spark Stre 阅读全文

posted @ 2016-05-13 09:12 一天不进步，就是退步阅读(5972) 评论(0) 推荐(0) 编辑

solrcloud使用中遇到的问题及解决方式

摘要：首先声明，我们团队在使用solrcloud过程中踩了一些坑，同事(晓磊和首富)进行了总结，我列到我的博客上做记录用： Q：为什么Solr里面的时间比数据库里面早8小时? Solr默认采用的时区是UTC时区，而DB中用的则是CST时区，这两个时区本身就相差了8个小时。可以通过修改Solr启动配置SOL 阅读全文

posted @ 2016-03-04 11:25 一天不进步，就是退步阅读(10274) 评论(0) 推荐(1) 编辑

An In-Depth Look at the HBase Architecture--转载

摘要：原文地址：https://www.mapr.com/blog/in-depth-look-hbase-architecture In this blog post, I’ll give you an in-depth look at the HBase architecture and its ma 阅读全文

posted @ 2016-01-28 17:44 一天不进步，就是退步阅读(629) 评论(0) 推荐(0) 编辑

zookeeper应用实例

摘要：创建持久节点和临时节点ZooKeeper zk=new ZooKeeper(HOST,CLIENT_SESSION_TIMEOUT,new Watcher(){ @Override public void process(WatchedEvent even... 阅读全文

posted @ 2016-01-13 15:23 一天不进步，就是退步阅读(643) 评论(0) 推荐(0) 编辑

25个Java机器学习工具&库--转载

摘要：本列表总结了25个Java机器学习工具&库：1.Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具，如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis（MOA）是一个面... 阅读全文

posted @ 2015-12-29 21:17 一天不进步，就是退步阅读(439) 评论(0) 推荐(0) 编辑

hadoop跑第一个实例过程

摘要：第一次跑hadoop实例，中间经过了不少弯路，特此记录下来：第一步：建立一个maven过程，pom.xml文件：(打包为jar包) org.apache.hadoop hadoop-client 2.7.0第二步：创建一个WordCount(从官网上copy)：import... 阅读全文

posted @ 2015-12-25 15:33 一天不进步，就是退步阅读(6246) 评论(0) 推荐(0) 编辑

Using the command line to manage files on HDFS--转载

摘要：原文地址：http://zh.hortonworks.com/hadoop-tutorial/using-commandline-manage-files-hdfs/In this tutorial we will walk through some of the basic HDFS comman... 阅读全文

posted @ 2015-12-24 20:02 一天不进步，就是退步阅读(269) 评论(0) 推荐(0) 编辑

hadoop命令帮助

摘要：安装完hadoop后，在hadoop的bin目录下有一系列命令：container-executor hadoop hadoop.cmd hdfs hdfs.cmd mapred mapred.cmd rcc test-container-executor yarn yarn.c... 阅读全文

posted @ 2015-12-24 19:57 一天不进步，就是退步阅读(1900) 评论(0) 推荐(0) 编辑

windows下spark开发环境配置

摘要：--本篇随笔由同事葛同学提供。windows下spark开发环境配置特注：windows下开发spark不需要在本地安装hadoop，但是需要winutils.exe、hadoop.dll等文件，前提是你已经安装了eclipse、maven、jdk等软件spark支持jdk版本建议是1.8及以上，如... 阅读全文

posted @ 2015-12-23 14:39 一天不进步，就是退步阅读(48688) 评论(1) 推荐(0) 编辑

HDFS 原理、架构与特性介绍--转载

摘要：原文地址：http://www.uml.org.cn/sjjm/201309044.asp本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制1：当前HDFS架构详尽分析HDFS架构1、NameNode2、DataNode3、Sencondary Name... 阅读全文

posted @ 2015-12-03 08:54 一天不进步，就是退步阅读(14291) 评论(0) 推荐(2) 编辑

hadoop和spark搭建记录

摘要：因玩票需要，使用三台搭建spark(192.168.1.10,192.168.1.11,192.168.1.12)，又因spark构建在hadoop之上，那么就需要先搭建hadoop。历经一个两个下午，终于搭建完成，特记录如下。准备工作1. jdk已经安装。2. 文件下载 http://pan.ba... 阅读全文

posted @ 2015-12-01 20:39 一天不进步，就是退步阅读(739) 评论(0) 推荐(0) 编辑

zookeeper源码分析之六session机制

摘要：zookeeper中session意味着一个物理连接，客户端连接服务器成功之后，会发送一个连接型请求，此时就会有session 产生。 session由sessionTracker产生的，sessionTracker的实现有SessionTrackerImpl，LocalSessionTracker 阅读全文

posted @ 2015-12-01 14:18 一天不进步，就是退步阅读(4371) 评论(0) 推荐(1) 编辑

zookeeper源码分析之五服务端(集群leader)处理请求流程

摘要：leader的实现类为LeaderZooKeeperServer，它间接继承自标准ZookeeperServer。它规定了请求到达leader时需要经历的路径： PrepRequestProcessor -> ProposalRequestProcessor ->CommitProcessor -> 阅读全文

posted @ 2015-11-29 16:48 一天不进步，就是退步阅读(2694) 评论(0) 推荐(1) 编辑

zookeeper源码分析之四服务端(单机)处理请求流程

摘要：上文： zookeeper源码分析之一服务端启动过程中，我们介绍了zookeeper服务器的启动过程，其中单机是ZookeeperServer启动，集群使用QuorumPeer启动，那么这次我们分析各自一下消息处理过程：前文可以看到在 1.在单机情况下NettyServerCnxnFactory 阅读全文

posted @ 2015-11-28 12:53 一天不进步，就是退步阅读(4414) 评论(0) 推荐(1) 编辑

zookeeper源码分析之三客户端发送请求流程

摘要：znode 可以被监控，包括这个目录节点中存储的数据的修改，子节点目录的变化等，一旦变化可以通知设置监控的客户端，这个功能是zookeeper对于应用最重要的特性，通过这个特性可以实现的功能包括配置的集中管理，集群管理，分布式锁等等。知识准备： zookeeper定义的状态有：事件定义的的类型有阅读全文

posted @ 2015-11-27 15:57 一天不进步，就是退步阅读(3895) 评论(0) 推荐(0) 编辑

solr服务器的查询过程

摘要：SolrDispatchFilter的作用This filter looks at the incoming URL maps them to handlers defined in solrconfig.xml将请求的url映射到solrconfig.xml定义的handler上。该过滤器的doF... 阅读全文

posted @ 2015-11-23 16:19 一天不进步，就是退步阅读(1342) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据与云计算