随笔分类 - [89]Big Data
-
集群hadoop ubuntu版
摘要:搭建ubuntu版hadoop集群 用到的工具:VMware、hadoop-2.7.2.tar、jdk-8u65-linux-x64.tar、ubuntu-16.04-desktop-amd64.iso 1、 在VMware上安装ubuntu-16.04-desktop-amd64.iso 单击“创 阅读全文
-
Spark分布式执行原理
摘要:Spark分布式执行原理 让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。 Spar 阅读全文
-
Windows平台下安装Eclipse插件,开发Hadoop应用
摘要:Windows平台下安装Eclipse插件,开发Hadoop应用 欢迎和大家交流技术相关问题:邮箱: jiangxinnju@163.com博客园地址: http://www.cnblogs.com/jiangxinnjuGitHub地址: https://github.com/jiangxinco 阅读全文
-
业务架构
摘要:大数据实际应用及业务架构 大数据实际应用及业务架构 一、外部数据源《集团内部数据》客户信息产品信息供应商信息《第三方数据》公众号信息BAT数据电信数据营销知识库ERPAppAPI 二、数据采集数据实时采集器(外部数据进入)从调查、第一步、第二部、。。。成交。。。会员经营等阶段收集数据 三、大数据存储 阅读全文
-
Hadoop 2.x
摘要:Hadoop 2.x 生态系统及技术架构图 一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二、负责存储数据的工具:HBaseMongoDBCassandraAccumulo MySqlOr 阅读全文
-
Spark Streaming+Kafka
摘要:Spark Streaming+Kafka 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark 阅读全文
-
ELK+FileBeat+Log4Net
摘要:ELK+FileBeat+Log4Net搭建日志系统 ElasticSearch配置 默认不需要配置,监听9200端口。直接运行即可 Kibana配置 elasticsearch.url: "http://localhost:9200"默认连接es地址,如果本机测试无需修改。正式环境中连接到对应服务 阅读全文
-
Kafka是分布式发布-订阅消息系统
摘要:Kafka是分布式发布-订阅消息系统 https://www.biaodianfu.com/kafka.html Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活 阅读全文
-
thrift的lua
摘要:thrift的lua实现 最近要进行系统升级,后台的数据是根据城市区分的。担心新系统的稳定性及新数据的准确性,计划部分城市采用新接口。接口的入参里没有城市信息,只有经纬度坐标,需要调用一个thrift接口来根据坐标获取城市信息。 如果直接修改代码逻辑,则会造成新旧版本的耦合,不仅完全上线时要再次修改 阅读全文
-
Hadoop Yarn on Docker
摘要:搭建Hadoop Yarn on Docker 一、概览 Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机。Docker Container Executor(DCE)使得Yarn NodeManager服务可以将其container进程运行在Dock 阅读全文
-
大数据的四大特点
摘要:第一, 数据容量大(Volume)。从TB级别,跃升到PB级别; 第二, 数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。 第三, 商业价值高(Value 阅读全文
-
从Oracle到Elasticsearch
摘要:自己写的数据交换工具——从Oracle到Elasticsearch 自己写的数据交换工具——从Oracle到Elasticsearch 先说说需求的背景,由于业务数据都在Oracle数据库中,想要对它进行数据的分析会非常非常慢,用传统的数据仓库-->数据集市这种方式,集市层表会非常大,查询的时候如果 阅读全文
-
Kafka深度解析
摘要:Kafka深度解析 原创文章,转载请务必将下面这段话置于文章开头处(保留超链接)。本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设 阅读全文
-
Kakfa
摘要:Kakfa分布式集群搭建 本位以最新版本kafka_2.11-0.10.1.0版本讲述分布式kafka集群环境的搭建过程。服务器列表: 1 2 3 172.31.10.1 172.31.10.2 172.31.10.3 1 2 3 172.31.10.1 172.31.10.2 172.31.10. 阅读全文
-
百亿级数据处理量的弹性调度容器平台
摘要:百亿级数据处理量的弹性调度容器平台 一、数据处理业务场景 首先介绍一下七牛数据处理业务的背景。七牛云目前平台上有超过 50 万家企业客户,图片超过 2000 亿张,累积超过 10 亿小时的视频。 用户把这些图片和视频存储在七牛上后会有一些数据处理方面的需求,如缩放、裁剪、水印等。 这些文件持续在线且 阅读全文
-
Hive是什么!
摘要:Hive是什么! 一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识。那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料。第三个 阅读全文
-
Kafka与Logstash的数据采集
摘要:Kafka与Logstash的数据采集 基于Logstash跑通Kafka还是需要注意很多东西,最重要的就是理解Kafka的原理。 Logstash工作原理 由于Kafka采用解耦的设计思想,并非原始的发布订阅,生产者负责产生消息,直接推送给消费者。而是在中间加入持久化层——broker,生产者把数 阅读全文
-
问答系统
摘要:知识库上的问答系统:实体、文本及系统观点 编者:本文来自复旦大学博士崔万云在携程技术中心主办的深度学习Meetup上的主题演讲,分享了复旦大学研发的基于知识图谱的QA系统。关注携程技术中心微信公号ctriptech,可获知更多技术分享信息。文末可下载演讲PPT。 QA系统用于回答人们以自然语言形式提 阅读全文
-
Apache Spark2.0正式发布
摘要:Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。 本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark 2.0内 阅读全文
-
Confluent
摘要:Confluent介绍(一) 最开始接触confluent是通过这篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,对于做大数据的,数据的ETL(抽取,转换,装载)是必不可少的。例如,要把传统的关系型数据库中的数据导入到HDFS里 阅读全文