随笔 - 579  文章 - 2 评论 - 35 阅读 - 56万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  大数据/bigdata

大数据,bigdata
大数据---HDFS写入数据的过程(转)
摘要:1. Client 发起文件上传请求, 通过 RPC 与 NameNode 建立通讯, NameNode 检查目标文件是否已存在, 父目录是否存在, 返回是否可以上传 2. Client 请求第一个 block 该传输到哪些 DataNode 服务器上 3. NameNode 根据配置文件中指定的备 阅读全文
posted @ 2020-12-07 11:43 Dufe王彬 阅读(222) 评论(0) 推荐(0) 编辑
时序数据库介绍和使用(转)
摘要:1.基础 1.1 时序数据的定义 什么是时间序列数据(Time Series Data,TSD,以下简称时序)从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。它普遍存在于IT基础设施、 阅读全文
posted @ 2020-11-19 16:25 Dufe王彬 阅读(955) 评论(0) 推荐(0) 编辑
通过漫画轻松掌握HDFS工作原理(转)
摘要:hadoop文件分布式系统(hdfs)client:人们坐在我面前,请求我去读写数据namenode:我只有一个,我来指挥这里所有的事情datanode:我们存储数据,我们很多人,有时候会有几千人 在HDFS集群中写入操作①用户请求: “ 用户:‘让我们写一些数据吧,client先生,请给我写入20 阅读全文
posted @ 2020-11-15 21:05 Dufe王彬 阅读(270) 评论(0) 推荐(0) 编辑
教你如何迅速秒杀掉:99%的海量数据处理面试题(转)
摘要:教你如何迅速秒杀掉:99%的海量数据处理面试题本文经过大量细致的优化后,收录于我的新书《编程之法:面试和算法心得》第六章中,新书目前已上架京东/当当 作者:July出处:结构之法算法之道blog 前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一 阅读全文
posted @ 2019-04-02 13:57 Dufe王彬 阅读(160) 评论(0) 推荐(0) 编辑
Flink架构、原理与部署测试(转)
摘要:Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全 阅读全文
posted @ 2019-03-15 10:51 Dufe王彬 阅读(472) 评论(0) 推荐(0) 编辑
面试小结之Elasticsearch篇(转)
摘要:最近面试一些公司,被问到的关于Elasticsearch和搜索引擎相关的问题,以及自己总结的回答。 Elasticsearch是如何实现Master选举的? Elasticsearch的选主是ZenDiscovery模块负责的,主要包含Ping(节点之间通过这个RPC来发现彼此)和Unicast(单 阅读全文
posted @ 2019-03-04 14:35 Dufe王彬 阅读(270) 评论(0) 推荐(0) 编辑
Elasticsearch之优化
摘要:为什么es需要优化? 答: [root@master elasticsearch-2.4.0]# ulimit -a core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 阅读全文
posted @ 2019-02-28 14:25 Dufe王彬 阅读(247) 评论(0) 推荐(0) 编辑
浅谈分布式消息技术 Kafka(转)
摘要:一只神秘的程序猿。 一只神秘的程序猿。 Kafka的基本介绍 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010 阅读全文
posted @ 2018-10-19 16:19 Dufe王彬 阅读(285) 评论(0) 推荐(0) 编辑
架构之微服务(zookeeper)转
摘要:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些 阅读全文
posted @ 2018-10-18 11:35 Dufe王彬 阅读(293) 评论(0) 推荐(0) 编辑
Zookeeper 3、Zookeeper工作原理(转)
摘要:1、Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 » Observer可以接受客户端连 阅读全文
posted @ 2018-10-18 10:39 Dufe王彬 阅读(174) 评论(0) 推荐(0) 编辑
Zookeeper原理架构
摘要:Zookeeper到底是什么!? 学一个东西,不搞明白他是什么东西,哪还有心情学啊!! 首先,Zookeeper是Apache的一个java项目,属于Hadoop系统,扮演管理员的角色。 然后看到官网那些专有名词,实在理解不了。 那么我们来仔细研究一下这个东西吧! Zookeeper能干嘛?! 1. 阅读全文
posted @ 2018-10-11 17:34 Dufe王彬 阅读(319) 评论(0) 推荐(0) 编辑
Etcd源码解析(转)
摘要:7 Etcd服务端实现 7.1 Etcd启动 Etcd有多种启动方式,我们从最简单的方式入手,也就是从embed的etcd.go开始启动,最后会启动EtcdServer。 先看看etcd.go中的启动代码: func StartEtcd(inCfg *Config) (e *Etcd, err er 阅读全文
posted @ 2018-08-06 17:48 Dufe王彬 阅读(868) 评论(0) 推荐(0) 编辑
Tensorflow 教程系列 | 莫烦Python
摘要:Tensorflow 简介 1.1 科普: 人工神经网络 VS 生物神经网络 1.2 什么是神经网络 (Neural Network) 1.3 神经网络 梯度下降 1.4 科普: 神经网络的黑盒不黑 1.5 为什么选 Tensorflow? 1.6 Tensorflow 安装 1.7 神经网络在干嘛 阅读全文
posted @ 2018-07-14 21:19 Dufe王彬 阅读(286) 评论(0) 推荐(0) 编辑
Tesseract-OCR4.0版本在VS2015上的编译与运行(转)
摘要:最近刚开始接触识别库引擎方面的知识,由于项目中需要使用光学识别处理模块,在老师与朋友的推荐下,我开始接触tesseract光学识别库,在最开始从GitHub上下载的源代码进行编译的时候,出现了许多意想不到的问题,为了先完成项目,我借鉴相关博客上针对tesseract3.04以下版本在VS2013上的 阅读全文
posted @ 2018-05-20 16:39 Dufe王彬 阅读(488) 评论(0) 推荐(0) 编辑
TensorFlow实战——个性化推荐
摘要:原创文章,转载请注明出处: http://blog.csdn.net/chengcheng1394/article/details/78820529 请安装TensorFlow1.0,Python3.5 项目地址: https://github.com/chengstone/movie_recomm 阅读全文
posted @ 2018-03-15 18:00 Dufe王彬 阅读(1820) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示