随笔分类 - [89]Big Data
-
隐马尔可夫模型HMM
摘要:隐马尔可夫模型HMM的探究 1 HMM基本概念1.1 定义1.2 观测序列生成过程1.3 HMM的三个问题2 概率计算算法2.1 直接计算算法2.2 前向算法forward algorithm2.3 后向算法2.4 一些概率与期望值的计算3 学习算法3.1 监督学习3.2 非监督学习——Baum-W 阅读全文
-
监控平台
摘要:Spring Boot Actutaur + Telegraf + InFluxDB + Grafana 完成一套精准,漂亮图形化监控系统从这里开始第一步 Telegraf是收集和报告指标和数据的代理 它是TICK堆栈的一部分,是一个用于收集和报告指标的插件驱动的服务器代理。Telegraf拥有插件 阅读全文
-
大数据Hadoop-1
摘要:大数据Hadoop学习之搭建hadoop平台(2.2) 关于大数据,一看就懂,一懂就懵。 一、概述 本文介绍如何搭建hadoop分布式集群环境,前面文章已经介绍了如何搭建hadoop单机环境和伪分布式环境,如需要,请参看:大数据Hadoop学习之搭建hadoop平台(2.1)。hadoop独立环境和 阅读全文
-
大数据Hadoop-2
摘要:大数据Hadoop学习之搭建Hadoop平台(2.1) 关于大数据,一看就懂,一懂就懵。 大数据的发展也有些年头了,如今正走在风口浪尖上,作为小白,我也来凑一份热闹。 大数据经过多年的发展,有着不同的实现方案和分支,不过,要说大数据实现方案中的翘楚,那就是Hadoop了,因其开源、稳定等因素,受到了 阅读全文
-
大数据分析中Redis应用
摘要:大数据分析中Redis 大数据时代,海量数据分析就像吃饭一样,成为了我们每天的工作。为了更好的为公司提供运营决策,各种抖机灵甚至异想天开的想法都会紧跟着接踵而来!业务多变,决定了必须每天修改系统,重新跑数据,这就要求极高的海量数据读取和存储速度! 公司每天增加几亿行的业务日志数据,我们需要从中分析出 阅读全文
-
大数据平台的数据源
摘要:大数据平台的数据源 大数据平台是一个整体的生态系统,内容涵盖非常丰富,涉及到大数据处理过程的诸多技术。在这些技术中,除了一些最基础的平台框架之外,针对不同的需求场景,也有不同的技术选择。这其中,显然有共性与差异性的特征。若从整个开发生命周期的角度看,无论是需求、架构,还是开发、测试到最后的部署与运维 阅读全文
-
大数据平台的数据采集
摘要:大数据平台的数据采集 数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了。 在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体 阅读全文
-
Logstash
摘要:Elasticsearch的基友Logstash Logstash 是一款强大的数据处理工具,它可以实现数据传输,格式处理,格式化输出,还有强大的插件功能,常用于日志处理。 一、原理 Input可以从文件中、存储中、数据库中抽取数据,Input有两种选择一个是交给Filter进行过滤、修剪。另一个是 阅读全文
-
Ambari
摘要:Ambari 文章作者:luxianghao 文章来源:http://www.cnblogs.com/luxianghao/p/7886195.html 转载请注明,谢谢合作。 免责声明:文章内容仅代表个人观点,如有不当,欢迎指正。 一 引言 Ambari和Hadoop,HBase等一样,是Apac 阅读全文
-
日志系统
摘要:从ELK到EFK演进 背景 作为中国最大的在线教育站点,目前沪江日志服务的用户包含网校,交易,金融,CCTalk 等多个部门的多个产品的日志搜索分析业务,每日产生的各类日志有好十几种,每天处理约10亿条(1TB)日志,热数据保留最近7天数据,冷数据永久保存。 为什么做日志系统 首先,什么是日志? 日 阅读全文
-
ES索引
摘要:Elasticsearch索引别名、Filtered索引别名、Template 在使用elasticsearch的时候,经常会遇到需要淘汰掉历史数据的场景。 为了方便数据淘汰,并使得数据管理更加灵活,我们经常会以时间为粒度建立索引,例如: 每个月建立一个索引:monthly-201709、month 阅读全文
-
维特比算法基础
摘要:维特比算法基础 维特比算法是一个特殊,但应用最广的动态规划算法。利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图--篱笆网络(Lattice)的有向图最短路径问题而提出的。它之所以重要是因为,凡是使用隐含马尔科夫模型描述的问题都可以用它来解码。 假如用户输入的拼音是y 阅读全文
-
viterbi维特比算法和隐马尔可夫模型(HMM)
摘要:隐马尔可夫模型(HMM) 隐马尔可夫模型(HMM) 原文地址:http://www.cnblogs.com/jacklu/p/7753471.html 本文结合了王晓刚老师的ENGG 5202 Pattern Recognition课程内容知识,和搜集的资料和自己理解的总结。 1 概述 隐马尔可夫模 阅读全文
-
Numpy总结
摘要:Numpy的小总结 1.Numpy是什么? numpy是Python的一个科学计算库,提供矩阵运算的功能。 1.1Numpy的导入 import numpy as np #一般都是用numpy的别名来进行操作 1.2Numpy的常用函数 np.array((1.2,2,3,4), dtype=np. 阅读全文
-
elasticsearch集群及filebeat server和logstash server
摘要:elasticsearch集群及filebeat server和logstash server author:JevonWei版权声明:原创作品blog:http://119.23.52.191/ 实战之elasticsearch集群及filebeat server和logstash server 阅读全文
-
HDFS集群和YARN集群
摘要:Hadoop集群环境搭建(一) 1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主 阅读全文
-
kudu介绍及安装配置
摘要:kudu介绍及安装配置 介绍 Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity hardware(商品硬件)上运行,horizontally scalable(水平可扩展),并支持 hi 阅读全文
-
大并发量订单处理的 KafKa部署
摘要:大并发量订单处理的 KafKa部署总结 今天要介绍的是消息中间件KafKa,应该说是一个很牛的中间件吧,背靠Apache 与很多有名的中间件搭配起来用效果更好哦 ,为什么不用RabbitMQ,因为公司需要它。 网上已经有很多怎么用和用到哪的内容,但结果很多人都倒在了入门第一步 环境都搭不起来,可谓是 阅读全文
-
NET中解决KafKa多线程发送多主题
摘要:NET中解决KafKa多线程发送多主题 一般在KafKa消费程序中消费可以设置多个主题,那在同一程序中需要向KafKa发送不同主题的消息,如异常需要发到异常主题,正常的发送到正常的主题,这时候就需要实例化多个主题,然后逐个发送。 在NET中用RdKafka组件来做消息处理,在Nuget中引用。 在程 阅读全文
-
kafka
摘要:kafka生产实践 1.引言 最近接触到一个APP流量分析的项目,类似于友盟。涉及到几个C端(客户端)高并发的接口,这几个接口主要用于C端数据的提交。在没有任何缓冲的情况下,一个接口涉及到5张表的提交。压测的结果很不理想,主要瓶颈就在与RDS的交互。 一台双核,16G机子,单实例,jdbc最大连接数 阅读全文