随笔分类 -  大数据

摘要:本文内容 测试数据 字段属性 按多行解析运行时日志 把多行日志解析到字段 参考资料 在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j。运行时日志跟访问日志最大的不同是,运行时日志是多行,也就是说,连续的多行才能表达一个意思。 本文主要说明,如何用 multil 阅读全文
posted @ 2016-06-01 13:51 船长&CAP 阅读(7156) 评论(2) 推荐(3) 编辑
摘要:原文地址 本文内容 软件 步骤 控制相关性 总结 参考资料 本文介绍如何用带 Apache Mahout 的 MapR Sandbox for Hadoop 和 Elasticsearch 搭建推荐引擎,只需要很少的代码。 This tutorial will give step-by-step i 阅读全文
posted @ 2016-05-24 10:44 船长&CAP 阅读(5160) 评论(0) 推荐(0) 编辑
摘要:官网地址 本文内容 语法 测试数据 可配置选项 参考资料 date 插件是日期插件,这个插件,常用而重要。 如果不用 date 插件,那么 Logstash 将处理时间作为时间戳。时间戳字段是 Logstash 自己添加的内置字段 @timestamp,在ES中关于时间的相关查询,必须使用该字段,你 阅读全文
posted @ 2016-05-18 16:38 船长&CAP 阅读(3447) 评论(1) 推荐(1) 编辑
摘要:官网地址 本文内容 语法 测试数据 可选配置项 mutate 插件可以在字段上执行变换,包括重命名、删除、替换和修改。这个插件相当常用。 比如: 你已经根据 Grok 表达式将 Tomcat 日志的内容放到各个字段中,想把状态码、字节大小或是响应时间,转换成整型; 你已经根据正则表达式将日志内容放到 阅读全文
posted @ 2016-05-17 17:24 船长&CAP 阅读(7194) 评论(3) 推荐(2) 编辑
摘要:本文内容 背景 ES集群中第一个master节点 ES slave节点 迁移到:http://www.bdata-cap.com/newsinfo/1712679.html 本文总结 Elasticsearch(以下简称ES)搭建集群的经验。以 Elasticsearch-rtf-2.2.1 版本为 阅读全文
posted @ 2016-05-03 13:44 船长&CAP 阅读(3569) 评论(0) 推荐(0) 编辑
摘要:内容 安装 RVM 安装 Ruby 和 Gems 安装 Rails 安装 jls-grok Ruby grok 解析 调试 grok 迁移到:http://www.bdata-cap.com/newsinfo/1712686.html 注意:不要用 root 执行以下操作。 用 logstash 收 阅读全文
posted @ 2016-03-23 12:08 船长&CAP 阅读(5879) 评论(0) 推荐(0) 编辑
摘要:迁移到:http://www.bdata-cap.com/newsinfo/1712690.html 上一篇文章《安装 logstash 2.2.0、elasticsearch 2.2.0 和 Kibana 3.0》,介绍了如何安装 Logstash、Elasticsearch 以及用 Python 阅读全文
posted @ 2016-03-14 17:26 船长&CAP 阅读(1183) 评论(0) 推荐(0) 编辑
摘要:本文内容 Elasticsearch logstash Kibana 参考资料 迁移到:http://www.bdata-cap.com/newsinfo/1712695.html 本文介绍安装 logstash 2.2.0 和 elasticsearch 2.2.0,操作系统环境版本是 CentO 阅读全文
posted @ 2016-03-01 16:31 船长&CAP 阅读(5963) 评论(2) 推荐(0) 编辑
摘要:原文地址 简单易用,Storm让大数据分析变得轻而易举。 如今,公司在日常运作中经常会产生TB(terabytes)级的数据。数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其他业务环境中创建的数据。考虑到数据的生成量,实时计算(real-time computation... 阅读全文
posted @ 2015-11-02 17:20 船长&CAP 阅读(1888) 评论(0) 推荐(0) 编辑
摘要:英文原文地址 中英文对照地址 History of Apache Storm and lessons learned ——项目创建者 Nathan Marz Apache Storm 最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑。很难想像4年前Storm只是我脑海中的一个想法,但现在却成为了一个有着大社区支持并被无数企业使用的繁荣项目。在此我将在本文中回首Stor... 阅读全文
posted @ 2015-10-30 12:07 船长&CAP 阅读(1041) 评论(0) 推荐(1) 编辑
摘要:原文地址 实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路、甚至没能真正意识到其中蕴含的巨大效益。 为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有限。传统数据仓库环境针对的主要是批量处理流程,这类方案要么延迟极高、要么成本惊人——... 阅读全文
posted @ 2015-10-30 11:59 船长&CAP 阅读(1628) 评论(0) 推荐(0) 编辑
摘要:迁移到:http://www.bdata-cap.com/newsinfo/1741386.html 原文链接: BASE: An Acid Alternative Pdf下载链接: Base 数据库 ACID,都不陌生:原子性、一致性、隔离性和持久性,这在单台服务器就能搞定的时代,很容易实现,但是 阅读全文
posted @ 2015-10-13 16:17 船长&CAP 阅读(2270) 评论(0) 推荐(0) 编辑
摘要:随着网站的功能和用户越来越多,单机器服务部署的Web应用已经不能再支持了。这时候就需要优化或调整架构,具体怎么优化,或先优化哪部分,这取决于网站的具体情况, 并非总是一个套路。 如根据使用情况得知,数据库压力大,则就可以先设施读写分离,分库分表,是垂直划分(按业务划分), 还是水平划分(如用户... 阅读全文
posted @ 2015-10-13 14:11 船长&CAP 阅读(734) 评论(0) 推荐(0) 编辑
摘要:原文地址 开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用;另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”工具涌现,乱花渐欲“迷... 阅读全文
posted @ 2015-10-13 12:52 船长&CAP 阅读(1203) 评论(6) 推荐(2) 编辑

免费流量统计软件
点击右上角即可分享
微信分享提示