摘要: 真正的数据爱好者有很多需要阅读的内容:大数据,机器学习,数据科学,数据挖掘等。除了这些技术领域,还有一些特定的技术和语言需要你继续研究:Hadoop,Spark,Python,和R等等,还有无数实现自动化的工具等等,这些工具几乎每天都会用到,这就需要你不断的学习。幸运的是,以上提到的这些都不缺关于它 阅读全文
posted @ 2018-06-21 22:22 jingluodashu 阅读(829) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:78478943 阅读全文
posted @ 2018-06-21 19:51 jingluodashu 阅读(645) 评论(0) 推荐(0) 编辑
摘要: 高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提供了这份书单,小编在翻译此书单的同时,还贴心搜索了相应的中文译本,并提供了中文版的购买链接。加油吧,骚年! 如果你想了解大数据的学习路 阅读全文
posted @ 2018-06-19 19:23 jingluodashu 阅读(2553) 评论(0) 推荐(0) 编辑
摘要: 一、并发性 并发性是oltp数据库最重要的特性,但并发涉及到资源的获取、共享与锁定。 mysql:mysql以表级锁为主,对资源锁定的粒度很大,如果一个session对一个表加锁时间过长,会让其他session无法更新此表中的数据。虽然InnoDB引擎的表可以用行级锁,但这个行级锁的机制依赖于表的索 阅读全文
posted @ 2018-06-17 11:36 jingluodashu 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。 这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据, 阅读全文
posted @ 2018-06-15 20:39 jingluodashu 阅读(932) 评论(0) 推荐(0) 编辑
摘要: Hadoop生态系统发展到现在,存储层主要由HDFS和HBase两个系统把持着,一直没有太大突破。在追求高吞吐的批处理场景下,我们选用HDFS,在追求低延迟,有随机读写需求的场景下,我们选用HBase,那么是否存在一种系统,能结合两个系统优点,同时支持高吞吐率和低延迟呢?有人尝试修改HBase内核构 阅读全文
posted @ 2018-06-14 17:17 jingluodashu 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 1 概述 在Hadoop 2.0.0之前,一个Hadoop集群只有一个NameNode,那么NameNode就会存在单点故障的问题,幸运的是Hadoop 2.0.0之后解决了这个问题,即支持NameNode的HA高可用,NameNode的高可用是通过集群中冗余两个NameNode,并且这两个Name 阅读全文
posted @ 2018-06-12 20:12 jingluodashu 阅读(643) 评论(0) 推荐(1) 编辑
摘要: 业务的挑战 存储量量/并发计算增大 现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 。起初,一个创业公司的基本思路就是首先架构一个或者几个ECS,后面加入MySQL,如果有图片需求还可加入磁盘,该架构的基本能力包括事务、 阅读全文
posted @ 2018-06-10 20:01 jingluodashu 阅读(810) 评论(0) 推荐(0) 编辑
摘要: WOT大数据处理技术分会场,PingCAP CTO黄东旭、易观智库CTO郭炜、Mob开发者服务平台技术副总监林荣波、宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师,分别针对时下热门的HTAP数据库TiDB、去ETL化的IOTA架构、数据工厂架构、实时敏捷大数据理念实践 阅读全文
posted @ 2018-06-07 17:37 jingluodashu 阅读(809) 评论(0) 推荐(0) 编辑
摘要: Hive中创建S3的外部表 数据在S3存放的数据是按时间纬度存放的,每天的数据存放在各自的目录下,目录结构如下截图: 每个目录下面的数据是CSV文件,现在将其导入到Hive中进行查询,通过创建对应的表结构: [sql] view plain copy CREATE EXTERNAL TABLE `p 阅读全文
posted @ 2018-06-07 16:25 jingluodashu 阅读(1255) 评论(0) 推荐(0) 编辑