jingluodashu - 博客园

2018年6月21日

摘要：真正的数据爱好者有很多需要阅读的内容：大数据，机器学习，数据科学，数据挖掘等。除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。幸运的是，以上提到的这些都不缺关于它阅读全文

posted @ 2018-06-21 22:22 jingluodashu 阅读(829) 评论(0) 推荐(0) 编辑

6个人如何维护上千规模的大数据集群？

摘要：本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一，降低用户接入门槛；如何让用户自助分析任务异常及失败原因，以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗，监控集群状况，监控异常任务等。如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：78478943 阅读全文

posted @ 2018-06-21 19:51 jingluodashu 阅读(645) 评论(0) 推荐(0) 编辑

2018年6月19日

20本机器学习与数据科学必读书籍

摘要：高校的暑假即将来临，有没有想利用这个暑假为自己充电，为未来的自己赢在起跑线上，成为人工智能界的人生赢家呢？来自 KDnuggets 的 Matthew Mayo 就提供了这份书单，小编在翻译此书单的同时，还贴心搜索了相应的中文译本，并提供了中文版的购买链接。加油吧，骚年！如果你想了解大数据的学习路阅读全文

posted @ 2018-06-19 19:23 jingluodashu 阅读(2553) 评论(0) 推荐(0) 编辑

2018年6月17日

mysql与Oracle的区别

摘要：一、并发性并发性是oltp数据库最重要的特性，但并发涉及到资源的获取、共享与锁定。 mysql:mysql以表级锁为主，对资源锁定的粒度很大，如果一个session对一个表加锁时间过长，会让其他session无法更新此表中的数据。虽然InnoDB引擎的表可以用行级锁，但这个行级锁的机制依赖于表的索阅读全文

posted @ 2018-06-17 11:36 jingluodashu 阅读(342) 评论(0) 推荐(0) 编辑

2018年6月15日

大数据存储平台之异构存储实践深度解读

摘要：经常做数据处理的伙伴们肯定会有这样一种体会：最近一周内的数据会被经常使用到，而比如最近几周的数据使用率会有下降，每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑，存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据，对需要频繁访问的数据我们称之为“热”数据，反之我们称之为”冷”数据，阅读全文

posted @ 2018-06-15 20:39 jingluodashu 阅读(932) 评论(0) 推荐(0) 编辑

2018年6月14日

Hadoop生态新增列式存储系统Kudu

摘要： Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构阅读全文

posted @ 2018-06-14 17:17 jingluodashu 阅读(207) 评论(0) 推荐(0) 编辑

2018年6月12日

大数据Hadoop的HA高可用架构集群部署

摘要： 1 概述在Hadoop 2.0.0之前，一个Hadoop集群只有一个NameNode，那么NameNode就会存在单点故障的问题，幸运的是Hadoop 2.0.0之后解决了这个问题，即支持NameNode的HA高可用，NameNode的高可用是通过集群中冗余两个NameNode，并且这两个Name 阅读全文

posted @ 2018-06-12 20:12 jingluodashu 阅读(643) 评论(0) 推荐(1) 编辑

2018年6月10日

大数据时代数据库-云HBase架构&生态&实践

摘要：业务的挑战存储量量/并发计算增大现如今大量的中小型公司并没有大规模的数据，如果一家公司的数据量超过100T，且能通过数据产生新的价值，基本可以说是大数据公司了。起初，一个创业公司的基本思路就是首先架构一个或者几个ECS，后面加入MySQL,如果有图片需求还可加入磁盘，该架构的基本能力包括事务、阅读全文

posted @ 2018-06-10 20:01 jingluodashu 阅读(810) 评论(0) 推荐(0) 编辑

2018年6月7日

WOT干货大放送：大数据架构发展趋势及探索实践分享

摘要： WOT大数据处理技术分会场，PingCAP CTO黄东旭、易观智库CTO郭炜、Mob开发者服务平台技术副总监林荣波、宜信技术研发中心高级架构师王东及商助科技(99Click)顾问总监郑泉五位讲师，分别针对时下热门的HTAP数据库TiDB、去ETL化的IOTA架构、数据工厂架构、实时敏捷大数据理念实践阅读全文

posted @ 2018-06-07 17:37 jingluodashu 阅读(809) 评论(0) 推荐(0) 编辑

Hive中导入Amazon S3中的分区表数据的操作

摘要： Hive中创建S3的外部表数据在S3存放的数据是按时间纬度存放的，每天的数据存放在各自的目录下，目录结构如下截图：每个目录下面的数据是CSV文件，现在将其导入到Hive中进行查询，通过创建对应的表结构： [sql] view plain copy CREATE EXTERNAL TABLE `p 阅读全文

posted @ 2018-06-07 16:25 jingluodashu 阅读(1255) 评论(0) 推荐(0) 编辑

公告