大数据学习(01)——开篇

单位最近开始做大数据平台,借此机会梳理一下大数据相关技术,分享出来共同学习。

为什么会出现大数据技术

随着计算机系统数据的快速增长,单台物理机已经没办法存储和计算这么大规模的数据量,于是大数据技术应运而生,它是分布式技术的一种。
一提到大数据技术,必然会涉及到Hadoop。google的两篇论文是它核心组成部分的理论基础。

它在2006年从Apache Nutch中独立出来,后来成为apache基金会的顶级项目。虽然它已经出现十几年了,但是它本身及其生态圈所蕴含的思想依然值得借鉴和学习。

下面是Hadoop生态包含的一些常用的软件产品和工具。

大数据技术的基本思想

  • 分治
  • 并行处理

这两个思想在日常生活中很常见。

比如说我们经常在新闻里看到谁谁谁背了一麻袋硬币去银行存钱,银行找来七八个柜员分头清点一整天一合计才知道有多少钱。这个任务要是交给一个柜员去做,那得清点到猴年马月去?这里面就包含了分而治之和并行处理的思想。

大数据技术的处理方式

  • 移动计算力而不是数据
  • 数据的处理尽量在本地完成
  • 使用可顺序读取磁盘I/O代替随机读取磁盘I/O
  • 数据分片
  • 多副本

大数据能做什么

  • 趋势预测
  • 决策支持
  • 精准营销
  • 太多了,取决于抽象和建模

本篇先引出大数据的概念,后面再慢慢来学习。

posted on 2020-07-14 23:09  别样风景天  阅读(144)  评论(0编辑  收藏  举报

导航