大数据笔记(一)

大数据特点-4个V

  • 巨大的数据量 Volume

    • 集中储存/集中计算已经无法处理巨大的数据量
      • 新浪微博用户数2亿+,高峰每天几亿条
      • 仅一个百万家庭级别城市的智能电网每月可产生数十亿的智能电表数据
      • 2015年全球移动终端产生的数据量将达到6300PB
  • 非结构化数据无固定格式变化多 Variety

    • 文本/图片/视频/文档等
  • 并发极高,增长速度很快 Velocity

    • 海量数据的及时有效分析
    • 用户基数庞大/设备数量众多/实时海量/数据指数级别增长
  • 充分利用消息价值 Value

    • 单条数据本身并无太多价值,但庞大的数据量累积并隐藏了巨大的财富

需要革新性的技术手段

  • 大数据“分而治之”---批量分布式并行计算Hadoop
  • 大数据“灵活多变”---实时分布式高吞吐高并发数据存取处理NoSQL
  • 大数据处理新趋势 --- 利用廉价服务器搭建高容错性并行计算架构

应用场景

  • 日志分析
  • 用户行为分析
  • 广告计算,广告优化、分析,点击流分析,链接分析
  • 搜索关键字进行内容分类
  • 推荐引擎,趋势分析
  • 搜索引擎,创建索引
  • 统计值计算,统计数据,过滤,分析,查询
  • 垃圾数据分析、垃圾邮件过滤
  • 数据分析
  • 机器学习
  • 数据挖掘
  • 大规模图像转换
    • 纽约时报使用Hadoop 和EC2在36个小时内将4TB的TIFF图像—包括405K大TIFF图像,3.3M SGML文章和405K XML文件 — 转换为800K适合在 Web上使用的PNG图像

开源项目:

  • Apache Hadoop 包括 Hadoop Distributed File System (HDFS)、MapReduce 框架和通用的实用工具,是一种适用于数据密集型应用的软件框架,可用于开发分布式计算环境
  • Pig 是用于 Hadoop 的一种高级编程语言和运行时环境
  • Jaql 是基于 JavaScript Object Notation (JSON) 的一种高级查询语言,也支持 SQL
  • Hive 是一种数据仓库基础架构,设计用于支持批量查询和分析 Hadoop 管理的文件
  • HBase 是一种以列为主的数据存储环境,设计用于支持 Hadoop 中的稀疏填充的大型表格
  • Flume 是一种用来数据收集并将其加载到 Hadoop 中的工具
  • Lucene 是一种文本搜索和索引技术
  • Avro 是一种数据序列化技术
  • ZooKeeper 是分布式应用程序的一种协作服务
  • Oozie 是工作流/作业编排技术 
posted @ 2013-01-17 13:36  杨军  阅读(200)  评论(0编辑  收藏  举报