大数据时代
什么叫大数据:很大的数据?no 专业名词5v:
volume:数据体量大(采集量,存储量,计算量,tb,PB级别起步)
variety:种类来源多样化
value:低价值密度(信息海量但价值密度低,深度复杂的挖掘分析需要机器学习的参与)
velocity:速度快(增长速度快,获取速度快,处理速度快)
veracity:数据质量(准确性,可信赖度)
大数据领域应用:
电商领域:精准广告位,个性化推荐,大数据杀熟
传媒领域:精准营销,猜你喜欢,交互推荐
金融领域:个人信用评估,风险承担能力评估
交通领域:交通拥堵预测,路线规划
电信领域:基站选址优化,用户画像
安防领域:预防犯罪
医疗领域:智慧医疗,疾病预防
问题:海量数据如何存储?海量数据如何计算?
分布式与集群:
分布式:多台机器每台机器不同组件
例如天猫商城,有不同的服务器负责不同的服务,相互配合对外服务
集群:u多台机器,每台部署相同组件
例如百度提供的中文搜索,针对于全球用户一台服务器远远不够,所以多台相同的提供相同服务的机器。
海量数据存储的方式:多台机器分布式存储
海量数据计算:多台机器分布式计算