大数据时代
什么叫大数据:很大的数据?no 专业名词5v:
volume:数据体量大(采集量,存储量,计算量,tb,PB级别起步)
variety:种类来源多样化
value:低价值密度(信息海量但价值密度低,深度复杂的挖掘分析需要机器学习的参与)
velocity:速度快(增长速度快,获取速度快,处理速度快)
veracity:数据质量(准确性,可信赖度)
大数据领域应用:
电商领域:精准广告位,个性化推荐,大数据杀熟
传媒领域:精准营销,猜你喜欢,交互推荐
金融领域:个人信用评估,风险承担能力评估
交通领域:交通拥堵预测,路线规划
电信领域:基站选址优化,用户画像
安防领域:预防犯罪
医疗领域:智慧医疗,疾病预防
问题:海量数据如何存储?海量数据如何计算?
分布式与集群:
分布式:多台机器每台机器不同组件
例如天猫商城,有不同的服务器负责不同的服务,相互配合对外服务
集群:u多台机器,每台部署相同组件
例如百度提供的中文搜索,针对于全球用户一台服务器远远不够,所以多台相同的提供相同服务的机器。
海量数据存储的方式:多台机器分布式存储
海量数据计算:多台机器分布式计算
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)