什么是大数据?
维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间。
大数据:不能集中存储、难以在可接受时间内分析处理、而数据整体呈现高价值的海量复杂数据集。
大数据一般具有以下几个特征:
- 体量大:不能用现有的物理设备集中存储,开放,高速可扩展。
- 复杂性高:多源、异构、相关、非结构化、不一定可靠、不一致性。
- 价值丰富:个体或部分数据呈现低价值,而数据整体呈现高价值。
大数据的科学问题:
科学问题1:大数据高维问题:
“决策要素(P)伴随大数据(n)呈现更高量级”所引起的解的不确定性与经典统计推断失效问题。
经典统计学:n>>p;高维问题:p>>n;大数据高维问题:p=O(exp(n)), n ->∞
热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀疏性的特征提取、数据降维数、压缩学习等);
其中值得关注的科学问题:
- 如何补足信息使问题可解;
- 低维几何的高维泛化;
- 高维数据本身的低维特征;
科学问题2:大数据的重采样问题:
大数据的重采样技术:如何进行合适的重采样,将大数据随机划分成若干小数据集,而根据小数据集所获得的统计推断,进行聚合处理后能反应原大数据集的规律与形态。
其中值得关注的科学问题:
- 如何重采样以体现数据整体特征;
- 基于试验设计的重采样;
- 基于目标信息处理的重采样;
- 更加有效的聚合原理(Boosting,Bagging);
科学问题3:大数据的分布式计算问题:
分布式计算:是大数据处理的计算模式,它包含多处理器自主计算、相互通信,为完成统一任务而并行工作的计算过程。主要挑战来自数据的分布性。
其中值得关注的科学问题:
- 与分布式计算相适应的存储与查询技术;
- 问题解的可分解性与可组装性;
- 大数据环境下的算法设计(机器学习,数据挖掘等);
科学问题4:大数据的信息融合问题:
大数据的信息融合:根据多种数据或部分数据所获得的信息,通过融合信息处理(特别是互补信息的综合)以获得到更加完整的决策。
其中值得关注的科学问题:
- 决策与估计一体化理论;
- 异构大数据处理的统一框架(特别是机器学习算法);
- 基于数据的模型验证理论;
- 非结构化数据的表征、计算与理解;
科学问题5:大数据的可视分析问题:
运用与人类视认知相一致的图形或者图像方式生动展示高维数据的内在结构与规律性。提供了人机协同处理数据、人人广泛参与收集理解的平台(或许是解决大数据问题的另外一条道路)。
值得关注的科学问题:
- 高维数据的本质特征提取;
- 形象的结构化表征(可表达几何空间的构造);
- 从数据特征空间到可表达几何空间的映照设计;
- 基于不变量(几何,代数)的高维数据展示方式;
- 非结构化数据的隐结构识别与展示;