今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 觉得还不错,由于徐教授横跨数学与管理两方面,所以讲的角度还有深度刚刚好
在我的接受范围内。讲座主要从下面三个方面来讲的:
1 关于大数据的认识
2 大数据研究涉及的科学问题
3 他们团队的探索
(一)关于大数据的认识
大数据炒得很火,但是什么是大数据,跟海量数据有什么区别? 徐教授首先从自己的角度给出大数据的定义,主要有四个特点:
a 不能在单个计算机上集中存储,一般需要用到分布式/云计算模式等;
b 难以在可接受的时间内进行分析处理;
c 单个数据可能价值不大,但是数据整体还是有高价值的(比如一个班级大家发的微博可能没有特别大的意义,但是全国高校大学生发的微博就可以反映当代大学生思想理念**)
d 海量的复杂结构的数据集
对于大数据,他觉得不能按什么GB,TB,PB,EB这些量化来死衡量。
大数据这个概念最近炒得很火,主要是从2008年《Science》杂志用了几版做了大数据专题开始。奥巴马在2011年给出的报告《大数据分析》,竞选一般都喜欢对什么人说什么话,其实就是精确化营销。奥巴马的竞选主要得意于背后的数据分析团队,他们收集各个州post出来的微博,进行舆情分析,得出各个州分别最关心的是什么问题,然后在竞选的时候就针对这些问题提出相应的口号和策略。 继而欧洲等国也把大数据研究作为重要的发展战略。随之越来越火,企业,个人,现在好像所有人都在谈论大数据。
大数据影响力不仅在自然科学研究中,而且在商业领域,徐教授觉得后面会成为企业核心竞争力(数据规模,活性(有没有用,即是不是活的)与解释力),以及发展与大数据相关的商业模式。这是未来高科技公司必须有的概念。 还有在公共政策上,徐教授觉得大数据的火一个很重要的贡献就是给决策者,政策修改者带来的观念上的冲击,即数据资产,主权的概念,现在不仅是海陆空主权了,数据已经渗透到我们每天的日常生活,早在十几年前,美国就能精确摧毁南斯拉夫大使馆,考的就是数据。我们现在用的google GPS,更是精确到一颗沙子,如果不注重数据主权,一个国家的主权也会受到侵犯。从这个角度来讲,google搜索退出中国,百度开始垄断中国搜索引擎市场,其实也是国家对数据主权的觉醒。徐宗本还呼吁大家多多使用百度,呵呵。(想到了斯诺登的事情。腾讯帝国。。)
那么 大数据值得热吗?
gartner报告中-—— 2012年,正在或是即将进行大数据的公司为58%,而进入2013年,这一数字变成了64%。对于大多数企业来说,他们最大的问题,就是不明白大数据究竟是什么,以及如何使用大数据。
现在很多企业都在炒大数据,发展了大数据技术,其实本质上来说只是一种口号上的宣传。目前大数据研究还在初始阶段。
总的来说,徐教授觉得大数据还是值得热,
(1 数据概念重视;
2 数据挖掘方法得到普世的重视。(数据挖掘主要方法: 聚类分析 判别分析 回归分析(一个因素如何随着另外一个因素而改变) 隐变量分析 因果分析 时间序列分析)
但是不能一哄而上。他担心中国人做很多事情都很喜欢一哄而上,继而一哄而散。
从数据到价值的产业链 管理学院前沿计划:大数据产业管理(产业链,商业模式,公共政策等)
(二) 大数据研究涉及的科学问题
a 超高维问题 即决策因素随着样本数n呈现更高量级引起的解的不确定性与经典统计推断失效问题。
经典统计:n>>p,高维:p》》n,大数据高维度p=o(exp(n)) n->00
热点研究:稀疏建模(尽管变量很多,但是很多都是0)
比如南海,虽然监控很大,但是舰队只是很小的一部分。 基本科学问题: 如何补足信息使得数据可解; 利用特征相关性发展统计学(变量之间的独立性基本都是不能成立的)
b 大数据的重采样 subsampling
the big data boostrap,kleiner et.al 2012,ICML(大数据下如何求均值,很有创新)
基本问题:
如何重采样以刻画数据整体特征
基于试验设计的重采样
基于目标信息的重采样
联合处理:boosting ,bagging 等 现在的高分辨率(p维度大),同时雷达不能携带过多的样本数据,即n小。
c 可解的计算理论
大数据可解与传统数据不同,算法中的可解性是指在有限步内可以用图灵机解决的问题。
大数据下的可解, 具体例子(针对具体形式的数据):
流数据(容易是指处理的速度大于数据更新的速度)
分布式数据(容易是指交互的速度大于处理的速度)
d 分布式实时计算
基本问题:
问题的解分解性与解的可组装性
随机优化模型可能成为将来一个趋势。(对于大数据而言,精确解并不太重要,实时性更重要。让我想起3D in the wild重构)
e 非结构化问题
挑战:数据的异构性,不一致性
基本问题:
异构数据的表示与分析 (向量-》矩阵-》张量(现在普遍应用))
f 可视分析
基本问题:
1 高维数据的特征提取;
2 特征如何用几何展示
crowdsourcing(讲到现在公司不知道什么方面,向公众征集,再加上一点小奖励,利用群体智慧)
(三) 我们的探索
a 超高维的稀疏建模
回归分析(大数据-》均匀抽样(subsampling)-》回归-》联合处理,成功
网络监测(失败,因为处理的速度慢于更新的速度)模拟美国城市的交通监测 决策,比如如果处理速度快了,可以加快城市交通监测的更新速度。
b 视觉认知
基于尺度空间的数据建模(聚类)
聚类看上去像5类,有的又说是4类,究竟是几类呢?模拟人脑视觉认知。 引入尺度空间的概念,sigma 为尺度,表示物体与视网膜距离或晶状体曲率。 在一定的尺度范围内,是5类,过了这个范围,在另一个范围内就是四类。 他们的团队引进了生存寿命,生命周期最长的一个类定义为最有价值的类。 谈到meanshift
c 全局优化有用吗? f(x)极小值虽然不一定是全局最优,但是他的吸引域够大就可以了。类比药的结构及药效的稳定性在东南亚,广州。
(粗略的笔记,后面找时间完善)