一、何为统计学?
统计学:
研究对象:统计学是通过数据认识客观现象,认识客观现象数量规律性的方法论科学。
分类:数理统计、经济统计、金融统计、生物统计、政府统计等
本质:关于不确定性数据的一种科学,既是科学,也是艺术。明天是否下雨,股市是否上涨。
数据:
数据(狭义上的数据):数字,比如人的身高,体重,温度,股市的指数,每天微信运动的步数等
数据(维基百科):数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。比如数字、文字(优良中差)、声音(微信的语音,科大讯飞的同声传译)和图像(人脸识
别,医学的影像也是数据(CT上的异常,非结构化数据需要大量的深度学习知识))。
大数据的产生通常用来形容一个公司创造的大量非结构化数据和半结构化数据
数据的分类:
1.结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。如数字、符号。例商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等。
2.非结构化数据,包括所有格式的办公文档、文本、声音,图像,XML、HTML、各类报表、图像和音频/视频信息等等。
3.半结构化数据, 介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它
一般是自描述的,数据的结构和内容混在一起,没有明显的区分。如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同
二、何为大数据
Big Data
研究机构Gartner给出的定义: “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的5V特点(IBM提出):
Ø Volume(大量)
Ø Velocity(高速)
Ø Variety(多样)
Ø Value(低价值密度)
Ø Veracity(真实性)
大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。
大数据处理需要特殊的技术。适用于大数据的技术,包括:大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
注:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力” ,通过“加工”实现数据的“增值
统计学和大数据的区别:
1.大数据重预测统计学重解释
大数据具有开放性、公开性和易获得性。大数据往往带有时间标签,更具预测性。国内外众多机构开始采集海量Twitter和微博上的传播信息和个人属性特征和标签,期望预测社会舆情和社会情感、预测商业机会,进而期望预测人们的态度和行为。
2.大数据重相关统计学重因果
大数据重关系,而不关心因果,关注是什么而不关心为什么。大数据分析更关注数据的相关性测量和商业应用价值
3.大数据重全体统计学重抽样
随着存储和软硬件的经济性和分析工具的高性能,海量数据的处理能力得到提升,数据挖掘算法不断改进和丰富,特别是统计分析和机器学习的神经网络建模技术发展,抽样并非是必要的手段和方法论
4.大数据重感知统计学重精确
大数据同时关注对个体的数据挖掘,个性化推荐,精准营销,传播路径分析等应用领域都具有大数据特点。小数据往往采用显著性检验,对数据来源的真实性、无偏性和代表性格外重视。
三、何为人工智能
人工智能
从计算机发明指出,人们就希望它能够帮助甚至代替人类完成重复性劳作。利用巨大的储存空间和超高的运算速度,计算机已经可以非常轻易地完成一些对于人类非常困难,但对计算机相对简单的问题。例如:统计一本书中不同单词出现的次数;储存一座图书馆中的所有藏书;计算非常复杂地数学公式等
但是,一些人类可以通过直觉很快解决的问题,目前却很难通过计算机解决。这些问题包括自然语言理解、图像识别、语音识别等。它们就是人工智能需要解决的问题。
计算机要像人类一样完成更多智能的工作,需要掌握关于这个世界海量的知识。
要实现汽车自动驾驶,计算机至少需要能够判断哪里是路,哪里是障碍物。这个对于人类非常直观的东西,对于计算机确实相当困难的,路有着各种材质,这些不同材质铺成的路在计算机看来差距非常大。如何让计算机掌握这些人类看起来非常直观的常识,对于人工智能的发展是一个巨大的挑战。
很多早期的人工智能系统只能成功地应用于相对特定的环境(specific domain),在这些特定环境下,计算机需要了解的知识很容易严格并且完整地被定义。
例如:IBM的深蓝(Deep Blue)在1997年打败了国际象棋冠军卡斯帕罗夫。设计出下象棋软件是人工智能史上的巨大成就,但其主要挑战不在于让计算机掌握国际象棋中的规则。国际象棋是一个特定的环境,在这个环境中,计算机只需要了解每个棋子规定的行动范围和行动方法即可。虽然计算机早在1997年就可以击败国际象棋的世界冠军,但是直到20年后的今天,让计算机实现大部分成年人都可以完成的汽车驾驶依然非常困难。