随笔分类 - 大数据理论基础
摘要:1.简述互联网信息抓取的方式。 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。 用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类? (1)基于字符串匹配的分词方法,它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规
阅读全文
摘要:1.数据可视化有哪些基本特征? (1)易懂性,可视化可以使碎片化的数据转换成具有特定结构的知识,从而为决策支持提供帮助。 (2)必然性,大数据所产生的数据量必然要求人们对数据进行归纳总结,对数据的结构和形式进行转换处理。 (3)片面性,数据可视化的片面性特征要求可视化模式不能替代数据本身,只能作为数
阅读全文
摘要:1.简述人工神经网络定义。 人工神经网络简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。 人工神经网络从信息处理角度,抽象了人脑神经元网络,模拟神经元信息处理机制,建立
阅读全文
摘要:1.简述密集地震观测网的组成。 地震烈度速报系统、地震预警系统、MEMS传感器烈度仪和智能设备。 2.如何从地震大数据中找出关联性。 不拘泥于对因果关系的研究,向关联、非关联等相关关系探究转变。按照大数据的方式,不管这些数据的手段和学科,也不管它的空间维度和结构,只要出现异常就代入异常度公式计算。
阅读全文
摘要:1.简述对用户画像的认识。 用户画像,即用户信息的标签化,是企业通过收集、分析用户数据后,抽象出的一个虚拟用户,可以认为是真实用户的虚拟代表。 2.简述构建用户画像的主要流程。 基础数据收集->行为建模->构建画像 3.个性化推荐系统的性能可以通过哪些标准来判定? 用户满意度 覆盖率 预测准确度 冷
阅读全文
摘要:1.R语言是解释性语言还是编译性语言? 解释性语言 2.简述R语言的基本功能。 R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能: (1)数据存储和处理功能,丰富的数据读取与存储能力,丰富的数据处理功能。 (2)数组运算工具 (3)完整连贯的统计分析工具 (4)优秀的统计制图功能 3
阅读全文
摘要:1.简述常用机器学习系统和大数据挖掘工具有哪些。 (1)Mahout,Apache Mahout是一个由Java语言实现的开源的可拓展的机器学习算法库。 (2)Spark MLlib,运行在Spark平台上专门为集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集。 (3)其他数据挖掘
阅读全文
摘要:1.简述数据挖掘概念。 从科学定义上分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事前不知道的、具有潜在利用价值的信息和知识的过程。 从技术角度分析。数据挖掘就是利用一系列的相关算法和技术,从大数据中提取行业或公司所需要的、有实际应用价值的知识的过程。 数
阅读全文
摘要:1.采用哪些方式可以获取大数据? (1)通过业务系统或者互联网端的服务器自动汇聚(系统日志采集,网络数据采集(通过网络爬虫实现)),如业务数据、用户行为数据等。 (2)通过卫星、摄像机和传感器等硬件设备自动汇聚,如遥感数据、交通数据等。 (3)通过整理汇聚,如商业景气数据、人口普查数据等。 2.常用
阅读全文
摘要:1.新摩尔定律的含义是? Jim Gray提著名的“新摩尔定律”,即人类有史以来的数据总量,每过18个月翻一番。 2.大数据现象是怎么形成的? 随着存储成本的下降,云计算、硬件性价比以及软件技术的进步,智能设备、传感器的普及,物联网、人工智能的发展,数据规模急剧膨胀,各行业积累的数据量越来越大,数据
阅读全文