摘要:
1.简述互联网信息抓取的方式。 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。 用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类? (1)基于字符串匹配的分词方法,它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规 阅读全文
摘要:
1.数据可视化有哪些基本特征? (1)易懂性,可视化可以使碎片化的数据转换成具有特定结构的知识,从而为决策支持提供帮助。 (2)必然性,大数据所产生的数据量必然要求人们对数据进行归纳总结,对数据的结构和形式进行转换处理。 (3)片面性,数据可视化的片面性特征要求可视化模式不能替代数据本身,只能作为数 阅读全文
摘要:
1.简述人工神经网络定义。 人工神经网络简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。 人工神经网络从信息处理角度,抽象了人脑神经元网络,模拟神经元信息处理机制,建立 阅读全文
摘要:
1.简述密集地震观测网的组成。 地震烈度速报系统、地震预警系统、MEMS传感器烈度仪和智能设备。 2.如何从地震大数据中找出关联性。 不拘泥于对因果关系的研究,向关联、非关联等相关关系探究转变。按照大数据的方式,不管这些数据的手段和学科,也不管它的空间维度和结构,只要出现异常就代入异常度公式计算。 阅读全文
摘要:
1.简述对用户画像的认识。 用户画像,即用户信息的标签化,是企业通过收集、分析用户数据后,抽象出的一个虚拟用户,可以认为是真实用户的虚拟代表。 2.简述构建用户画像的主要流程。 基础数据收集->行为建模->构建画像 3.个性化推荐系统的性能可以通过哪些标准来判定? 用户满意度 覆盖率 预测准确度 冷 阅读全文
摘要:
1.R语言是解释性语言还是编译性语言? 解释性语言 2.简述R语言的基本功能。 R语言是一套完整的数据处理、计算和制图软件系统,主要包括以下功能: (1)数据存储和处理功能,丰富的数据读取与存储能力,丰富的数据处理功能。 (2)数组运算工具 (3)完整连贯的统计分析工具 (4)优秀的统计制图功能 3 阅读全文
摘要:
1.简述常用机器学习系统和大数据挖掘工具有哪些。 (1)Mahout,Apache Mahout是一个由Java语言实现的开源的可拓展的机器学习算法库。 (2)Spark MLlib,运行在Spark平台上专门为集群上并行运行而设计,内存中更快地实现多次迭代,适用于大规模数据集。 (3)其他数据挖掘 阅读全文