数据科学与Python(习题汇总)


单项选择题


以下描述中正确的是( )。
(传统)商务智能主要关注的是对“过去时间”的“解释性研究” (答案)
数据科学的主要处理对象以结构化数据为主
数据科学主要关注的是对“未来时间”的“诊断性研究”
(传统)商务智能的主要处理对象以非结构化数据为主


与传统科学不同的是,数据科学是由( )驱动。
目标
数据 (答案)
任务
算法


Google公司研究总监PeterNorvig曾说“我们(谷歌)没有更好的算法,只是多了点数据而已”,他的这句话强调的是( )。
算法的重要性
数据的重要性(答案)
CGoogle文件系统的重要性
DGoogle MapR数据工程主要关注的是如何基于数据进行辅助决策(或决策支持)、商业洞察、预测未来、发现潜在模式以及如何将数据转换为智慧或产品 educe的重要性


数据科学具有三个基本要素,即理论、实践和精神。其中,将”精神“可以理解为( )。
黑客精神 (答案)
骇客精神
奋斗精神
3C精神


下列选项中,不属于Seaborn库特点的是()。
Seaborn是基于Matplotlib的可视化库
基于网格绘制出更加复杂的图像集合
多个内置主题及颜色主题
可以处理大量的数据流 (答案)


下列关于字符串的表述中,不合法的是()
“‘Python’”
[python] (答案)
"p'yth'on"
'py"th"on'


下列语法正确的是(   )。
print"hello,world"
print(‘hello,world’)
print('hello,world') (答案)
print(hello,world)


tuple(range(2,10,2))的返回结果为( )。
(2,4,6,8,10)
[2,4,6,8]
[2,4,6,8,10]
(2, 4, 6, 8) (答案)


已知x = np.array((1, 2, 3, 4, 5)),那么表达式sum(x*x)的值
50
55 (答案)
60
65
1 * 1 + 2 * 2 + 3 * 3 + 4 * 4 + 5 * 5 = 55


下列选项中,不是Python关键字的是()
pass
from
yield
static (答案)


下面代码的输出结果是( )
for s in "abc":
   for i in range(3):
      print (s,end="")
      if s=="c":
          break
aaabbbccc
aaabbbc (答案)
abbbccc
aaabccc


在Python中实现多个条件判断需要用到()语句与if语句的组合
else
elif (答案)
pass
以上均不是


以下选项中,不是建立字典的方式是( )。
d = {[1,2]:1, [3,4]:3} (答案)
d = {1:[1,2], 3:[3,4]}
d = {(1,2):1, (3,4):3}
d = {'张三':1, '李四':2}
(列表不能作为key,元组可以)


已知x= np.array((1,2, 3, 4, 5)), 那么表达式(x//5).sum()的值
1 (答案)
2
3
4
//向下取整,0+0+0+0+1=1


可以用来创建Python自定义函数的关键字的是()
function
def (答案)
class
return


下面代码的输出结果是( )
x=10
y=3
print(x%y,x**y)
1 30
1 1000 (答案)
3 1000
3 30


Python 语言属于以下哪种语言()
机器语言
汇编语言
高级语言 (答案)
以上均不是


关于Python语言的变量,以下选项中说法正确的是( )。
随时命名、随时赋值、随时变换类型 
随时声明、随时使用、随时释放
随时命名、随时赋值、随时使用(答案)
随时声明、随时赋值、随时变换类型


已知x= np.array((1,2,3,4,5)),那么表达(x ** 2).max()的值为
15
20
25 (答案)
30


代码:
 for i in range(4):
    if i==3:
        break
    print(i)
print(i)
运行结果正确的是()
0123 (答案)
0122
123
234


下列说法中正确的是( )。
continue能结束循环,而break只能结束本次循环
break能结束循环,而continue只能结束本次循环 (答案)
break用在for语句中,而continue用在while 语句中
break用在while语句中,而continue用在for语句中


在Matplotlib中,用于绘制散点图的函数是()。
hist()
scatter() (答案)
bar()
pie()


C4.5决策树构造算法的特征选择采用(   )。
信息增益
基尼系数
条件熵
信息熵 (答案)


以下关于异常值检测的说法中错误的是()。
3δ原则利用了统计学中小概率事件的原理分布
使用箱线图方法时要求数据服从或近似服从正态分布
基于聚类的方法可以进行离群点检测
基于分类的方法可以进行离群点检测 (答案)
(离群点也算是一个正常的分类类别)


下列与标准化方法有关的说法中错误的是()。
离差标准化简单易懂,对最大值和最小值敏感度不高 (答案)
标准差标准化是最常用的标准化方法,又名零—匀值标准化
小数定标标准化实质上就是将数据按照一定的比例缩小
多个特征的数据的K-Means聚类不需要对数据进行标准化
(离差标准化公式:xj = xi − xmin / xmax − xmin对最大值和最小值敏感度很高,可以使数据范围划定在[0,1]之间)​


如果拟合曲线几乎通过了所有实测数据点,很有可能出现的现象是( )。
过拟合。 (答案)
正常拟合。
不确定。
欠拟合。


支持向量机SVM算法采用的损失函数是()
指数损失函数
Logistic损失函数
铰链损失函数 (答案)
都可以
(该损失函数主要用于二分类问题,目标是最大化分类间隔。含义是:如果样本被正确分类且距离决策边界有一定的间隔,那么损失为0;如果样本被错误分类或距离决策边界太近,则损失会随着距离的减小而增大。)


机器学习的实质是()。
根据再用数据,寻找输入数据和输出数据的映射关系/函数
衡量输入数据和输出数据的映射关系 /函数的好坏
建立数据模型
挑出输入数据和输出数据的最佳映射关系/函数 (答案)


有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述性分析。下列的步骤和方法正确的是( ).
dtypes查看类型,astype转换类别,describe描述性统计 (答案)
astype查看类型,dtypes转换类别,describe描述性统计
describe查看类型,astype转换类别,dtypes描述性统计
dtypes查看类型,describe转换类别,astype描述性统计


以下关于缺失值检测的说法中,正确的是()。
mull和notnull可以对缺失值进行处理
dropna方法既可以删除观测记录,亦可以删除特征(答案)
fillna 方法中用来填充缺失值的值只能是数据框
pandas库中的interpolate模块包含了多种插值方法
(疑似Python中没有mull方法,所以第一条错)
(fillna() 方法可以用标量值、字典、其他数据框或通过前向/后向填充方法来填充缺失值,而不仅仅限于整个数据框。)
(第四条有错误吗,我怎么没看出来)


Logistic回归分析属于(   ) 回归
非概率线性
概率线性
概率非线性 (答案)
非概率非线性


下面哪一个其法不是聚类分析算法()
K-means
K中心点算法
DBSCAN
KNN (答案)
(KNN(K-Nearest Neighbors,K 最近邻)是一种简单且常用的机器学习算法,主要用于分类和回归任务。)


下列loc、iloc、ix属性的用法正确的是()
df.loc['列名','索引名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引位置','列名']
df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引名','列位置']
df.loc['索引名','列名'];df.iloc['索引位置','列位置'];df.ix['索引位置','列位置'] (答案)

df.loc:通过标签(索引名)来访问数据。您可以使用行和列的标签来检索特定的行或列。
df.iloc:通过整数位置来访问数据。行和列的索引是基于零的整数值。
df.ix:是一个混合索引器,可用于同时使用标签和位置。但是 df.ix 在 Pandas 0.20.0 版本中已经被弃用,因此建议使用 df.loc 和 df.iloc 代替。


以下关于数据分析预处理的过程描述正确的是()
数据清洗包含广数机积准化、数据合并和缺失值处理
数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接
数据分析的预处理过程主要包括效据清洗, 数据合井、敏据标准化柏数据转换,它们之间存在交叉,没有严格的先后关系。 (答案)
数据标准化的主要对象是类别型的特征


不定项选择题


以下叙述中正确的是( )。
数据科学中对数据复杂性产生了全新的认识,复杂性被视为是大数据自身的不可分离属性. (答案)
数据科学主要关注的是数据密集型问题,而不是计算密集型问题。 (答案)
数据科学中数据处理范式从“模式在先、数据在后范式”转向“数据在先、模式在后范式”或“数据在先,无模式范式”。 (答案)
数据科学中,数据不仅是一种“资源”,而且更是一种重要“资产”。 (答案)


以下描述中,属于大数据时代对数据工程师的岗位职责的是( )。
数据的ETL转换 (答案)
主数据管理 (答案)
数据集成 (答案)
基于数据提出好问题
(基于数据提出好问题 更多地被视为数据分析师的职责。)


以下描述中属于数据科学的主要职责的是( )。
制定“数据战略”。 (答案)
构建“数据生态系统”。 (答案)
提出“基于数据的好问题”。 (答案)
数据的备份与恢复
(数据备份通常和IT运维相关,主要目的是保证数据的可用性和安全性,不是数据科学的核心职责。)


以下描述中正确的是( )。
“基于数据的智能”的重要特点是“数据复杂,但算法简单” (答案)
数据科学中强调的是基于数据的智能。 (答案)
数据科学中强调的是基于算法的智能。


大数据的资产属性体现在( )。
具有劳动增值 (答案)
明确的法律权属 (答案)
具有财务价值 (答案)
涉及道德与伦理 (答案)


在大数据时代,大数据分析师的主要岗位职责包括( )。
数据准备 (答案)
数据分析活动的执行 (答案)
分析结果的呈现 (答案)
数据接口的设计
(主要由软件开发部门实现)


以下描述中错误的是( )。
数据科学主要关注的是数据本身的管理; (答案)
数据工程是数据科学的一个新的分支领域; (答案)
数据工程主要关注的是基于数据的管理 (答案)
(一三条写反了)


DrewConway的数据科学维恩图显示,数据科学处于( )的交叉之处。
数学与统计学 (答案)
领域实战 (答案)
黑客精神 (答案)
计算机科学


数据科学中的”3C精神“中的3个C分别代表的是
创造性设计 (答案)creative
超越自我
批判性思考 (答案)criticism
好奇心提问 (答案)curiosity


以下描述中,数据科学家应具备以下能力(含素质)为( )。
掌握数据科学的理论基础———统计学、机器学习和数据可视化。 (答案)
提出“好”的研究假设或问题,并完成对应的试验设计。 (答案)
积累参与数据科学项目的经验,包括编程经验和统计分析经验 (答案)
拥有数据产品的研发能力 (答案)


Python标准库对象导入语句正确的是()
import math.sin as sin
from math import sin (答案)
import math.*
from math import* (答案)


下面开发环境可以用来编写和调试Python程序的有()
IDLE (答案)
Pythcharm (答案)
Jupyter Notebook (答案)
Spyder (答案)


下面说法正确的选项有()
正确的缩进对Python程序是非常重要的 (答案)
在表达式中圆括号可以改变运算顺序 (答案)
在Python3.x中可以使用中文做变量名 (答案)
Python程序中的空格和空行可有可无,但是适当的增加空格和空行可以提高代码的可读性。


有关聚类分析说法正确的是()。
无需对样本进行标记 (答案)
聚类分析无法提取样本特征 (答案)
聚类分析簇间数据具有较大的差异性
聚类分析可以分析样本的分布特点 (答案)


支持向量机分类器求解方法有( )。
以下都不对
内点法 (答案)
随机梯度下降 (答案)
序列最小优化 (答案)


以下表达正确的是()
深度学习是机器学习的一种 (答案)
人工智能是人们长远以来的目标,期待机器像人一样有智慧
机器学习指机器有学习的能力,是人类达成人工智能目标的手段。 (答案)
人或机器表现的很有智慧取决于先天本能/创造者事先设定的规则和后天学习。 (答案)


关于K-means聚类说法正确的是( )。
K-means需要事先指定K的数目 (答案)
K-means的聚类中心是聚类中心的均值 (答案)
K-means实现没有采用的贪心策略
K-means的聚类中心一 定是样本空间的数据 (答案)


关于朴素贝叶斯分类器,正确的有 (  )。
是一种概率分类器 (答案)
利用贝叶斯公式将样本属于某个类别的概率转换为后验概率来计算 (答案)
所谓“朴素”假设,即是样本独立同分布的的假设 (答案)
所谓“朴素”假设,即是样本特征(属性)的条件独立假设


以下方法中,能够利用pandas.DataFrame()创建DataFrame的是()
通过Python字典 (答案)
通过ndarray对象创建 (答案)
通过随机函数创建 (答案)
通过Series创建 (答案)


下列关于Pandas数据读/写说法正确的是()
read_csv能够读取所有文本文档的数据
read_sql能够读取数据库的数据 (答案)
to_csv函数能够读取数据库的数据写入.csv文件 (答案)
to_excel函数能够将结构化数据写入Excel文件 (答案)


数据质量包含的要素有( )
准确性、完整性 (答案)
时效性、可信性 (答案)
一致性、可解释性 (答案)
决定性


判断题


在数据科学项目中,特别强调数据科学家的沟通能力,包括与项目中的其他干系人的沟通能力、数据可视化能力和数据故事化描述能力。T


当数据量足够大时,我们可以通过简单的“数据洞见(DataInsight)”操作,找出并评估历史数据中已存在的翻译记录,同样可以实现与传统“知识范式”相当的智能水平。T


数据分析师和数据工程师并非大数据时代新产生的岗位,但其能力要求和岗位并未发生变化。F


大数据分析师需要掌握应用统计学,包括试验设计、统计建模、统计验证和高级应用统计学。T


在数据科学项目中,数据科学家往往以团队合作方式弥补各自的劣势,充分发挥自己的优势和特长。T


数据密集型应用中数据成为应用系统的主要难点、瓶颈和挑战。T


数据科学家一定是一般意义上的“科学家”。F


“数据码农”完全可以胜任“数据科学家”的角色。F


大数据分析师需要掌握应用机器学习的知识,包括算法设计、算法优化、算法选择、深度学习及特征工程。T


书写文件路径时,为了减少路径中分隔符“\”符号的输入,同时也为了避免不正确的转义导致代码错误,建议使用原始字符串。T


在函数内部没有任何声明的情况下直接为某个变量赋值,这个变量一定是函数内部的局部变量。T


在编写代码时,一般应先导入标准库对象,再导入扩展库对象。T


在定义函数时,某个参数名字前面带有两个*符号表示可变长度参数,可以接收任意多个关键参数并将其存放于一个字典之中。T


Python列表中所有元素必须为相同类型的数据。F


缩进对于Python代码至关重要。T


扩展库numpy中的arange()函数功能和内置函数range()类似.只能生成包含整数的数组,无法创建包含浮点数的数组。F


已知x.shape的值为(3,5), 那么语句x[:, 2]=2的作用是把数组x所有行中列下标为3的元素值都改为2。F
(x[:, 2] 的作用是把数组 x 中所有行的列下标为 2 的元素选取出来,形成一个新的一维数组。)


在Python3.x中,reduce()是内置函数,可以直接使用。F


扩展库numpy的线性代数子模块linalg 中提供了计算奇异值分解的svd0函数。T


两个不等长的数组不能相加。T


表达式np.empty((3,5)).sum()的值一定为0。T


使用内置函数open()且以"w"模式打开的文件,文件指针默认指向文件尾。F
(如果以 "a"(附加)模式打开文件,文件指针确实会指向文件末尾,以便在现有内容之后添加新内容。在 "w" 模式下,文件指针默认指向文件的开头。)


包含列表的元组可以作为字典的“键”。F


DBSCAN算法对参数敏感。T


凝聚聚类分析是一种自底向上的聚类分析算法。T
(自底向上:这意味着聚类过程从个体数据点(每个数据点被视为一个单独的簇)开始,然后逐步将它们聚合成更大的簇。在每一步中,算法都会找到最近的两个簇并将它们合并,直到满足停止标准(如达到预定的簇数量或距离阈值)。)

posted @   你这过氧化氢掺水了  阅读(119)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 本地部署 DeepSeek:小白也能轻松搞定!
· 如何给本地部署的DeepSeek投喂数据,让他更懂你
· 从 Windows Forms 到微服务的经验教训
· 李飞飞的50美金比肩DeepSeek把CEO忽悠瘸了,倒霉的却是程序员
· 超详细,DeepSeek 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方Dee
点击右上角即可分享
微信分享提示