大二上 国际化科研素养实训(计算机科学)人工智能:机器学习在数据分析及自然语言处理中的实际运用 期中考试试题分析 20241117

20241206 出成绩了,本次考试成绩满分

题目如下:

  1. 单选题 (5 分)
    A zoologist working at a lake would like to estimate the age of a fish in years by looking at the length, weight, color and maximum width. What ML task is this?(B)

A
Classification
B
Regression

C
Recommendation

D
Association

在这个问题中,动物学家希望通过鱼的长度、重量、颜色和最大宽度来估计鱼的年龄(以年为单位)。这是一个典型的回归任务,原因如下:

回归(Regression):回归任务的目标是预测一个连续的数值。在这个例子中,鱼的年龄是一个连续的数值,因此需要使用回归模型来预测。
分类(Classification):分类任务的目标是预测一个离散的类别。例如,如果问题是判断鱼的种类(如鲤鱼、鲈鱼等),那么这就是一个分类任务。
推荐(Recommendation):推荐系统的目标是根据用户的行为和偏好推荐物品或内容。这个问题中没有涉及用户的偏好或行为,因此不符合推荐系统的定义。
关联(Association):关联规则挖掘的目标是发现数据集中项之间的频繁共现关系。例如,市场篮子分析。这个问题中没有涉及项之间的关联关系,因此不符合关联规则的定义。
具体应用
在实际应用中,动物学家可以使用回归模型(如线性回归、决策树回归、随机森林回归等)来根据鱼的长度、重量、颜色和最大宽度来预测其年龄。这些模型会通过训练数据学习输入特征(长度、重量、颜色、最大宽度)与输出(年龄)之间的关系,从而在新的数据上进行预测。

因此,正确答案是 B. Regression。

拓展:什么是关联模型
关联模型(Association Model)主要用于发现数据集中项之间的频繁共现关系。一个经典的例子是市场篮子分析(Market Basket Analysis),也称为购物篮分析。以下是市场篮子分析的一个详细例子:

市场篮子分析(Market Basket Analysis)
背景
假设你是一家超市的分析师,你希望了解顾客购买商品之间的关联关系,以便进行促销活动、商品摆放优化等。

数据集
你收集了一段时间内顾客的购物记录,每条记录代表一个顾客的一次购物篮。例如:

交易ID 购买商品列表
1 面包, 牛奶, 黄油
2 面包, 牛奶
3 牛奶, 黄油
4 面包, 黄油
5 面包, 牛奶, 黄油, 啤酒
6 牛奶, 啤酒
7 面包, 啤酒
8 面包, 牛奶, 啤酒
9 面包, 黄油, 啤酒
10 牛奶, 黄油, 啤酒
目标
找出哪些商品经常一起被购买,即发现频繁项集(Frequent Itemsets)和关联规则(Association Rules)。

步骤
频繁项集挖掘:使用Apriori算法或FP-Growth算法等,找到频繁项集。频繁项集是指出现频率超过某个阈值的项集。
例如,设置最小支持度(Minimum Support)为30%,则支持度至少为3/10 = 30%的项集是频繁项集。
通过计算,可以得到一些频繁项集,如 {面包, 牛奶}, {面包, 黄油}, {牛奶, 黄油}, {面包, 啤酒}, {牛奶, 啤酒}, {黄油, 啤酒} 等。
关联规则生成:从频繁项集中生成关联规则。关联规则通常表示为 "A -> B",表示如果购买了A,则很可能也会购买B。
例如,从频繁项集 {面包, 牛奶} 中可以生成规则 "面包 -> 牛奶" 和 "牛奶 -> 面包"。
计算规则的支持度(Support)和置信度(Confidence):
支持度(Support):规则在所有交易中出现的频率。
置信度(Confidence):在购买A的情况下,购买B的概率。
例如,规则 "面包 -> 牛奶" 的支持度为 4/10 = 40%,置信度为 4/7 ≈ 57.14%。
规则筛选:根据最小置信度(Minimum Confidence)筛选出有用的关联规则。
例如,设置最小置信度为60%,则只有置信度大于60%的规则才会被保留。
在这个例子中,"面包 -> 牛奶" 的置信度为57.14%,低于60%,因此不会被保留。
结果
通过上述步骤,你可以发现一些有用的关联规则,例如:

"牛奶 -> 面包",置信度为 4/6 ≈ 66.67%
"黄油 -> 面包",置信度为 4/5 = 80%
这些规则可以帮助超市进行促销活动,例如在牛奶旁边放置面包,或者在黄油旁边放置面包,以增加销售量。

总结
市场篮子分析是一个典型的关联模型应用,通过发现顾客购买商品之间的频繁共现关系,帮助商家优化商品摆放、制定促销策略等。

  1. 单选题 (5 分)
    A process of evaluating a machine learning algorithm so that performance is not dependent on luck is know as?

A
Testing

B
Training

C
Performance
D
Cross-validation

正确答案是 D. Cross-validation。

解释
交叉验证(Cross-validation) 是一种评估机器学习算法性能的方法,旨在减少结果的随机性和依赖性,确保模型的性能评估更加可靠和稳定。具体来说,交叉验证通过将数据集分成多个子集,并多次训练和测试模型,从而获得更稳定的性能估计。

详细步骤
数据分割:将数据集分成
𝑘
k 个互斥的子集(通常称为“折”)。每个子集大致相同大小。
训练和测试:对于每一个子集,将其作为测试集,其余
𝑘

1
k−1 个子集合并作为训练集。训练模型并在测试集上进行评估。
性能汇总:对每个子集的评估结果进行汇总,通常计算平均性能指标(如准确率、F1分数等)。
优点
减少随机性:通过多次训练和测试,减少了因数据集划分不同而导致的性能波动。
充分利用数据:每个数据点都会被用作测试集一次,确保了数据的充分利用。
避免过拟合:通过多次训练和测试,可以更好地评估模型的泛化能力,避免过拟合。
与其他选项的区别
A. Testing:测试通常是指使用单独的测试集来评估模型的性能。这种方法依赖于测试集的选择,可能导致结果的随机性较大。
B. Training:训练是指使用训练集来训练模型的过程,不涉及模型性能的评估。
C. Performance:性能是一个笼统的术语,通常指模型的表现,但不具体指评估方法。
举例
假设我们有一个包含1000个样本的数据集,使用5折交叉验证:

将数据集分成5个子集,每个子集包含200个样本。
对于第1个子集,用剩下的800个样本训练模型,然后在第1个子集上测试模型。
重复上述步骤,分别用第2、第3、第4和第5个子集作为测试集,其余子集作为训练集。
最后,计算5次测试结果的平均性能指标。
通过这种方式,我们可以获得一个更加稳定和可靠的模型性能评估。

因此,正确答案是 D. Cross-validation。

  1. 单选题 (5 分)
    A bag contains a number of marbles of which 78 are red, 24 are blue, and the rest are green. If the probability of selecting a green marble is 1/3, what is the probability of selecting a red marble?

A
78/153

B
24/153

C
78/100

D
56/150
4. 单选题 (5 分)
During the course introduction Professor Raja talked about 3 types of learning needed for the real world. Which of the following is NOT one of those learnings? Just give A, B, C, or D.

A
Puzzle-based Learning

B
Problem-based learning
C
Profit-based learning

D
Project-based learning
5. 单选题 (5 分)
One of the powerful components of computational thinking is the ability to separate WHAT happens from HOW it happens. What is this skill better known as?

A
Decomposition
B
Abstraction

C
Recognition

D
Generalization

E
Computation
6. 单选题 (5 分)
In classification what type of data are we predicting?

A
Nominal

B
Ordinal

C
Interval

D
Ratio

在分类任务中,我们预测的数据类型是 A. Nominal(名义数据)。

解释
分类(Classification) 是一种监督学习任务,目标是将数据点分配到预定义的类别中。这些类别通常是离散的、无序的标签。

Nominal(名义数据):名义数据用于标识或分类,没有内在的顺序或等级。例如,性别(男、女)、国籍(中国、美国、英国等)、血型(A型、B型、AB型、O型)等。这些数据点之间是平等的,没有高低之分。
Ordinal(有序数据):有序数据不仅用于分类,还具有一定的顺序或等级,但类别之间的差距是不明确的或不相等的。例如,教育水平(小学、中学、大学)、满意度评分(非常不满意、不满意、满意、非常满意)等。虽然有序数据有一定的顺序,但在分类任务中,通常不考虑这种顺序。
Interval(区间数据):区间数据不仅有顺序,而且相邻数值间的差距是相等的,但是没有真正的零点。温度(摄氏度或华氏度)是一个典型的例子。分类任务中很少直接预测区间数据。
Ratio(比率数据):比率数据与区间数据类似,都有固定的测量单位和相等的间隔,但是比率数据有一个绝对的零点,表示完全没有所测量的属性。例如,年龄、身高、体重等。分类任务中通常不预测比率数据。
举例
名义数据的例子:在一个电子邮件分类任务中,目标是将邮件分为“垃圾邮件”和“非垃圾邮件”。这里的类别是名义数据,因为“垃圾邮件”和“非垃圾邮件”之间没有内在的顺序关系。
因此,在分类任务中,我们预测的数据类型是 A. Nominal

  1. 单选题 (5 分)
    A jar contains 3 red balls and 2 green balls. An experiment consists of drawing balls one at a time from the jar, without replacement, until a red one is obtained. Find the probability of finding a red ball in exactly 2 draws.

A
1/2

B
3/5
C
6/20

D
5/25
8. 单选题 (5 分)
Suppose we have 3 coins and one of them is double headed (but we don't know which). We randomly pick a coin. What is the probability that we picked the double headed coin?

A
3/4

B
2/3

C
5/6
D
1/3
9. 单选题 (5 分)
We can detect when learning has happened (in people and machines) when we have detected what in performance?

A
speed
B
improvement

C
type

D
no change

正确答案是 B. Improvement。

解释
学习(Learning) 是指通过经验或训练,个体或系统在某项任务上的表现得到提升的过程。无论是人类还是机器,学习的效果通常通过性能的改善来检测。

Improvement(改进):当个体或系统的性能随着时间的推移或经过训练而提高时,可以认为学习已经发生。例如,一个人通过练习提高了某项技能的水平,或者一个机器学习模型在训练过程中逐渐提高了预测的准确性。
Speed(速度):虽然学习可能会导致处理速度的提升,但这并不是检测学习是否发生的直接指标。学习的核心在于性能的提升,而不是单纯的处理速度。
Type(类型):类型通常指的是任务的种类或性质,而不是性能的变化。因此,它不是检测学习是否发生的合适指标。
No Change(无变化):如果性能没有变化,通常意味着没有学习发生。学习的一个关键特征是性能的提升,因此无变化与学习的定义不符。
举例
人类学习的例子:一个学生在学习数学的过程中,通过做更多的练习题,逐渐提高了解题的正确率和速度。这种性能的提升表明学习已经发生。
机器学习的例子:一个分类模型在训练过程中,通过不断调整参数,逐渐提高了在验证集上的准确率。这种性能的提升表明模型已经从数据中学习到了有用的信息。
因此,正确答案是 B. Improvement。

  1. 单选题 (5 分)
    At the beginning of the very first class, Professor Raja ask you to be proud of something. What?

A
The school/university you go to

B
Your academic performance

C
Your major subject of study
D
Your identity and heritage
11. 单选题 (5 分)
The actual information that is extracted from raw data such as an image or an email that is fed into a machine learning algorithm is known as?

A
Pixel
B
Feature

C
info

D
Algorithm

正确答案是 B. Feature。

解释
在机器学习中,从原始数据(如图像、电子邮件等)中提取的实际信息被称为 特征(Feature)。特征是用于训练机器学习模型的输入变量,它们能够捕捉数据的关键属性和信息。

Feature(特征):特征是从原始数据中提取的有意义的信息,用于训练和预测。例如,在图像识别任务中,特征可以是像素强度、边缘检测结果、颜色直方图等;在文本分类任务中,特征可以是词频、TF-IDF值、情感分数等。
Pixel(像素):像素是图像的基本单位,但并不是所有机器学习任务的特征。在某些图像处理任务中,像素强度可以直接作为特征,但在其他任务中,可能需要更高层次的特征提取。
Info(信息):这是一个通用术语,不够具体,不能准确描述机器学习中的输入变量。
Algorithm(算法):算法是用于处理数据和执行任务的步骤或方法,而不是从数据中提取的信息。
举例
图像识别:从一张图像中提取的特征可能包括像素强度、边缘检测结果、颜色直方图、纹理特征等。
文本分类:从一封电子邮件中提取的特征可能包括词频、TF-IDF值、情感分数、主题模型等。
因此,正确答案是 B. Feature。

  1. 单选题 (5 分)
    Consider the following situation (assume that there are only two parties—Republican and Democratic). In a given town, 40% of the voters are Republicans and 60% are Democrats. The president's budget is supported by 50% of the Republicans and 90% of the Democrats. If a randomly (equally likely) selected voter is found to support the president's budget, what is the probability that they are a Republican?

A
0.5

B
0.37
C
0.27

D
0.45
13. 单选题 (5 分)
In class we briefly discussed 4 types of analytics. Exploratory Data Analysis (EDA) is also known as:

A
Descriptive Analytics

B
Diagnostic Analytics

C
Prescriptive Analytics

D
Predictive Analytics

  1. 单选题 (5 分)
    You are building a machine learning algorithm for an automatic vehicle to detect whether what it sees is a person (a human being) or a shadow. Which quantity would you want to minimize?

A
True Positive

B
False Positive

C
True Negative
D
False Negative
15. 单选题 (5 分)
What data type is the age of a person?

A
Nominal

B
Ordinal

C
Interval
D
Ratio
16. 单选题 (5 分)
The same zoologist quickly realizes that the fish she is catching do not all belong to the same species and that there are multiple species that are currently unknown. By looking at attributes like color, length, length to weight ratio, overall body shape, type of food they eat, etc. she would like to determine how many unknown species there are and how to identify them. How should she formulate this problem?

A
Classification

B
Recommendation

C
Association
D
Clustering
17. 单选题 (5 分)
What data type is the name of a person?

A
Nominal

B
Ordinal

C
Interval

D
Ratio
18. 单选题 (5 分)
3. The software thought leader, Kent Beck made the following insightful quote:

I'm not a great programmer;
I'm a good programmer with ___________________________________ .

What completes the blank?

A
great skill

B
hard work
C
great habits

D
good luck
19. 单选题 (5 分)
In regression what type of data are we predicting?

A
Nominal

B
Ordinal
C
Quantitative
20. 单选题 (5 分)
The set of all possible outcomes is known as the sample space. A subset of the sample space is known as a?

A
Feature

B
Subset
C
Event

D
Occurrence

posted @   陆舟LandBoat  阅读(47)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示