我在 NLB 数据办公室的实习经历

我在 NLB 数据办公室的实习经历

大家好,我是Yi Torng,南洋理工大学社会学大四学生。今年夏天,我有机会窥视 NLB 数据办公室的幕后工作,在那里我根据不同的流派对我们的英语小说集进行分类。

为什么要对标题进行分类?

流派分类可以改善我们的图书馆服务,从阐明我们的顾客正在阅读的内容(以及可能向他们推荐的内容!),到为我们的馆藏规划提供信息。

问题陈述

NLB 拥有大量不同格式和流派的书籍。我们如何根据书的体裁对我们的书进行全面而有意义的分类?该项目有两个关键要求:综合现有类型信息,以及自动化类型分类过程

(1) 合成 现有流派信息的多个来源

我们的英语小说书籍跨越不同的格式,从印刷书籍到电子书,甚至是电子有声读物。因此,伴随的类型信息也不可避免地来自不同的来源。大部分时间都用于综合我们书籍的元数据。

(2) 自动化 体裁分类过程

考虑到要分类的大量(数十万)标题,手动逐行分类是不可能的。在自动化这个过程的同时,我们的目标是确保我们的书籍具有代表性和全面的流派分类。我们与 NLB 的其他团队合作,利用他们的领域知识,通过对现有数据进行情境化来为我们的自动化流程提供信息。

过程

第 1 阶段:初始标记:创建和填充

首先,我们盘点了可用的流派信息。对于实体书,我们使用称为“主题后缀”的内部分类系统。由于数字书籍位于不同的平台上,它们现有的类型信息来自电子书供应商标记的标签。

Fun fact — you may be able to spot some subject suffixes at the bottom of books when you visit the library! Pictured above, The Bird King by G. Willow Wilson has been tagged with the subject suffix of fantasy.

在编译和评估所有可用的类型信息后,我们将相关类型列入候选名单。我们的流派列表必须既细化又足够广泛,以便为分析提供信息。在完善这份候选名单时,我们寻求图书馆员的帮助,以利用他们的学科专业知识。采用迭代的提炼和咨询方法,我们最终确定了一个令人满意的流派候选名单。一些例子包括浪漫、神秘、恐怖、历史小说和幽默。

接下来,将我们现有的流派信息与流派的候选名单进行匹配,并相应地标记它们的相应标题。在映射时,某些标题的现有类型信息可能不够。在这种情况下,还咨询了其他类型的元数据。例如,在为我们的图书分配“Sing Lit”标签时,我们还将评估有关出版商的元数据以验证其类型。

第二阶段:工作级别匹配

由于我们书籍的格式多样,它们初步的体裁信息来源也略有不同。通过桥接不同格式的书籍,我们力求在这个阶段进一步丰富我们书籍的体裁标签。例如,如下图所示,对于同一个作品《阿耳忒弥斯·福尔与北极事件》,电子书和电子有声书共享一个标签(“幻想”),但有其他标签是唯一的。

在对不同格式的作品进行级别匹配后,我们为同一作品的所有版本赋予了相同的主题标签。

第三阶段:文本分类和机器学习

在第 1 阶段和第 2 阶段结束时,通过检查我们的数据集,我们现在有一部分按类型分类的书籍和一些根本没有分类类型的书籍。现在让我们冒险进入第 3 阶段,在那里我们进行了文本分类的监督机器学习技术。

首先,我们挖掘了机器可读编目 (MARC) 记录,并将它们映射回我们现有的书籍。 MARC 记录由美国国会图书馆维护,被认为是对书籍及其元数据进行编目的通用标准。 MARC 记录包括对我们书籍流派信息的具体描述。我们使用这些文本数据来开发和训练我们的文本分类算法。

第 3 阶段可以分为三个阶段:训练、测试和预测。

在训练阶段,我们主要关注两个方面:

(1) 数据的特点是什么?我们如何从文本数据中识别特征?

尽管人眼相对容易理解文本,但必须进行一些调整才能让算法阅读和“理解”它。这种调整过程称为特征识别。对于我们的 MARC 记录,我们识别并删除了重复或不相关的停用词,通过将所有内容转换为小写来规范文本,最后还进行了词干提取。

另一个考虑是指定范围为 (1, 4) 的 n-gram 参数,这允许算法处理最多包含 4 个单词的短语。这是因为在描述类型时,某些词通常一起出现在一个短语中,例如“心理惊悚片”或“谋杀之谜”。因此,算法应在训练期间将这些短语识别为与流派相关。

(2) 我们使用了哪些分类算法?我们算法的参数是什么?

在我们的训练阶段,我们尝试了三种不同的多类和多标签文本分类算法:多项朴素贝叶斯、线性支持向量机以及逻辑回归。由于存在多种类型,因此使用了多类分类。由于我们希望我们的书被标记为多种类型,因此使用了多标签分类。

在测试阶段,使用 fbeta-test 来衡量算法的性能,我们改变 beta 以优先考虑召回。召回优先于精度,因为我们希望减少漏报的发生,即本应标记为流派的标题没有被算法标记。

在比较我们的 fbeta 测试分数后,我们最终选择了 线性支持向量机 作为我们的文本分类算法来预测没有现有类型标签的标题。

结果和概述

在第 3 阶段之后,截至第 2 阶段,大约一半以前未标记的标题现在具有流派标签。

此标记的一些示例包括:

Example 1. Assassin’s Creed by Gordon Doherty

Example 2. Thundercluck! By Paul Tillery IV

此外,在我们之前的流派分类系统中,书籍仅被单独标记为一种流派。但是,我们最终能够分配更多具有多标签的书籍,从而确保更全面地涵盖类型分类。

在我的实习中,令我印象深刻的是我现有的项目最终是如何建立在更大的现有和不知疲倦的积累和编目标题的努力之上的。尽管我的大部分时间主要用于与代码和各种数据集进行交互,但该项目的过程还包括许多不那么明显的人工和许多不同的移动部件。在学者 Catherine D'Ignazio 和 Lauren F. Klein 的书名为 数据女权主义 , 他们主张让劳动看得见,让我们认识并重视它。他们强调的一个恰当的例子是历史学家 Benjamin Schmidt 对 MARC 目录记录的可视化(这也是我们在这个项目中使用的一个数据集!)。通过可视化编目记录的创建日期和出版日期,我们还可以一窥编目员在数字化图书馆馆藏方面的实际工作。图表的较暗区域展示了进入 MARC 记录的大量书籍,以及输入这些元数据的编目员的工作!

“美国国会图书馆 MARC 编目简史”(2017 年)

因此,本着让劳动可见的精神,我也希望阐明并感谢这个数据项目背后的人类努力!如果没有我们的 NLB 图书馆员和 MARC Records 编目员之前对书籍进行编目和标记的工作,以及 NLB 内其他图书馆员的慷慨专家投入,这个项目就不可能实现。最后但同样重要的是,我也非常感谢我的导师郭佳和 DO 主任 Tze Min 提出的宝贵和建设性的建议。这种数据工作真正存在于一个更大的专业知识生态系统中,我很高兴有机会以自己的身份做出贡献。 😃

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37306/20261713

posted @   哈哈哈来了啊啊啊  阅读(59)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
点击右上角即可分享
微信分享提示