自然语言习题

词典分词

关于字典树的操作，下列说法正确的有哪些？
A添加节点需要在无法继续遍历时创建子节点

B修改节点需要先查询到目标位置，并将值替换

C查询节点是核心操作，等价于树的遍历

D删除节点需要先查询到终点位置，并将终止标记删除
答案：ABCD

-----
A. 添加节点需要在无法继续遍历时创建子节点：这是字典树的一个特性，即在插入节点时，如果该节点已经存在于字典树中，则需要在该节点的前面添加一个新的节点，以便在插入新的字符串时，能够正确地排序。这样可以避免在插入新的字符串时，出现重复的节点。

B. 修改节点需要先查询到目标位置，并将值替换：这是因为在修改节点时，需要知道目标位置的值，以便将新的值插入到该位置。如果不先查询到目标位置，就直接修改节点，可能会导致插入的值与目标位置的值不匹配，从而导致字典树的错误。

C. 查询节点是核心操作，等价于树的遍历：这是因为字典树的查询操作实际上是对整个字典树进行遍历，以查找是否存在某个字符串或节点。这种查询操作可以用于查找字符串是否存在于字典树中，或者查找某个节点是否存在于字典树中。

D. 删除节点需要先查询到终点位置，并将终止标记删除：这是因为在删除节点时，需要知道要删除节点的终止位置，以便将该节点从字典树中删除。如果不先查询到终点位置，就直接删除节点，可能会导致删除的节点不是终止节点，从而导致字典树的错误。

关于词典，下列说法正确的有：

A. 词典分词是一种只认词典里出现过的字串的方法；

B. 词典的编制需要考虑字串出现的频率；

C. 现实语言中，词汇和语法是不断发展变化的；

D. 词典是语言在某一时期相对稳定的参考标准。

答案：ABCD

----

词典是一种收集词汇并加以解释供人检查参考的工具书。它通常按照一定的顺序收集词汇，并对它们进行解释和说明，以便人们可以检查和参考。

词典的编制需要考虑字串出现的频率，因为出现频率高的字串通常更容易被人们记住和使用。此外，词典也需要收集不同语言和地区的词汇，以反映不同的文化和语言习惯。

现实语言中，词汇和语法是不断发展变化的，因为语言和文化的发展会导致新的词汇和语法出现。因此，词典需要不断更新以反映新的语言和文化现象。

总之，词典是语言在某一时期相对稳定的参考标准，因为它收集了大量的词汇并对它们进行了解释和说明。

关于最长匹配算法，下列说法正确的有：

A. 所谓正向是指与文本的阅读顺序相同；同理，逆向则相反；

B. 统计数据显示，逆向最长匹配的实践效果更好；

C. 最长匹配是基于经验规律，即越长的词汇表达的意义越丰富；

D. 不论正向还是逆向都是人为制定的规则，都有可能遇到不能正确分词的文本。
答案：ABCD
---

关于字典树，下列哪些说法正确？
A每条边代表一个字，指向下一个可能出现的字

B字串表示为从根节点到终止标记的路径，因此不需要额外存储

C词汇终点添加特殊标记，且不一定是叶节点

D是一种用于快速查询字符串的树形数据结构
答案：ABCD

----
字典树（Trie树）是一种空间换时间的数据结构，又称Trie树、前缀树，是一种树形结构（字典树是一种数据结构），典型用于统计、排序、和保存大量字符串。字典树的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。它的缺点是：空间复杂度为O(n)，其中n为字符串的长度。
A、每条边代表一个字，指向下一个可能出现的字，正确。

B、字串表示为从根节点到终止标记的路径，因此不需要额外存储，正确。

C、词汇终点添加特殊标记，且不一定是叶节点，正确。

D、是一种用于快速查询字符串的树形数据结构，正确。

关于双向最长匹配，下列说法正确的有哪些？
A首先同时运行正向、逆向最长匹配，选词数更少的

B如果正向、逆向最长匹配的次数、字数都相同，选逆向返回的结果

C如果正向、逆向最长匹配的词数相同，选单字数更少的

D本质上是多个规则构成的专家系统，实践应用时维护非常麻烦
答案：ABCD
----
A、正向、逆向最长匹配，选词数更少的，这是因为在匹配过程中，正向匹配的词汇数量可能会比逆向匹配的词汇数量多，因此选择词数更少的匹配结果可以减少匹配次数，提高匹配效率。

B、如果正向、逆向最长匹配的次数、字数都相同，选逆向返回的结果，这是因为在匹配过程中，正向匹配的字符数量可能会比逆向匹配的字符数量多，因此选择字符数更多的匹配结果可以减少匹配次数，提高匹配效率。

C、如果正向、逆向最长匹配的词数相同，选单字数更少的，这是因为在匹配过程中，正向匹配的单词数量可能会比逆向匹配的单词数量多，因此选择单词数更少的匹配结果可以减少匹配次数，提高匹配效率。

D、本质上是多个规则构成的专家系统，实践应用时维护非常麻烦，这是因为双向最长匹配的规则可能会比单向最长匹配的规则更为复杂，因此在实践应用中维护双向最长匹配的规则可能会比维护单向最长匹配的规则更为困难，需要更多的时间和精力。

关于分词的意义，下列说法正确的有哪些？
A现代汉语通过词组形成实义，对分词正确性要求更高

B很多 NLP 算法依赖于分词，或同时解决分词

C语义理解取决于分词方式

D由于没有明显分隔符，理解汉语受分词的影响较大
答案：ABCD
-----

A. 现代汉语通过词组形成实义，对分词正确性要求更高，这是因为现代汉语中的词汇通常是由多个词组构成的，而不是单个的实义单词，因此分词的准确性对于理解文本的意义非常重要。

B. 很多NLP算法依赖于分词，或同时解决分词，这是因为NLP算法中的一些任务，如文本分类、命名实体识别等，需要对文本进行分词处理，以便于后续的处理和分析。

C. 语义理解取决于分词方式，这是因为分词的结果直接影响到了文本的语义理解，分词的准确性和清晰度会影响到文本的意义和语义的表达。

D. 由于没有明显分隔符，理解汉语受分词的影响较大，这是因为汉语中的词汇通常是由多个词组构成的，而不是单个的实义单词，因此分词的准确性对于理解汉语的语义和语法结构非常重要。

词典分词是一种基于预先指定规则集合进行判断的方法。
A对
B错
答案：对
----
词典分词是一种基于预先指定规则集合进行判断的方法，即根据句子中的单个或多个名词，将其分解成若干个最小的部分，再按照一定的顺序排列起来。


完全切分是指穷举输入文本中的所有合法字串子序列，从而实现分词处理。
A对
B错
答案：对
----
词典分词是一种基于预先指定规则集合进行判断的方法。
完全切分是指穷举输入文本中的所有合法字串子序列，从而实现分词处理。


词是具备独立语义的最小单元。
答案：对
    A. 对
    B. 错


分词是指将输入文本划分成字串的集合，保证输入文本中每个字都出现且仅出现一次。
答案：对
    A. 对
    B. 错