【毕业设计】2021.4.29理论梳理
目录
说明:带"*"号的标题表示未实现或理论不完善的部分
分句相关
分段
以'\n'为分隔符,将文本分成若干自然段。
冒号规则*
直接以'\n'分段会导致':'后的列举丢失,列举内容可能有如下几种形式:
- 以"一(1,I,...),二(2,II,...),三(3,III,...)"等开头构成的有序列举
- 以"·, -, o,..."等开头构成的无序列举
- 以表格形式展示的表格列举
针对这些列举内容,可将":\n"作为列举开始的标志,将非列举头部作为结束标志,将列举内容作为一个整体特殊考虑其中的匹配规则。
分句
使用LTP分句作为初步分句内容,这时以"。?!"为分隔符的句子应该已经被切分开。
由于","可能代表某些句意上的结束或者停顿,这里需要考虑","的实际意思进行二次分句,以达到更好的句法分析等结果。
二次分句
将句子以逗号为分隔符分成若干子句,考虑逗号规则进行子句的合并。
逗号规则
- 若逗号前不存在名词和动词,并且包含连词,考虑逗号前子句是逗号后子句的连接词;如:“此外,书本信息还包括ISBN”。
- 若逗号后有连词,则考虑逗号前子句和逗号后子句可能有内容上的补充关系;如:“复合组件包含原子组件或多个复合组件,或两者兼有。”
- 若逗号作用是代替顿号,即多个逗号分隔的句子均为名词短语(可能包含连词“和”等),则可以考虑这个并列句当成一个句子处理;对于非名词短语的并列句,暂不考虑。
- 其余逗号当成句号处理
句型匹配相关
简单句型匹配
仅根据词性进行句型匹配,匹配某个句型成功的句子将按照该句型的解读规则记录对应类元素关系,如符合"主谓宾"句型的句子,若主语和宾语为基本类名,则记作"类1+关联+类2"的关系。
句型类别
句型 | 句法分析结果 | 类图元素 | 词性对照 |
---|---|---|---|
主谓 | 主语 + 谓语(名词/代词 - 动词) | 类 + 操作 | [['n', 'r'], 'v'] |
主谓宾 | 主语 + 谓语 + 宾语(名词/代词 - 动词 - 名词/代词) | 类1(及其操作) + 关联 + 类2 | [['n', 'r'], 'v', 'n'] |
主谓宾宾补 | 主语 + 谓语 + 宾语 + 宾补(名词 - 介词 - 名词 - 动词) | 类 + (改变关联的方向) + 类 + 关联 | [['n', 'r'], 'v', 'n', ['v']] |
其他介词 | 主语+介词(普通)+宾补+谓语+宾语 | 类1+关联+类2+类1操作+类1属性 | [['n', 'r'], 'p', 'v', ['n', 'r']] |
“把”字句 | 主语+介词(把)+宾补+谓语+宾语 | 类1+关联+类2+类1操作+类1属性 | [['n', 'r'], ['p', '把'], ['n', 'r'], 'v'] |
“被”字句 | 主语+介词(被动)+宾语+谓语 | 类1+关联+类2及其操作 | [['n', 'r'], ['p', '被'], ['n', 'r'], 'v'] |
二次句型匹配
基于已识别类的特殊句型匹配*
对于已识别类,可以通过某些平凡词(高词频但是无具体含义)获取更多信息,如:
- "的"字短语:名词性短语+”的“+名词性短语 => 已识别类+类属性
- 多元关系:主语+多样性标识词+谓语+数词+宾语中心语 => 已识别类1+多样性+已识别类2
- 这里的多样性可以是:
- 数量关系
- 关联方向
- 这里的多样性可以是:
基于句子中心词的句型匹配*
基于句法分析结果,根据句子的中心谓语,推断该动作的:
- 方向,如关联关系的方向
- 作用范围,如分辨以顿号分隔的宾语或者以连词分隔的主语
进而实现对复杂句子的信息提取。