Python自然语言处理

Python自然语言处理

  • 标注、分类、信息提取
  • 句子、识别句法结构和构建表示句意的方法

nltk库
简单的统计

  • 计数
    词类型
  • 频率分布
    文本中每一个词项的概率,查找高频词

使用本地编码

# -*- coding: utf-8 -*-

分词

分类和标注词汇

标注语料库

  • 名词
  • 动词
  • 形容词和副词

从文本提取信息

信息提取

​ 结构化数据:实体和关系的可预测的规范的结构。

非结构化数据》结构化数据

文本数据》表格类型

信息提取结构

信息提取系统的简单的流水线结构

以原始文本作为输入,生成(entity,relation,entity)元组的一个链表作为输出。

例如:假设一个文档表明Georgia
-Pacific公司位于Atlanta,它可能产生元组(【ORG:'Georgia-Pacific'】'in'【LOC:'Atla nta'】)。

建立基于特征的文法

附:XML

posted on 2022-03-23 15:12  cookie的笔记簿  阅读(73)  评论(0编辑  收藏  举报