《python自然语言处理》导航目录

微信公众号:数据运营人
本文为博主原创,如需转载请注明出处。

python自然语言处理

本书目录

第1章 语言处理与python1.1 语言计算:文本和单词python入门NLTK入门搜索文本计数词汇1.2 近观python:将文本当做词链表链表索引列表变量字符串1.3 计算语言:简单的统计频率分布细粒度的选择词词语搭配和双连词计数其他东西1.4 回到python:决策与控制条件对每个元素进行操作嵌套代码块条件循环1.5 自动理解自然语言词义消歧指代消解自动生成语言机器翻译人机对话系统文本的含义NLP的局限性1.6 小结1.7 练习第2章 获得文本预料和词汇资源2.1 获取文本语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库文本语料库结构载入你自己的语料库2.2 条件频率分布条件和事件按文体计数词汇绘制分布图和分布表使用双连词生成随机文本2.3 更多关于python:代码重用使用文本编辑器创建程序函数模块2.4 词典资源词汇列表语料库发音的词典比较词表2.5 WordNet意义与同义词WordNet的层次结构更多的词汇关系语义相似度2.6 小结2.7 练习第3章 加工原料文本3.1 从网络和硬盘访问文本电子书处理的HTML处理搜索引擎的结果读取本地文件从PDF/MSWord及其他二进制格式中提取文本捕获用户输入NLP的流程3.2 字符串:对底层的文本处理字符串的基本操作输入字符串访问单个字符访问子字符串更多的字符串操作链表与字符串的差异3.3 使用Unicode进行文字处理什么是Unicode?从文件中提取已编码文本在python中使用本地编码3.4 使用正则表达式检测词组搭配使用基本元字符范围与闭包3.5 正则表达式的有益应用提取字符快在字符块上做更多事情查找词干搜索已分词文本3.6 规范化文本词干提取器词性归并3.7 用正则表达式为文本分词分词的简单方法NLTK的正则表达式分词器分词的进一步问题3.8 分割断句分词3.9 格式化:从链表到字符串从链表到字符串字符串与格式化排列将结果写入文件文本换行3.10 小结3.11 练习第4章 编写结构化程序4.1 回到基础赋值等式条件语句4.2 序列序列类型上的操作合并不同类型的序列产生器表达式4.3 风格的问题python代码风格过程风格与声明风格计数器的一些合理用途4.4 函数:结构化编程的基础函数的输入和输出参数传递变量的作用域参数类型检查功能分解文档说明函数4.5 更多关于函数作为参数的函数累计函数高阶函数参数的命名4.6 程序开发python模块结构多模块程序误差源头调试技术防御性编程4.7 算法设计递归权衡空间与时间动态规划4.8 python库的样例matplotlib绘图工具NetworkXCSVnumpy其他python库4.9 小结4.10 练习第5章 分类和标注词汇5.1 使用词性标注器5.2 标注语料库表示已标注的标识符读取已标注的语料库简化的词性标记集名词动词形容词和副词为简化的标记探索已标注的语料库5.3 使用python字典映射词及其属性索引链表VS字典python字典定义字典默认字典递增的更新字典复杂的键和值颠倒字典5.4 自动标注默认标注器正则表达式标注器查询标注器评估5.5 N-gram标注一元标注(Unigram Tagging)分离训练和测试数据一般的N-gram的标注组合标注器标注生词存储标注器性能限制跨句子边界标注5.6 基于转换的标注5.7 如何确定一个词的分类形态学线索句法线索语义线索新词词性标记集中的形态学5.8 小结5.9 练习第6章 学习分类文本6.1 有监督分类性别鉴定选择正确的特征文档分类探索上下文语境序列分类其他序列分类方法6.2 有监督分类的更多例子句子分割识别对话行为类型识别文字蕴含扩展到大型数据集6.3 评估测试集准确度精确度和召回率混淆矩阵交叉验证6.4 决策树熵和信息增益6.5 朴素贝叶斯分类器潜在概率模型零计数和平滑非二元特征独立的朴素双重技术的原因6.6 最大熵分类器最大熵模型熵的最大化生成式分类器对比条件式分类器6.7 为语言模式建模模型告诉我们什么?6.8 小结6.9 练习第7章 从文本提取信息7.1 信息提取信息提取结构7.2 分块名词短语分块标记模式用正则表达式分块探索文本语料库加缝隙块的表示:标记与树7.3 开发和评估分块器读取IOB格式与CoNLL2000分块语料库简单评估和基准训练基于分类器的分块器7.4 语言结构中的递归用级联分块器构建嵌套结构树遍历路透社语料库7.5 命名实体识别7.6 关系抽取7.7 小结7.8 练习第8章 分析句子结构8.1 一些语法困境语言数据和无限可能性普遍存在的歧义8.2 文法有什么用?超越n-grams8.3 上下文无关文法一种简单的文法写你自己的文法句法结构中的递归8.4 上下文无关文法分析递归下降分析移进-规约分析做角落分析器符合语句规则的字串表8.5 依存关系和依存文法配价与词汇扩大规模8.6 文法开发树库与文法有害的歧义加权文法8.7 小结8.8 练习第9章 建立基本特征的文法9.1 文法特征句法协议使用属性和约束术语9.2 处理特征结构包含和统一9.3 扩转基本特征的文法子类别核心词回顾助动词与倒装无限制依赖成分德语中的格和性别9.4 小结9.5 练习第10章 分析句子的意思10.1 自然语言理解查询数据库自然语言、语义和逻辑10.2 命名逻辑10.3 一阶逻辑句法一阶定理证明一阶逻辑语言总结真值模型独立变量和赋值量化量词范围歧义模型的建立10.4 英语句子的语义基于特征的文法中的合成语义学lambda验算量化的NP及物动词再述量词歧义10.5 段落语义层段落表示理论段落处理10.6 小结10.7 练习第11章 语言数据管理11.1 语料库结构:一个案例研究TIMIT的结构主要设计特点基本数据类型11.2 语料库生命周期语料库创建的三种方案质量控制维护与演变11.3 数据采集从网上获取数据从字处理器文件获取数据从电子表格和数据库中获取数据转换数据格式决定要包含标注层标准和工具处理濒危语言时特别注意事项11.4 使用XML语言结构中使用XMLXML的作用ElementTree接口使用ElementTree访问Toolbox数据格式化条目11.5 使用Toolbox数据为每个条目添加一个字段验证Toolbox词汇11.6 使用OLAC元数据描述语言资源元数据是什么?OLAC:开放语言档案社区11.7 小结11.8 练习

第1章 语言处理与python

1.1 语言计算:文本和单词
python入门
NLTK入门
搜索文本
计数词汇
1.2 近观python:将文本当做词链表
链表
索引列表
变量
字符串
1.3 计算语言:简单的统计
频率分布
细粒度的选择词
词语搭配和双连词
计数其他东西
1.4 回到python:决策与控制
条件
对每个元素进行操作
嵌套代码块
条件循环
1.5 自动理解自然语言
词义消歧
指代消解
自动生成语言
机器翻译
人机对话系统
文本的含义
NLP的局限性
1.6 小结
1.7 练习

第2章 获得文本预料和词汇资源

2.1 获取文本语料库
古腾堡语料库
网络和聊天文本
布朗语料库
路透社语料库
就职演说语料库
标注文本语料库
在其他语言的语料库
文本语料库结构
载入你自己的语料库
2.2 条件频率分布
条件和事件
按文体计数词汇
绘制分布图和分布表
使用双连词生成随机文本
2.3 更多关于python:代码重用
使用文本编辑器创建程序
函数
模块
2.4 词典资源
词汇列表语料库
发音的词典
比较词表
2.5 WordNet
意义与同义词
WordNet的层次结构
更多的词汇关系
语义相似度
2.6 小结
2.7 练习

第3章 加工原料文本

3.1 从网络和硬盘访问文本
电子书
处理的HTML
处理搜索引擎的结果
读取本地文件
从PDF/MSWord及其他二进制格式中提取文本
捕获用户输入
NLP的流程
3.2 字符串:对底层的文本处理
字符串的基本操作
输入字符串
访问单个字符
访问子字符串
更多的字符串操作
链表与字符串的差异
3.3 使用Unicode进行文字处理
什么是Unicode?
从文件中提取已编码文本
在python中使用本地编码
3.4 使用正则表达式检测词组搭配
使用基本元字符
范围与闭包
3.5 正则表达式的有益应用
提取字符快
在字符块上做更多事情
查找词干
搜索已分词文本
3.6 规范化文本
词干提取器
词性归并
3.7 用正则表达式为文本分词
分词的简单方法
NLTK的正则表达式分词器
分词的进一步问题
3.8 分割
断句
分词
3.9 格式化:从链表到字符串
从链表到字符串
字符串与格式化
排列
将结果写入文件
文本换行
3.10 小结
3.11 练习

第4章 编写结构化程序

4.1 回到基础
赋值
等式
条件语句
4.2 序列
序列类型上的操作
合并不同类型的序列
产生器表达式
4.3 风格的问题
python代码风格
过程风格与声明风格
计数器的一些合理用途
4.4 函数:结构化编程的基础
函数的输入和输出
参数传递
变量的作用域
参数类型检查
功能分解
文档说明函数
4.5 更多关于函数
作为参数的函数
累计函数
高阶函数
参数的命名
4.6 程序开发
python模块结构
多模块程序
误差源头
调试技术
防御性编程
4.7 算法设计
递归
权衡空间与时间
动态规划
4.8 python库的样例
matplotlib绘图工具
NetworkX
CSV
numpy
其他python库
4.9 小结
4.10 练习

第5章 分类和标注词汇

5.1 使用词性标注器
5.2 标注语料库
表示已标注的标识符
读取已标注的语料库
简化的词性标记集
名词
动词
形容词和副词
为简化的标记
探索已标注的语料库
5.3 使用python字典映射词及其属性
索引链表VS字典
python字典
定义字典
默认字典
递增的更新字典
复杂的键和值
颠倒字典
5.4 自动标注
默认标注器
正则表达式标注器
查询标注器
评估
5.5 N-gram标注
一元标注(Unigram Tagging)
分离训练和测试数据
一般的N-gram的标注
组合标注器
标注生词
存储标注器
性能限制
跨句子边界标注
5.6 基于转换的标注
5.7 如何确定一个词的分类
形态学线索
句法线索
语义线索
新词
词性标记集中的形态学
5.8 小结
5.9 练习

第6章 学习分类文本

6.1 有监督分类
性别鉴定
选择正确的特征
文档分类
探索上下文语境
序列分类
其他序列分类方法
6.2 有监督分类的更多例子
句子分割
识别对话行为类型
识别文字蕴含
扩展到大型数据集
6.3 评估
测试集
准确度
精确度和召回率
混淆矩阵
交叉验证
6.4 决策树
熵和信息增益
6.5 朴素贝叶斯分类器
潜在概率模型
零计数和平滑
非二元特征
独立的朴素
双重技术的原因
6.6 最大熵分类器
最大熵模型
熵的最大化
生成式分类器对比条件式分类器
6.7 为语言模式建模
模型告诉我们什么?
6.8 小结
6.9 练习

第7章 从文本提取信息

7.1 信息提取
信息提取结构
7.2 分块
名词短语分块
标记模式
用正则表达式分块
探索文本语料库
加缝隙
块的表示:标记与树
7.3 开发和评估分块器
读取IOB格式与CoNLL2000分块语料库
简单评估和基准
训练基于分类器的分块器
7.4 语言结构中的递归
用级联分块器构建嵌套结构
树遍历
路透社语料库
7.5 命名实体识别
7.6 关系抽取
7.7 小结
7.8 练习

第8章 分析句子结构

8.1 一些语法困境
语言数据和无限可能性
普遍存在的歧义
8.2 文法有什么用?
超越n-grams
8.3 上下文无关文法
一种简单的文法
写你自己的文法
句法结构中的递归
8.4 上下文无关文法分析
递归下降分析
移进-规约分析
做角落分析器
符合语句规则的字串表
8.5 依存关系和依存文法
配价与词汇
扩大规模
8.6 文法开发
树库与文法
有害的歧义
加权文法
8.7 小结
8.8 练习

第9章 建立基本特征的文法

9.1 文法特征
句法协议
使用属性和约束
术语
9.2 处理特征结构
包含和统一
9.3 扩转基本特征的文法
子类别
核心词回顾
助动词与倒装
无限制依赖成分
德语中的格和性别
9.4 小结
9.5 练习

第10章 分析句子的意思

10.1 自然语言理解
查询数据库
自然语言、语义和逻辑
10.2 命名逻辑
10.3 一阶逻辑
句法
一阶定理证明
一阶逻辑语言总结
真值模型
独立变量和赋值
量化
量词范围歧义
模型的建立
10.4 英语句子的语义
基于特征的文法中的合成语义学
lambda验算
量化的NP
及物动词
再述量词歧义
10.5 段落语义层
段落表示理论
段落处理
10.6 小结
10.7 练习

第11章 语言数据管理

11.1 语料库结构:一个案例研究
TIMIT的结构
主要设计特点
基本数据类型
11.2 语料库生命周期
语料库创建的三种方案
质量控制
维护与演变
11.3 数据采集
从网上获取数据
从字处理器文件获取数据
从电子表格和数据库中获取数据
转换数据格式
决定要包含标注层
标准和工具
处理濒危语言时特别注意事项
11.4 使用XML
语言结构中使用XML
XML的作用
ElementTree接口
使用ElementTree访问Toolbox数据
格式化条目
11.5 使用Toolbox数据
为每个条目添加一个字段
验证Toolbox词汇
11.6 使用OLAC元数据描述语言资源
元数据是什么?
OLAC:开放语言档案社区
11.7 小结
11.8 练习
posted @ 2018-11-28 22:21  ly803744  阅读(715)  评论(0编辑  收藏  举报