2015年8月24日

Python自然语言处理学习笔记之信息提取步骤&分块(chunking)

摘要: 一、信息提取模型 信息提取的步骤共分为五步,原始数据为未经处理的字符串,第一步:分句,用nltk.sent_tokenize(text)实现,得到一个list of strings第二步:分词,[nltk.word_tokenize(sent) for sent in sentences]实现... 阅读全文

posted @ 2015-08-24 19:37 cs_暗流 阅读(12478) 评论(0) 推荐(0) 编辑

Python自然语言处理学习笔记之评价(evaluationd)

摘要: 对模型的评价是在test set上进行的,本文首先介绍测试集应该满足的特征,然后介绍四种评价方法。 一、测试集的选择 1、首先,测试集必须是严格独立于训练集的,否则评价结果一定很高,但是虚高,不适用于新案例。 2、如果分类的类别比较少,比如只有两个,而且每类的样本数大致相等,那100个样本... 阅读全文

posted @ 2015-08-24 11:53 cs_暗流 阅读(1831) 评论(1) 推荐(0) 编辑

Python自然语言处理学习笔记之选择正确的特征(错误分析 error analysis)

摘要: 选择合适的特征(features)对机器学习的效率非常重要。特征的提取是一个不断摸索的过程(trial-and-error),一般靠直觉来发现哪些特征对研究的问题是相关的。 一种做法是把你能想到的所有特征都加进去,然后再检查哪个特征是重要的(参考资料上说这叫"kitchen sink" app... 阅读全文

posted @ 2015-08-24 10:20 cs_暗流 阅读(912) 评论(0) 推荐(0) 编辑

导航