摘要:
part-of-speech (POS) POS其实就是对词进行一些分类,比如名词、动词、形容词、副词等。通过研究POS我们可以学习到更多词于词之间的关系,比如冠词一般在名词前,名词后面可能是动词,更进一步的,POS可以被应用到其他任务中,比如推测作者、信息抽取等等。由于很多语言在不同环境下存在多种 阅读全文
摘要:
什么是文本分类 文本分类任务是NLP十分常见的任务大类,他的输入一般是文本信息,输出则是预测得到的分类标签。主要的文本分类任务有主题分类、情感分析 、作品归属、真伪检测等,很多问题其实通过转化后也能用分类的方法去做。 常规步骤 选择一个感兴趣的任务 收集合适的数据集 做好标注 特征选择 选择一个机器 阅读全文
摘要:
语言模型 NLP是用来理解和解释语言的,语言模型可以帮助我们解决一些类型的问题,例如检查拼写、生成对话、内容识别、机器翻译等等,N-gram就是一种非常经典的语言模型。 Markov Assumption 一个简单假设:\(P(w_i|w_1...w_{i-1}) \approx P(w_i|w_{ 阅读全文