摘要:
上一节,我们尝试使用正则表达式工具来提取必要的信息,接下来则是要对提取出来的文本正规化。 基本的任务(根据实际应用会产生变化): 让文本句子token化/segment化(获得单词) 正规化**单词(word)**的形式 (例如提取单词的主干,比方说英语中的原型和过去式) 让句子segment化 上 阅读全文
摘要:
本文整理自 TUM 的英文 NLP 课程。 正则表达式:使用代数符号(例如:+-*/)去表征,查找一系列的字符串,是一种非常简单的分类器(搜索器)。 文中收录的可能不全,如果想要知道更加完整的指南,可以参考: -快速完整入门指南 (https://deerchao.cn/tutorials/rege 阅读全文