01 2019 档案

N-grams模型、停顿词（stopwords）和标准化处理 - NLP学习（2）

摘要：在上一节《Tokenization - NLP（1）》的学习中，我们主要学习了如何将一串字符串分割成单独的字符，并且形成一个词汇集（vocabulary），之后我们将形成的词汇集合转换成计算机可以处理的数字信息，以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分，让我们能阅读全文

posted @ 2019-01-02 14:15 JieLongZ 阅读(9366) 评论(1) 推荐(1) 编辑

持续学习的JielongZ

不积跬步无以至千里

01 2019 档案

公告