摘要: 上一篇博客介绍了文本离散表示的one-hot、TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践。 文本的one-hot相对而言比较简单,我用了两种方法,一种是自己造轮子,第二种是用深度学习框架keras来做。同时,我发现尽管sklearn可以实现对特征 阅读全文
posted @ 2019-03-16 22:26 Luv_GEM 阅读(2674) 评论(0) 推荐(0) 编辑
摘要: 一、文本表示 文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。 文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。字级别(char level)的如把“邓紫棋实在太可爱了,我想养一只”这句话拆成一个个的字:{邓,紫,棋,实,在,太 阅读全文
posted @ 2019-03-16 18:59 Luv_GEM 阅读(10801) 评论(0) 推荐(1) 编辑