摘要: 尝试了使用词频的词表征进行kmeans,效果不好,所以考虑看看使用word2vec的词表征会有什么不同。 1.加载word2vec import gensimmodel = gensim.models.KeyedVectors.load_word2vec_format('word2vector.bi 阅读全文
posted @ 2019-05-16 18:26 xiaonezha 阅读(5190) 评论(0) 推荐(0) 编辑
摘要: 最近处理中文数据集经常用到jieba,记录一下遇到的问题。 1.分词 最常用的就是jieba.cut(text) 一般还会使用jieba.posseg进行词性过滤 词性表: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母 阅读全文
posted @ 2019-05-16 11:33 xiaonezha 阅读(741) 评论(0) 推荐(0) 编辑
摘要: 最近做数据预处理遇到了一些小问题,记录一下。 1.数据的读取和存储 一般读取数据使用pandas里的read_csv pd.read_csv(path, sep=',', header=None, nrows=n) 另外通用的读取为: with open(filename, 'r', encodin 阅读全文
posted @ 2019-05-16 11:06 xiaonezha 阅读(361) 评论(0) 推荐(0) 编辑