2019 年 5月 16 日随笔档案 - xiaonezha

2019年5月16日

摘要：尝试了使用词频的词表征进行kmeans，效果不好，所以考虑看看使用word2vec的词表征会有什么不同。 1.加载word2vec import gensimmodel = gensim.models.KeyedVectors.load_word2vec_format('word2vector.bi 阅读全文

posted @ 2019-05-16 18:26 xiaonezha 阅读(5243) 评论(0) 推荐(0) 编辑

jieba的一些使用

摘要：最近处理中文数据集经常用到jieba，记录一下遇到的问题。 1.分词最常用的就是jieba.cut(text) 一般还会使用jieba.posseg进行词性过滤词性表： Ag 形语素形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。 a 形容词取英语形容词 adjective的第1个字母阅读全文

posted @ 2019-05-16 11:33 xiaonezha 阅读(746) 评论(0) 推荐(0) 编辑

pandas DataFrame的一些操作

摘要：最近做数据预处理遇到了一些小问题，记录一下。 1.数据的读取和存储一般读取数据使用pandas里的read_csv pd.read_csv(path, sep=',', header=None, nrows=n) 另外通用的读取为： with open(filename, 'r', encodin 阅读全文

posted @ 2019-05-16 11:06 xiaonezha 阅读(362) 评论(0) 推荐(0) 编辑

xiaonezha

公告