2019 年 1月 26 日随笔档案 - python我的最爱

2019年1月26日

摘要：通过对特征做一个kmeans聚类，将聚类的结果做为文本的标签值，可以使得样本的特征更多我们从sklearn.cluster中导入Kmeans建立模型进行聚类代码：第一步：使用Dataframe格式化数据和使用数据格式化数据第二步：对字符串进行分词和去除停用词，并使用' '.join完成连接阅读全文

posted @ 2019-01-26 23:43 python我的最爱阅读(1500) 评论(0) 推荐(0) 编辑

摘要：函数说明： 1. cosing_similarity(array) 输入的样本为array格式，为经过词袋模型编码以后的向量化特征，用于计算两两样本之间的相关性当我们使用词频或者TFidf构造出词袋模型，并对每一个文章内容做词统计以后，我们如果要判断两个文章内容的相关性，这时候我们需要对数字映射阅读全文

posted @ 2019-01-26 21:40 python我的最爱阅读(8164) 评论(0) 推荐(0) 编辑

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

摘要： TF-idf模型：TF表示的是词频：即这个词在一篇文档中出现的频率 idf表示的是逆文档频率，即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的 TF-idf：表示TF*idf, 即词频*逆文档频率词袋模型不仅考虑了一个词阅读全文

posted @ 2019-01-26 19:54 python我的最爱阅读(937) 评论(0) 推荐(0) 编辑

机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型

摘要：函数说明： 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合，构造出新的词袋标签参数说明：ngram_range=(2, 2) 表示选用2个词进行前后的组合，构成新的标签值 Ngram模型表示的是，对于词频而言，只考虑一个词，这里我们在CountVe 阅读全文

posted @ 2019-01-26 19:37 python我的最爱阅读(5177) 评论(0) 推荐(1) 编辑

机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)

摘要：函数说明： 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换，这里我们用来去除标点符号参数说明：r'[^a-zA-Z0-9\s]' 配对的模式，^表示起始位置，\s表示终止位置，[]表示取中间部分，这个的意思是找出除字符串阅读全文

posted @ 2019-01-26 18:50 python我的最爱阅读(2060) 评论(0) 推荐(0) 编辑

机器学习入门-数值特征-时间特征处理

摘要：我们可以将一连串的时间特征进行拆分，比如：2015-03-08 10:30:00.360000+00:00，我们可以将其转换为日期类型，然后从里面提取年，月，日等时间信息对于一些hour，month等信息，我们也可以使用pd.cut将hour信息按照时刻转换为离散数据，如morning，afte 阅读全文

posted @ 2019-01-26 10:05 python我的最爱阅读(2659) 评论(0) 推荐(0) 编辑