上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 17 下一页

2019年8月8日

jieba、NLTK学习笔记

摘要: 中文分词 - jiebaimport re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻, 分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。3月15日晚间,新京报记者就此 事致电湖北神 阅读全文

posted @ 2019-08-08 11:19 iUpoint 阅读(1625) 评论(0) 推荐(0) 编辑

2019年8月7日

python 绘制词云图

摘要: 1. 先下载并安装nltk包,准备一张简单的图片存入代码所在文件目录,搜集英文停用词表 import nltk nltk.download() 2. 绘制词云图 import re import numpy as np import pandas as pd #import matplotlib i 阅读全文

posted @ 2019-08-07 16:54 iUpoint 阅读(3148) 评论(0) 推荐(0) 编辑

pymongo 笔记(转)

摘要: 1. 安装MongoDB并启动服务,安装PyMongo2. 连接MongoDB,并指定连接数据库、集合 3. 插入 4. 查询 5. 计数 6. 排序 7. 偏移 ''' 忽略前N个元素,取几条 注意:在数据库数量非常庞大的时候,如千万、亿级别,最好不要使用大的偏移量来查询数据,因为这样很可能导致内 阅读全文

posted @ 2019-08-07 10:27 iUpoint 阅读(225) 评论(0) 推荐(0) 编辑

2019年8月6日

朴素贝叶斯分类器

摘要: 在scikit-learn中,提供了3中朴素贝叶斯分类算法:GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯) 简单介绍: 高斯朴素贝叶斯:适用于连续型数值,比如身高在160cm以下为一类,160-170cm为一个类,则 阅读全文

posted @ 2019-08-06 17:07 iUpoint 阅读(1107) 评论(0) 推荐(0) 编辑

python 生成sql语句

摘要: 1. 别名 "'{}' as x{},\n".format(name[i], str(i+1)) 阅读全文

posted @ 2019-08-06 09:41 iUpoint 阅读(270) 评论(0) 推荐(0) 编辑

2019年8月2日

特征工程 - 特征筛选

摘要: 特征筛选的方法主要包括:Filter(过滤法)、Wrapper(封装法)、Embedded(嵌入法) filter: 过滤法 特征选择方法一:去掉取值变化小的特征(Removing features with low variance) 方法虽然简单但是不太好用,可以把它作为特征选择的预处理,先去掉 阅读全文

posted @ 2019-08-02 16:51 iUpoint 阅读(4427) 评论(0) 推荐(0) 编辑

2019年7月30日

密度聚类 - DBSCAN算法

摘要: 参考资料:python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.dat 阅读全文

posted @ 2019-07-30 17:31 iUpoint 阅读(1480) 评论(0) 推荐(0) 编辑

2019年7月23日

关联规则算法

摘要: apriori算法 参考链接: https://www.cnblogs.com/pinard/p/6293298.html https://www.cnblogs.com/lsqin/p/9342926.html https://blog.csdn.net/antkillerfarm/article 阅读全文

posted @ 2019-07-23 11:00 iUpoint 阅读(287) 评论(0) 推荐(0) 编辑

2019年7月18日

特征工程 - 分箱

摘要: 卡方分箱 卡方分箱原理 数据分析与数据挖掘之四大分布三大检验 python自带分箱函数 -- 无法实现对分类型数据的分箱,可借助卡方分箱算法实现 阅读全文

posted @ 2019-07-18 09:32 iUpoint 阅读(1348) 评论(0) 推荐(0) 编辑

2019年7月17日

pandas 排序之 sort_values,reindex,reset_index, sort_index

摘要: 如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data = data.loc[ind,:] data.reset_index() 注意:有时候 reset_ 阅读全文

posted @ 2019-07-17 14:47 iUpoint 阅读(1269) 评论(0) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 17 下一页

导航