iUpoint

jieba、NLTK学习笔记

摘要：中文分词 - jiebaimport re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充，同时在商标上玩猫腻，分别注册“鲜土”、注册“好土”商标，让消费者误以为是“土鸡蛋”。3月15日晚间，新京报记者就此事致电湖北神阅读全文

posted @ 2019-08-08 11:19 iUpoint 阅读(1625) 评论(0) 推荐(0) 编辑

python 绘制词云图

摘要： 1. 先下载并安装nltk包，准备一张简单的图片存入代码所在文件目录，搜集英文停用词表 import nltk nltk.download() 2. 绘制词云图 import re import numpy as np import pandas as pd #import matplotlib i 阅读全文

posted @ 2019-08-07 16:54 iUpoint 阅读(3148) 评论(0) 推荐(0) 编辑

pymongo 笔记（转）

摘要： 1. 安装MongoDB并启动服务，安装PyMongo2. 连接MongoDB，并指定连接数据库、集合 3. 插入 4. 查询 5. 计数 6. 排序 7. 偏移 ''' 忽略前N个元素，取几条注意：在数据库数量非常庞大的时候，如千万、亿级别，最好不要使用大的偏移量来查询数据，因为这样很可能导致内阅读全文

posted @ 2019-08-07 10:27 iUpoint 阅读(225) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类器

摘要：在scikit-learn中，提供了3中朴素贝叶斯分类算法：GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯) 简单介绍：高斯朴素贝叶斯：适用于连续型数值，比如身高在160cm以下为一类，160-170cm为一个类，则阅读全文

posted @ 2019-08-06 17:07 iUpoint 阅读(1107) 评论(0) 推荐(0) 编辑

python 生成sql语句

摘要： 1. 别名 "'{}' as x{},\n".format(name[i], str(i+1)) 阅读全文

posted @ 2019-08-06 09:41 iUpoint 阅读(270) 评论(0) 推荐(0) 编辑

特征工程 - 特征筛选

摘要：特征筛选的方法主要包括：Filter（过滤法）、Wrapper（封装法）、Embedded（嵌入法） filter: 过滤法特征选择方法一：去掉取值变化小的特征（Removing features with low variance）方法虽然简单但是不太好用，可以把它作为特征选择的预处理，先去掉阅读全文

posted @ 2019-08-02 16:51 iUpoint 阅读(4427) 评论(0) 推荐(0) 编辑

密度聚类 - DBSCAN算法

摘要：参考资料：python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.dat 阅读全文

posted @ 2019-07-30 17:31 iUpoint 阅读(1480) 评论(0) 推荐(0) 编辑

关联规则算法

摘要： apriori算法参考链接： https://www.cnblogs.com/pinard/p/6293298.html https://www.cnblogs.com/lsqin/p/9342926.html https://blog.csdn.net/antkillerfarm/article 阅读全文

posted @ 2019-07-23 11:00 iUpoint 阅读(287) 评论(0) 推荐(0) 编辑

特征工程 - 分箱

摘要：卡方分箱卡方分箱原理数据分析与数据挖掘之四大分布三大检验 python自带分箱函数 -- 无法实现对分类型数据的分箱，可借助卡方分箱算法实现阅读全文

posted @ 2019-07-18 09:32 iUpoint 阅读(1348) 评论(0) 推荐(0) 编辑

pandas 排序之 sort_values，reindex，reset_index， sort_index

摘要：如果想按照自己的方式排序ind = 行索引data= data[ind] ind = data.sum(axis=1).sort_values(ascending=False).index data = data.loc[ind,:] data.reset_index() 注意：有时候 reset_ 阅读全文

posted @ 2019-07-17 14:47 iUpoint 阅读(1269) 评论(0) 推荐(0) 编辑