sakitam!

导航

2019年3月18日 #

中文词频统计

摘要: 一.下载一篇中文长篇小说并从文件中读取待分析文本 二.安装jieba 三. (1)更新词库,加入所分析对象的专业词汇。 (2)生成词频统计 (3)排序 (4)排除语法型词汇,代词、冠词、连词等停用词。 (5)输出词频最大TOP20,把结果存放到文件里 四.生成词云 阅读全文

posted @ 2019-03-18 21:42 sakitam! 阅读(90) 评论(0) 推荐(0) 编辑

2018年12月20日 #

期末大作业

摘要: 一、Boston房价预测 1. 导入boston房价数据集 2. 划分数据集 3.线性回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。 4. 多项式回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。 5. 比较线性模型与非线性模型的性能,并说明原因。 答: 二、中文文本分类 阅读全文

posted @ 2018-12-20 19:14 sakitam! 阅读(168) 评论(0) 推荐(0) 编辑

2018年12月13日 #

回归模型与房价预测

摘要: 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 3. 多元线性回归模型,建立13个变量与房价之间的预测模型,并检测模型好坏,并图形化显示检查结果。 4. 一元多项式回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 1. 导入bos 阅读全文

posted @ 2018-12-13 09:10 sakitam! 阅读(820) 评论(0) 推荐(0) 编辑

2018年12月6日 #

朴素贝叶斯应用:垃圾邮件分类

摘要: 1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 阅读全文

posted @ 2018-12-06 09:02 sakitam! 阅读(357) 评论(0) 推荐(0) 编辑

2018年11月29日 #

sklearn中的朴素贝叶斯模型及其应用

摘要: 一.使用朴素贝叶斯模型对iris数据集进行花分类;尝试使用3种不同类型的朴素贝叶斯: (1)高斯分布型 (2)多项式型 (3)伯努利型 二.使用sklearn.model_selection.cross_val_score(),对模型进行验证。 (1)高斯分布型 (2)多项式型 (3)伯努利型 三. 阅读全文

posted @ 2018-11-29 10:38 sakitam! 阅读(210) 评论(0) 推荐(0) 编辑

2018年11月18日 #

分类与监督学习,朴素贝叶斯分类算法

摘要: 一.理解分类与监督学习、聚类与无监督学习。 (1) 简述分类与聚类的联系与区别? 是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的,而是可 阅读全文

posted @ 2018-11-18 19:51 sakitam! 阅读(159) 评论(0) 推荐(0) 编辑

2018年11月5日 #

K-Means算法:图片压缩

摘要: 观察图片的大小: 概率作业: 阅读全文

posted @ 2018-11-05 15:43 sakitam! 阅读(206) 评论(0) 推荐(0) 编辑

2018年10月29日 #

聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用

摘要: 1. (一)选取初始数据中的k个对象作为初始的中心,每个对象代表一个聚类中心 (二) 对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最近的聚类中心所对应的类 (三)更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值 (四) 阅读全文

posted @ 2018-10-29 19:34 sakitam! 阅读(3145) 评论(0) 推荐(0) 编辑

2018年10月20日 #

numpy统计分布显示

摘要: #导包 import numpy as np #导入鸢尾花数据 from sklearn.datasets import load_iris data = load_iris() pental_len = data.data[:,2] print(pental_len) #计算尾花花瓣长度的最大值,平均值,中值,均方差 print("最大值:",np.max(pental_len)) prin... 阅读全文

posted @ 2018-10-20 20:11 sakitam! 阅读(148) 评论(0) 推荐(0) 编辑

2018年10月14日 #

numpy数据集练习

摘要: (1)安装scipy,numpy,sklearn包 (2)从sklearn包自带的数据集中读出鸢尾花数据集data (3)查看data类型,包含哪些数据 #加载numpy包 import numpy #加载sklearn包 from sklearn.datasets import load_iris 阅读全文

posted @ 2018-10-14 13:40 sakitam! 阅读(131) 评论(0) 推荐(0) 编辑