摘要: 中文文本分类 阅读全文
posted @ 2018-12-20 20:33 庄裕翔 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 3. 多元线性回归模型,建立13个变量与房价之间的预测模型,并检测模型好坏,并图形化显示检查结果 4. 一元多项式回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 阅读全文
posted @ 2018-12-10 11:26 庄裕翔 阅读(113) 评论(0) 推荐(0) 编辑
摘要: import csv file_path=r'E:\SMSSpamCollectionjsn.txt' sms = open(file_path,'r',encoding='utf-8') sms_data = [] sms_label = [] csv_reader = csv.reader(sms,delimiter='\t') # 将数据分别存入数据列表和目标分类列表 for line i... 阅读全文
posted @ 2018-12-03 11:11 庄裕翔 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 1.使用朴素贝叶斯模型对iris数据集进行花分类 尝试使用3种不同类型的朴素贝叶斯: 高斯分布型 多项式型 伯努利型 2.使用sklearn.model_selection.cross_val_score(),对模型进行验证 3. 垃圾邮件分类 阅读全文
posted @ 2018-11-26 11:38 庄裕翔 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习 1)、简述分类与聚类的联系与区别。 分类——分类是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。 聚类——聚类是事先不知道数据会分为几类,通过分析将数 阅读全文
posted @ 2018-11-22 21:48 庄裕翔 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 二 阅读全文
posted @ 2018-11-14 23:22 庄裕翔 阅读(172) 评论(0) 推荐(0) 编辑
摘要: import numpy as np x = np.random.randint(1,60,[30,1]) y = np.zeros(20) k = 3 #1选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心; def initcen(x,k): return x[:k] #2对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最... 阅读全文
posted @ 2018-11-10 10:44 庄裕翔 阅读(1966) 评论(0) 推荐(0) 编辑
摘要: #安装scipy,numpy,sklearn包 import numpy as np #从sklearn包自带的数据集中读出鸢尾花数据集data from sklearn.datasets import load_iris iris = load_iris() #查看data类型,包含哪些数据 print(type(iris)) #取出鸢尾花特征和鸢尾花类别数据,查看其形状及数据类型 print... 阅读全文
posted @ 2018-11-05 09:01 庄裕翔 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 1. 二、问题 数列: a = a1,a2,a3,·····,an b = b1,b2,b3,·····,bn 求: c = a12+b13,a22+b23,a32+b33,·····+an2+bn3 1.用列表+循环实现,并包装成函数 2.用numpy实现,并包装成函数 3.对比两种方法实现的效率 阅读全文
posted @ 2018-10-24 13:12 庄裕翔 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 2 阅读全文
posted @ 2018-10-15 11:44 庄裕翔 阅读(156) 评论(0) 推荐(0) 编辑