摘要: Docker和Docker-Compose简单搭建与基本设置 一、搭建 Docker 1.第一步当然是看官方文档 2.然后发现一大堆手动搭建的教程(然后小白就这样搭建了),然后发现最后有一键搭建脚本 curl -fsSL https://get.docker.com -o get-docker.sh 阅读全文
posted @ 2022-11-25 08:29 诚哥博客 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 读取 def read_dataset(file_path='../data/SMSSpamCollection'): """ 读取数据集 :return: 返回数据和标题 """ with open(file_path, encoding='utf-8') as f: # 读取数据 # 存储标题 阅读全文
posted @ 2020-06-10 21:31 诚哥博客 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 手写数字数据集 # 导入手写数据集 from sklearn.datasets import load_digits data = load_digits() print(data) 图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categ 阅读全文
posted @ 2020-06-09 22:47 诚哥博客 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 人工智能、机器学习和深度学习三者的联系与区别 人工智能(Artificial intelligence)简称AI。人工智能是计算机科学的一个分支,它企图了解智能的本质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门 阅读全文
posted @ 2020-06-01 21:50 诚哥博客 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 """ @author Rakers""" import pandas as pd df = pd.read_csv('../data/SMSSpamCollection', '\t', encoding='utf-8') print(d 阅读全文
posted @ 2020-05-20 12:44 诚哥博客 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 理解分类与监督学习、聚类与无监督学习 (1)简述分类与聚类的联系与区别。 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised 阅读全文
posted @ 2020-05-11 17:38 诚哥博客 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 描述出其本身的含义 特征选择 特征选择对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: (1)减少特征数量、降维,使模型泛化能力更强,减少过拟合 (2)增强对特征和特征 阅读全文
posted @ 2020-05-01 11:08 诚哥博客 阅读(2335) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? (1)增加样本量,这是万能的方法,适用任何模型; 如果数据稀疏,使用L1正则,其他情况,用L2要好,可自己尝试; 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度; 如果还过拟合,那就看看是否使用了过度复杂的特征构造工程,比如,某两个特 阅读全文
posted @ 2020-04-27 15:55 诚哥博客 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择 [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featur 阅读全文
posted @ 2020-04-27 14:54 诚哥博客 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 回归算法总结 回归是统计学中最有力的工具之一。机器习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候 阅读全文
posted @ 2020-04-22 15:51 诚哥博客 阅读(475) 评论(0) 推荐(0) 编辑