摘要:
1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() digits = load_digits() x_data = digits.data.astype(np.float32) y_data = digi 阅读全文
2020年6月10日
2020年6月3日
摘要:
1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,当今人工智能大爆炸的核心驱动。 搞清三者关系的最简单方法,就是把它们想象成一个同心圆,其中人工智能最大,此概念也最先问世;然后是机器学习,出现的稍晚; 阅读全文
2020年5月23日
摘要:
1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
2020年5月19日
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h 阅读全文
2020年5月9日
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 答: (1)分类与聚类: 分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行 阅读全文
2020年4月27日
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择 答:就是当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练的这样一个过程。 2、PCA 答:在空间上,PCA可以理解为把原始数据投射到一个新的坐标系统,第一主成分为第一坐标轴,它的含义代表了原始数据中多个变量经过某种变换得到 阅读全文
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) A 逻辑回归是怎么防止过拟合 1. 增加样本量,这是万能的方法,适用任何模型。 2. 如果数据稀疏,使用L1正则,其他情况,用L2要好,可自己尝试。 3. 通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。 阅读全文