摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 答:选择Kaggle分析数据项目 项目:房价预测(House Prices) 理由与意义:由于第一题Hadoop环境搭建困难重重,加上硬件设备需要500G+8G以上,故选择第二题。选择房价预测的目的是房价这 阅读全文
posted @ 2020-06-23 19:23 ling9709 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() #加载数据 from sklearn.datasets import load_digits import numpy as np import pan 阅读全文
posted @ 2020-06-14 20:04 ling9709 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能:计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。 机器学习:一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世 阅读全文
posted @ 2020-06-07 18:37 ling9709 阅读(123) 评论(0) 推荐(0) 编辑
摘要: java集合 概述 java 用于存放一组元素,其为了方便人们的操作 。 两个子接口:List:可重复 Set:不可重复集(equals方法) 常用方法: 添加元素:向集合中添加元素,返回boolean值 boolean add(E e) 返回值为boolean,true为添加成功,false为添加 阅读全文
posted @ 2020-06-02 10:11 ling9709 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-23 21:29 ling9709 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-15 00:27 ling9709 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类:分类是已经知道类别,具体的类别是哪一些,通过对已知的的数据进行训练,找到不同类的特征。 聚类是不知道会分成多少类,通过聚类分析将数据或者说用户聚合成几个群体,他不需要对数据进行训练 阅读全文
posted @ 2020-05-13 20:39 ling9709 阅读(282) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 特征选择也叫特征子集选择。分为有监督学习和无监督学习。从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的。 是从原始特征中选择出一些最有效特征以降低数据集维 阅读全文
posted @ 2020-05-04 18:58 ling9709 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-04-30 22:36 ling9709 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归可以通过正则化、加大数据样本,较少特征量。因为要拟合训练数据需要足够大的空间模型,正则化控制模型空间来减少误差。 2.用logiftic回归来进行实践操作,数据不限。 阅读全文
posted @ 2020-04-29 21:33 ling9709 阅读(139) 评论(0) 推荐(0) 编辑