会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
mean1
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2020年6月23日
大数据应用技术课程实践--选题与实践方案
摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择 淘宝双11数据分析与预测 理由 复习一下以前的知识 二、实践方案 简要说明理由。 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析
阅读全文
posted @ 2020-06-23 19:49 mean1
阅读(142)
评论(0)
推荐(0)
编辑
2020年6月13日
15 手写数字识别-小数据集
摘要: 作业补交: 4.K均值算法--应用 5.线性回归算法 6.逻辑回归 8、特征选择 9、主成分分析 12.朴素贝叶斯-垃圾邮件分类 老师,我之前在家的时候,在家里干活,比较忙,没什么时间写作业,我现在回到学校重新补交给你。 本次作业: 1.手写数字数据集 from sklearn.datasets i
阅读全文
posted @ 2020-06-13 03:03 mean1
阅读(139)
评论(0)
推荐(0)
编辑
2020年6月7日
14 深度学习-卷积
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能:从概念提出到走向繁荣 机器学习:一种实现人工智能的方法 深度学习:一种实现机器学习的技术 三者之间的联系:人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,当今人工智能大爆炸的核心驱动。用一
阅读全文
posted @ 2020-06-07 17:34 mean1
阅读(168)
评论(0)
推荐(0)
编辑
5.线性回归算法
摘要: 1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为
阅读全文
posted @ 2020-06-07 15:06 mean1
阅读(278)
评论(0)
推荐(0)
编辑
9、主成分分析
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 特征选择是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
阅读全文
posted @ 2020-06-07 14:00 mean1
阅读(111)
评论(0)
推荐(0)
编辑
8、特征选择
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 代码: 运行结果:
阅读全文
posted @ 2020-06-07 13:59 mean1
阅读(98)
评论(0)
推荐(0)
编辑
4.K均值算法--应用
摘要: 1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 代码: 原图: 压缩后的图
阅读全文
posted @ 2020-06-07 13:46 mean1
阅读(107)
评论(0)
推荐(0)
编辑
6.逻辑回归
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。例如用逻辑回归实现一个猫分类器,输入一张图片 x ,预测图片是否为猫,输出该图片中存在猫的概
阅读全文
posted @ 2020-06-07 13:44 mean1
阅读(128)
评论(0)
推荐(0)
编辑
12.朴素贝叶斯-垃圾邮件分类
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl
阅读全文
posted @ 2020-06-07 13:43 mean1
阅读(98)
评论(0)
推荐(0)
编辑
2020年5月23日
13、垃圾邮件2
摘要: 1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target,
阅读全文
posted @ 2020-05-23 19:24 mean1
阅读(128)
评论(0)
推荐(0)
编辑
下一页