关闭页面特效

01 2021 档案

摘要:卷积神经网络CNN 结构 池化操作 手写数字-卷积神经网络实现 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.compat.v1.disable_eager_executio 阅读全文
posted @ 2021-01-31 23:42 清风紫雪 阅读(147) 评论(0) 推荐(0) 编辑
摘要:tensorboard展示网络结构 代码 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.compat.v1.disable_eager_execution() #载入数据集 阅读全文
posted @ 2021-01-30 22:44 清风紫雪 阅读(312) 评论(0) 推荐(0) 编辑
摘要:回归 回归三大模型 线性回归 岭回归 LASSO回归 使用回归模型预测鲍鱼年龄 一、导入数据,进行分析 可以看出鲍鱼有9个特征 每个特征所对应的数据代表的含义是: 数据集一共有 4177 个样本,每个样本有 9 个特征。其中 rings 为鲍鱼环数,能够代表鲍鱼年龄,是预测变量。除了 sex 为离散 阅读全文
posted @ 2021-01-30 17:15 清风紫雪 阅读(457) 评论(0) 推荐(0) 编辑
摘要:优化器总结 机器学习中,有很多优化方法来试图寻找模型的最优解。比如神经网络中可以采取最基本的梯度下降法。 梯度下降法(Gradient Descent) 梯度下降法是最基本的一类优化器,目前主要分为三种梯度下降法:标准梯度下降法(GD, Gradient Descent),随机梯度下降法(SGD, 阅读全文
posted @ 2021-01-29 19:56 清风紫雪 阅读(2215) 评论(1) 推荐(1) 编辑
摘要:交叉熵 二次代价函数 原理 缺陷 假如我们目标是收敛到0。A点为0.82离目标比较近,梯度比较大,权值调整比较大。B点为0.98离目标比较远,梯度比较小,权值调整比较小。调整方案不合理。 交叉熵代价函数(cross-entropy) 换一个思路,我们不改变激活函数,而是改变代价函数,改用交叉熵代价函 阅读全文
posted @ 2021-01-28 22:36 清风紫雪 阅读(216) 评论(0) 推荐(1) 编辑
摘要:有监督学习 含义 数据集中的样本带有标签,有明确目标 回归和分类 回归模型:线性回归、岭回归、LASSO和回归样条等 分类模型:逻辑回归、K近邻、决策树、支持向量机等 应用场景 垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。 无监督学习( unsupervised learni 阅读全文
posted @ 2021-01-26 22:44 清风紫雪 阅读(116) 评论(0) 推荐(0) 编辑
摘要:线性回归 步骤 构造线性回归数据 定义输入层 设计神经网络中间层 定义神经网络输出层 计算二次代价函数,构建梯度下降 进行训练,获取预测值 画图展示 代码 import tensorflow as tf import numpy as np import matplotlib.pyplot as p 阅读全文
posted @ 2021-01-26 16:48 清风紫雪 阅读(192) 评论(0) 推荐(0) 编辑
摘要:Tensorflow基本概念 使用图(graphs)来表示计算任务 在被称之为会话(Session)的上下文(context)中执行图 使用tensor表示数据 通过变量(Variable)维护状态 使用feed和fetch可以为任意的操作赋值或者从其中获取数据 Tensorflow是一个编程系统, 阅读全文
posted @ 2021-01-25 23:10 清风紫雪 阅读(172) 评论(0) 推荐(0) 编辑
摘要:最近因项目需要,学习了用flask搭建web项目,以下是自己的使用感悟 Flask框架结构 static:存储一些静态资源 templates:存储对应的view app.py:涉及到页面的跳转,以及与数据库的连接 实战案例-登录注册开发 注册页 register.html: 注意在引用资源时,路径 阅读全文
posted @ 2021-01-24 20:04 清风紫雪 阅读(1609) 评论(0) 推荐(0) 编辑
摘要:模型保存和加载 sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(rf, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 线性回归的模型保存加载案例 de 阅读全文
posted @ 2021-01-22 20:55 清风紫雪 阅读(385) 评论(0) 推荐(0) 编辑
摘要:欠拟合与过拟合 什么是过拟合与欠拟合 欠拟合 过拟合 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。 第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会 阅读全文
posted @ 2021-01-21 22:24 清风紫雪 阅读(334) 评论(0) 推荐(1) 编辑
摘要:线性回归 什么是线性回归 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归 线性回归的特征与目标的关系分析 线性回 阅读全文
posted @ 2021-01-20 20:57 清风紫雪 阅读(321) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯算法 朴素 假定特征与特征之间是相互独立的 贝叶斯公式 公式分为三个部分: P(C):每个文档类别的概率(某文档类别数/总文档数量) P(W│C):给定类别下特征(被预测文档中出现的词)的概率P(F1,F2,…) 预测文档中每个词的概率 计算方法:P(F1│C)=Ni/N (训练文档中去计 阅读全文
posted @ 2021-01-19 22:10 清风紫雪 阅读(365) 评论(0) 推荐(1) 编辑
摘要:数据集介绍与划分 数据集的划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75% 测试集:30% 20% 30% API sklearn.model_selection.train_te 阅读全文
posted @ 2021-01-18 23:04 清风紫雪 阅读(587) 评论(0) 推荐(0) 编辑
摘要:特征工程 特征抽取 文本特征提取-CountVectorizer 作用:对文本数据进行特征值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回词频矩阵 CountVectorizer.fit_transform(X) 阅读全文
posted @ 2021-01-17 22:07 清风紫雪 阅读(297) 评论(0) 推荐(0) 编辑
摘要:sklearn数据集 数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络上下载,函数的第一个参数是d 阅读全文
posted @ 2021-01-16 22:43 清风紫雪 阅读(384) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming Spark Streaming 介绍 批量计算 流计算 Spark Streaming 入门 Netcat 的使用 项目实例 目标:使用 Spark Streaming 程序和 Socket server 进行交互, 从 Server 处获取实时传输过来的字符串, 拆 阅读全文
posted @ 2021-01-15 22:35 清风紫雪 阅读(211) 评论(0) 推荐(0) 编辑
摘要:写此文的目的是为了方便寒假自己忘记填问卷星 一开始的想法和去年一样,去年就写过一版,想着今年不过就是改改数据,换换id而已,另外没想到的事情发生了。。。 满怀信心的写完代码 from selenium import webdriver import time import random def ru 阅读全文
posted @ 2021-01-14 22:42 清风紫雪 阅读(2277) 评论(0) 推荐(0) 编辑
摘要:今天要yum点东西到服务器上,然后本地centos6用yum下载包,就报了All mirror URLs are not using ftp, http[s] or file. 终于还是万能的度娘告诉我因为centos6的支持给官方停掉了...... 那你就这样做: sed -i "s|enable 阅读全文
posted @ 2021-01-14 16:26 清风紫雪 阅读(806) 评论(0) 推荐(0) 编辑
摘要:A分数 题目描述: 1/1 + 1/2 + 1/4 + 1/8 + 1/16 + .... 每项是前一项的一半,如果一共有20项,求这个和是多少,结果用分数表示出来。类似:3/2当然,这只是加了前2项而已。分子分母要求互质。 思路: 可以知道这是一个等比数列,求前20项的和,在进行化简,gcd即可 阅读全文
posted @ 2021-01-14 11:32 清风紫雪 阅读(187) 评论(0) 推荐(0) 编辑
摘要:有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark","hello hadoop").toDS() ds1.flatMap(item => item.split(" ")).show( 阅读全文
posted @ 2021-01-13 18:41 清风紫雪 阅读(644) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "n 阅读全文
posted @ 2021-01-12 22:28 清风紫雪 阅读(210) 评论(0) 推荐(0) 编辑
摘要:SparkSQL简介 SparkSQL 的出现契机 SparkSQL 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL  阅读全文
posted @ 2021-01-11 21:16 清风紫雪 阅读(109) 评论(0) 推荐(0) 编辑
摘要:综合案例 文件排序 解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/filesort.txt",3) 阅读全文
posted @ 2021-01-10 23:41 清风紫雪 阅读(172) 评论(0) 推荐(0) 编辑
摘要:Scala编程 1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为exercise2-1.scala, 阅读全文
posted @ 2021-01-09 21:26 清风紫雪 阅读(142) 评论(0) 推荐(0) 编辑
摘要:spark-shell 交互式编程 题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStruct 阅读全文
posted @ 2021-01-08 22:21 清风紫雪 阅读(394) 评论(0) 推荐(0) 编辑
摘要:Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize(Seq(1,2,3,4,5)) val rdd2=sc.parallelize(Seq(3,4,5, 阅读全文
posted @ 2021-01-07 22:32 清风紫雪 阅读(122) 评论(0) 推荐(0) 编辑
摘要:RDD算子 深入RDD 需求 给定一个网站的访问记录, 俗称 Access log 计算其中出现的独立 IP, 以及其访问的次数 数据格式如下: 代码: @Test def ipAGG(): Unit ={ //1.创建SparkContext val conf=new SparkConf().se 阅读全文
posted @ 2021-01-06 23:17 清风紫雪 阅读(114) 评论(0) 推荐(0) 编辑
摘要:RDD RDD 是什么 定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, 阅读全文
posted @ 2021-01-05 23:02 清风紫雪 阅读(145) 评论(0) 推荐(0) 编辑
摘要:提交命令sc.textFile(“hdfs://hadoop101:50070/data/wordcount.txt”).collect() spark报异常 这里时HDFS端口问题,将50070端口改为8020再提交sc.textFile(“hdfs://hadoop101:8020/data/w 阅读全文
posted @ 2021-01-05 12:23 清风紫雪 阅读(840) 评论(0) 推荐(0) 编辑
摘要:Spark环境搭建 下载包 所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2.2.0/ Spark 集群高可用搭建 对于 Spark Standalone 集群来说, 当 Wor 阅读全文
posted @ 2021-01-04 23:08 清风紫雪 阅读(227) 评论(0) 推荐(0) 编辑

关注
跳至底部
点击右上角即可分享
微信分享提示