随笔档案「2021年1月」 - 清风紫雪

Tensorflow-卷积神经网络CNN

摘要：卷积神经网络CNN 结构池化操作手写数字-卷积神经网络实现 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.compat.v1.disable_eager_executio 阅读全文

posted @ 2021-01-31 23:42 清风紫雪阅读(169) 评论(0) 推荐(0)

Tensorflow-tensorboard展示网络结构

摘要：tensorboard展示网络结构代码 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.compat.v1.disable_eager_execution() #载入数据集阅读全文

posted @ 2021-01-30 22:44 清风紫雪阅读(332) 评论(0) 推荐(0)

机器学习十讲-第二讲回归

摘要：回归回归三大模型线性回归岭回归 LASSO回归使用回归模型预测鲍鱼年龄一、导入数据，进行分析可以看出鲍鱼有9个特征每个特征所对应的数据代表的含义是：数据集一共有 4177 个样本，每个样本有 9 个特征。其中 rings 为鲍鱼环数，能够代表鲍鱼年龄，是预测变量。除了 sex 为离散阅读全文

posted @ 2021-01-30 17:15 清风紫雪阅读(526) 评论(0) 推荐(0)

Tensorflow-各种优化器总结与比较

摘要：优化器总结机器学习中，有很多优化方法来试图寻找模型的最优解。比如神经网络中可以采取最基本的梯度下降法。梯度下降法(Gradient Descent) 梯度下降法是最基本的一类优化器，目前主要分为三种梯度下降法：标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, 阅读全文

posted @ 2021-01-29 19:56 清风紫雪阅读(2311) 评论(1) 推荐(1)

Tensorflow-交叉熵&过拟合

摘要：交叉熵二次代价函数原理缺陷假如我们目标是收敛到0。A点为0.82离目标比较近,梯度比较大，权值调整比较大。B点为0.98离目标比较远,梯度比较小,权值调整比较小。调整方案不合理。交叉熵代价函数(cross-entropy) 换一个思路，我们不改变激活函数，而是改变代价函数，改用交叉熵代价函阅读全文

posted @ 2021-01-28 22:36 清风紫雪阅读(233) 评论(0) 推荐(1)

机器学习十讲-第一讲

摘要：有监督学习含义数据集中的样本带有标签,有明确目标回归和分类回归模型:线性回归、岭回归、LASSO和回归样条等分类模型:逻辑回归、K近邻、决策树、支持向量机等应用场景垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。无监督学习( unsupervised learni 阅读全文

posted @ 2021-01-26 22:44 清风紫雪阅读(125) 评论(0) 推荐(0)

Tensorflow-线性回归与手写数字分类

摘要：线性回归步骤构造线性回归数据定义输入层设计神经网络中间层定义神经网络输出层计算二次代价函数，构建梯度下降进行训练，获取预测值画图展示代码 import tensorflow as tf import numpy as np import matplotlib.pyplot as p 阅读全文

posted @ 2021-01-26 16:48 清风紫雪阅读(214) 评论(0) 推荐(0)

Tensorflow-基础使用

摘要：Tensorflow基本概念使用图（graphs）来表示计算任务在被称之为会话（Session）的上下文（context）中执行图使用tensor表示数据通过变量（Variable）维护状态使用feed和fetch可以为任意的操作赋值或者从其中获取数据 Tensorflow是一个编程系统，阅读全文

posted @ 2021-01-25 23:10 清风紫雪阅读(188) 评论(0) 推荐(0)

Python-Flask搭建Web项目

摘要：最近因项目需要，学习了用flask搭建web项目，以下是自己的使用感悟 Flask框架结构 static：存储一些静态资源 templates：存储对应的view app.py：涉及到页面的跳转，以及与数据库的连接实战案例-登录注册开发注册页 register.html: 注意在引用资源时，路径阅读全文

posted @ 2021-01-24 20:04 清风紫雪阅读(1660) 评论(0) 推荐(0)

机器学习7-模型保存&无监督学习

摘要：模型保存和加载 sklearn模型的保存和加载API from sklearn.externals import joblib 保存：joblib.dump(rf, 'test.pkl') 加载：estimator = joblib.load('test.pkl') 线性回归的模型保存加载案例 de 阅读全文

posted @ 2021-01-22 20:55 清风紫雪阅读(416) 评论(0) 推荐(0)

机器学习6-回归改进

摘要：欠拟合与过拟合什么是过拟合与欠拟合欠拟合过拟合第一种情况：因为机器学习到的天鹅特征太少了，导致区分标准太粗糙，不能准确识别出天鹅。第二种情况：机器已经基本能区别天鹅和其他动物了。然后，很不巧已有的天鹅图片全是白天鹅的，于是机器经过学习后，会认为天鹅的羽毛都是白的，以后看到羽毛是黑的天鹅就会阅读全文

posted @ 2021-01-21 22:24 清风紫雪阅读(360) 评论(0) 推荐(1)

机器学习5-线性回归

摘要：线性回归什么是线性回归定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，大于一个自变量情况的叫做多元回归线性回归的特征与目标的关系分析线性回阅读全文

posted @ 2021-01-20 20:57 清风紫雪阅读(363) 评论(0) 推荐(0)

机器学习4-分类算法2

摘要：朴素贝叶斯算法朴素假定特征与特征之间是相互独立的贝叶斯公式公式分为三个部分： P(C)：每个文档类别的概率(某文档类别数／总文档数量) P(W│C)：给定类别下特征（被预测文档中出现的词）的概率P(F1,F2,…) 预测文档中每个词的概率计算方法：P(F1│C)=Ni/N （训练文档中去计阅读全文

posted @ 2021-01-19 22:10 清风紫雪阅读(400) 评论(0) 推荐(1)

机器学习3-分类算法

摘要：数据集介绍与划分数据集的划分机器学习一般的数据集会划分为两个部分：训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效划分比例：训练集：70% 80% 75% 测试集：30% 20% 30% API sklearn.model_selection.train_te 阅读全文

posted @ 2021-01-18 23:04 清风紫雪阅读(636) 评论(0) 推荐(0)

机器学习2-特征工程

摘要：特征工程特征抽取文本特征提取-CountVectorizer 作用：对文本数据进行特征值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回词频矩阵 CountVectorizer.fit_transform(X) 阅读全文

posted @ 2021-01-17 22:07 清风紫雪阅读(345) 评论(0) 推荐(0)

机器学习1-sklearn&字典特征抽取

摘要：sklearn数据集数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集，数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集，需要从网络上下载，函数的第一个参数是d 阅读全文

posted @ 2021-01-16 22:43 清风紫雪阅读(412) 评论(0) 推荐(0)

Spark学习进度11-Spark Streaming&Structured Streaming

摘要：Spark Streaming Spark Streaming 介绍批量计算流计算 Spark Streaming 入门 Netcat 的使用项目实例目标：使用 Spark Streaming 程序和 Socket server 进行交互, 从 Server 处获取实时传输过来的字符串, 拆阅读全文

posted @ 2021-01-15 22:35 清风紫雪阅读(242) 评论(0) 推荐(0)

使用Python自动填写问卷星(pyppeteer反爬虫版)

摘要：写此文的目的是为了方便寒假自己忘记填问卷星一开始的想法和去年一样，去年就写过一版，想着今年不过就是改改数据，换换id而已，另外没想到的事情发生了。。。满怀信心的写完代码 from selenium import webdriver import time import random def ru 阅读全文

posted @ 2021-01-14 22:42 清风紫雪阅读(2351) 评论(0) 推荐(0)

All mirror URLs are not using ftp, http[s] or file.

摘要：今天要yum点东西到服务器上，然后本地centos6用yum下载包，就报了All mirror URLs are not using ftp, http[s] or file. 终于还是万能的度娘告诉我因为centos6的支持给官方停掉了...... 那你就这样做： sed -i "s|enable 阅读全文

posted @ 2021-01-14 16:26 清风紫雪阅读(821) 评论(0) 推荐(0)

2018蓝桥杯A组省赛A,B,C,D

摘要：A分数题目描述： 1/1 + 1/2 + 1/4 + 1/8 + 1/16 + .... 每项是前一项的一半，如果一共有20项,求这个和是多少，结果用分数表示出来。类似：3/2当然，这只是加了前2项而已。分子分母要求互质。思路：可以知道这是一个等比数列，求前20项的和，在进行化简，gcd即可阅读全文

posted @ 2021-01-14 11:32 清风紫雪阅读(215) 评论(0) 推荐(0)

Spark学习进度10-DS&DF基础操作

摘要：有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark","hello hadoop").toDS() ds1.flatMap(item => item.split(" ")).show( 阅读全文

posted @ 2021-01-13 18:41 清风紫雪阅读(670) 评论(0) 推荐(0)

SparkSQL学习进度9-SQL实战案例

摘要：Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "n 阅读全文

posted @ 2021-01-12 22:28 清风紫雪阅读(237) 评论(0) 推荐(0)

Spark学习进度8-SparkSQL

摘要：SparkSQL简介 SparkSQL 的出现契机 SparkSQL 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 阅读全文

posted @ 2021-01-11 21:16 清风紫雪阅读(134) 评论(0) 推荐(0)

Spark学习进度7-综合案例

摘要：综合案例文件排序解法： 1.读取数据 2.数据清洗，变换数据格式 3.从新分区成一个分区 4.按照key排序，返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/filesort.txt",3) 阅读全文

posted @ 2021-01-10 23:41 清风紫雪阅读(187) 评论(0) 推荐(0)

Spark学习进度-Scala编程

摘要：Scala编程 1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn，直到 Sn 刚好大于或等于 q为止，其中 q 为大于 0 的整数，其值通过键盘输入。例如，若 q 的值为 50.0，则输出应为：Sn=50.416695。请将源文件保存为exercise2-1.scala，阅读全文

posted @ 2021-01-09 21:26 清风紫雪阅读(148) 评论(0) 推荐(0)

Spark学习进度-实战测试

摘要：spark-shell 交互式编程题目：该数据集包含了某大学计算机系的成绩，数据格式如下所示： Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,DataStruct 阅读全文

posted @ 2021-01-08 22:21 清风紫雪阅读(415) 评论(0) 推荐(0)

Spark学习进度-Transformation算子

摘要：Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize(Seq(1,2,3,4,5)) val rdd2=sc.parallelize(Seq(3,4,5, 阅读全文

posted @ 2021-01-07 22:32 清风紫雪阅读(140) 评论(0) 推荐(0)

Spark学习进度-RDD算子

摘要：RDD算子深入RDD 需求给定一个网站的访问记录, 俗称 Access log 计算其中出现的独立 IP, 以及其访问的次数数据格式如下：代码： @Test def ipAGG(): Unit ={ //1.创建SparkContext val conf=new SparkConf().se 阅读全文

posted @ 2021-01-06 23:17 清风紫雪阅读(122) 评论(0) 推荐(0)

Spark学习进度-RDD

摘要：RDD RDD 是什么定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, 阅读全文

posted @ 2021-01-05 23:02 清风紫雪阅读(180) 评论(0) 推荐(0)

spark读取HDFS目录时报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferException

摘要：提交命令sc.textFile(“hdfs://hadoop101:50070/data/wordcount.txt”).collect() spark报异常这里时HDFS端口问题，将50070端口改为8020再提交sc.textFile(“hdfs://hadoop101:8020/data/w 阅读全文

posted @ 2021-01-05 12:23 清风紫雪阅读(909) 评论(0) 推荐(0)

Spark学习进度-Spark环境搭建&Spark shell

摘要：Spark环境搭建下载包所需Spark包：我选择的是2.2.0的对应Hadoop2.7版本的，下载地址：https://archive.apache.org/dist/spark/spark-2.2.0/ Spark 集群高可用搭建对于 Spark Standalone 集群来说, 当 Wor 阅读全文

posted @ 2021-01-04 23:08 清风紫雪阅读(243) 评论(0) 推荐(0)

清风紫雪

01 2021 档案

公告