……

2020年5月20日
摘要: 一维数据集上的神经网络 代码实现: import numpy as np import matplotlib.pyplot as plt from sklearn import datasets import tensorflow.compat.v1 as tf tf.disable_v2_beha 阅读全文
posted @ 2020-05-20 15:25 大码王 阅读(1964) 评论(0) 推荐(0) 编辑
摘要: 张量 张量是tensorflow中的基本数据结构 # 全零张量 zero_tsr = tf.zeros([row_dim, col_dim]) # 全1张量 ones_tsr = tf.ones([row_dim, col_dim]) # 填充张量 filled_tsr = tf.fill([row 阅读全文
posted @ 2020-05-20 15:22 大码王 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 计算图中的操作 代码实现: import numpy as np import tensorflow.compat.v1 as tf tf.disable_v2_behavior() # 使用静态图模式运行以下代码 assert tf.__version__.startswith('2.') ses 阅读全文
posted @ 2020-05-20 15:21 大码王 阅读(2333) 评论(0) 推荐(0) 编辑
摘要: 现在越来越多的人工智能和机器学习以及深度学习,强化学习出现了,然后自己也对这个产生了点兴趣,特别的进行了一点点学习,就通过这篇文章来简单介绍一下,关于如何搭建Tensorflow以及如何进行使用。建议的话,还是要学习了一点Python基础知识和Linux知识是最好的! 版本:Windows7 一:安 阅读全文
posted @ 2020-05-20 15:10 大码王 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 第一章、mongodb入门 一、什么是MongoDB image.png MongoDB是一个介于关系数据库和非关系数据库(nosql)之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 MongoDB是开源,高性能的NoSQL数据库,支持索引、集群、复制和故障转移、各种语言的驱动程序丰富 阅读全文
posted @ 2020-05-20 14:56 大码王 阅读(336) 评论(0) 推荐(0) 编辑
摘要: airflow 介绍 airflow是一款开源的,分布式任务调度框架,它将一个具有上下级依赖关系的工作流,组装成一个有向无环图。 特点: 分布式任务调度:允许一个工作流的task在多台worker上同时执行 可构建任务依赖:以有向无环图的方式构建任务依赖关系 task原子性:工作流上每个task都是 阅读全文
posted @ 2020-05-20 14:44 大码王 阅读(1043) 评论(0) 推荐(0) 编辑
摘要: 1. 安装及初始化 # airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME 阅读全文
posted @ 2020-05-20 14:43 大码王 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 1, 简介 ​ Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和 阅读全文
posted @ 2020-05-20 14:38 大码王 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。 2)各任务单元之间存在时间先后及前后依赖关系。 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度 阅读全文
posted @ 2020-05-20 14:35 大码王 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 一、开关机 sync :把内存中的数据写到磁盘中(关机、重启前都需先执行sync) shutdown -rnow或reboot :立刻重启 shutdown -hnow :立刻关机 shutdown -h 19:00 :预定时间关闭系统(晚上7点关机,如果现在超过8点则第二天) shutdown - 阅读全文
posted @ 2020-05-20 14:24 大码王 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 目录操作 mkdir: 创建目录 -p : 递归的创建目录 也就是可以创建多层目录 一次创建多个目录: mkdir {a,b,c,d,e,f} 一次创建 a b c d e f多个目录。 rmdir:删除一个空文件夹 cp:复制文件或者文件夹 -a =-pdr -p 同时复制文件属性,比如修改日期 阅读全文
posted @ 2020-05-20 14:22 大码王 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 一、线性回归的概念 1.1、定义 线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。 优点:结果易于理解,计算不复杂。 缺点:对非线性的数据拟合不好。 适用数据类型:数值型和标称型。 1.2、分类 一元线性回归:涉及到的变量只有一 阅读全文
posted @ 2020-05-20 11:46 大码王 阅读(3947) 评论(0) 推荐(1) 编辑
摘要: 一、决策树的原理 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 。 二、决策树的现实案例 相亲 相亲决策树 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等 阅读全文
posted @ 2020-05-20 11:44 大码王 阅读(1408) 评论(0) 推荐(0) 编辑
摘要: 一、概率基础 概率定义:概率定义为一件事情发生的可能性,例如,随机抛硬币,正面朝上的概率。 联合概率:包含多个条件,且所有条件同时成立的概率,记作:𝑃(𝐴,𝐵) 。 条件概率:事件A在另外一个事件B已经发生条件下的发生概率,记作:𝑃(𝐴|𝐵) 。P(A1,A2|B) = P(A1|B)P 阅读全文
posted @ 2020-05-20 11:42 大码王 阅读(801) 评论(0) 推荐(1) 编辑
摘要: 一、什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源: KNN算法最早是由Cover和Hart提出的一种分类算法. 计算距离公式: 两个样本的距离可以通过如下公式计算,又叫欧式距离。 比如说,a(a1 阅读全文
posted @ 2020-05-20 11:41 大码王 阅读(1040) 评论(0) 推荐(0) 编辑
摘要: 一、机器学习概述 1.1、什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 1.2、为什么需要机器学习? 解放生产力,智能客服,可以不知疲倦的24小时作业 解决专业问题,ET医疗,帮助看病 提供社会便利,例如杭州的城市大脑 1.3、机器学习应用场景 自然语言 阅读全文
posted @ 2020-05-20 09:53 大码王 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 一、背景 用Python写了个脚本,需要部署到Linux环境的服务器上,由于服务器linux系统(centos,redhat等)自带的是python2,现在的python萌新都是从python3开始学习,所以需要给服务器配置一个python3环境,一番摸索过后,踩过一些坑,也总结了一下经验,故留此文 阅读全文
posted @ 2020-05-20 09:49 大码王 阅读(23764) 评论(0) 推荐(2) 编辑
摘要: 一、案例背景 在产品迭代过程中,通常需要根据用户的属性进行归类,也就是通过分析数据,对用户进行归类,以便于在推送及转化过程中获得更大的收益。 本案例是基于某互联网公司的实际用户购票数据为研究对象,对用户购票的时间,购买的金额进行了采集,每个用户用手机号来区别唯一性。数据分析人员根据用户购买的时间和金 阅读全文
posted @ 2020-05-20 09:46 大码王 阅读(1006) 评论(0) 推荐(0) 编辑
2020年5月19日
摘要: 一、原理 在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签. Spark ML 包中提供了几个相关的转换器: StringIndexer,IndexToString,OneHotEncoder,VectorIn 阅读全文
posted @ 2020-05-19 23:14 大码王 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 一、公式 卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差 卡方检验公式 其中:A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值) 二、相关概念 卡方分布:可以看出当观察值和理论值 阅读全文
posted @ 2020-05-19 23:11 大码王 阅读(475) 评论(0) 推荐(0) 编辑
复制代码