随笔分类 - 数据炼金
摘要:TensorFlow基础 1、概念 TF使用图表示计算任务,图包括数据(Data)、流(Flow)、图(Graph) 图中节点称为op,一个op获得多个Tensor Tensor为张量,TF中用到的数据都是Tensor 图必须在 中启动 示例 计算两个矩阵的乘积, 2、Tensor类型 (1)常量
阅读全文
摘要:一、基本概念 1、逻辑回归与线性回归的区别? 预测得到的是一个数值,而 预测到的数值只有0、1两个值。 是在线性回归的基础上,加上一个 ,让其值位于 之间,最后获得的值大于 判断为 ,小于等于 判断为 二、逻辑回归的推导 表示 ,表示 1、一般公式 $$ \hat y = wx
阅读全文
摘要:一、Numpy介绍、为什么要用Numpy 1、Numpy介绍 是Python的一个扩展包,语法和Matlab有很多相似之处。它支持高维数组和矩阵运算,也提供了许多数组和矩阵运算的函数。另外,它在数组和矩阵运算方面速度很快,效率很高。 2、为什么要用Numpy 与``非向量化计算``性能比较 为什么向
阅读全文
摘要:"个人掘金链接" "个人博客原文链接" 一、数学基础 似然函数 概率(probability):描述已知参数时的随机变量的输出结果; 似然函数(likelihood):用来描述已知随机变量输出结果时,未知参数的可能取值。 似然函数
阅读全文
摘要:"个人博客原文链接" "个人掘金链接" 本文简单地介绍计算机图形处理的一些基本概念,以及一些有趣的例子和对应的Open CV的代码操作。 顺便说一句,恭喜IG夺冠! 一、图片存储原理 1、颜色空间RGB (1)RGB三通道彩色图 图片由三维矩阵叠加而成([0,255]),通俗讲就是将三个分别只有R(
阅读全文
摘要:目录 一、爬一个简单的网站 二、模拟登录与使用selenium 三、多线程爬取与反爬策略 四、加密与解密 五、APP数据抓取 六、分布式爬虫 一、爬取一个简单的网站 本章教程,我们使用python爬取博客园的文章,并解析获取到的数据,重点会介绍 几种不同python库的使用方法 来获取数据。爬取一个
阅读全文
摘要:Hadoop目录下的配置文件 1、core site.xml (老版本是fs.default.name)描述集群中NameNode节点的URI 2、hdfs site.xml 决定系统中文件块的数据备份个数 3、mapred site.xml 4、yarn site.xml 配置ResourceMa
阅读全文
摘要:一、启动Spark 1、standalone模式 __方法一:__ (1)启动主节点 访问http://127.0.0.1:8080,得到如下页面 注意标记到的链接就是spark master节点的链接 (2)启动从节点 再次访问http://127.0.0.1:8080,得到如下页面 可以看到,从
阅读全文
摘要:1、不存在叫XXX这个名字的程序包> library(reshape)Error in library(reshape) : 不存在叫‘reshape’这个名字的程辑包解决方法:先安装,后加载(1)安装,如需要安装reshape程序包> install.packages("reshape")(2)加...
阅读全文
摘要:一、基础操作1、根据数据信息,创建数据框> manager date country age gender q1 q2 q3 q4 q5 leadership mydatatest mydatatestmeanx leadership$a...
阅读全文
摘要:一、模拟随机游走数据示例x b b [,1] [,2] [,3][1,] 1 3 5[2,] 2 4 6>
阅读全文
摘要:一、概念 一张图就可以理解决策树是什么 图中的属性有三种:No Surfacing (水下是否可生存)、Filppers(有无脚蹼)、Fish(鱼),通常我们通过前两个属性来判断第三个属性,判断到底是不是鱼。所以 第三个属性这里就称它为决策属性 二、构建决策树的基本步骤 1、将所有数据看作是一个节点
阅读全文
摘要:1、数据集
通常是由数据构成的一个矩形数组,行 表示 观测(记录、示例),列 表示 变量(字段、属性)
阅读全文
摘要:从今天开始接触R语言,主要参考的书籍是《R语言实战》。1、安装R语言程序Windows:http://mirror.bjtu.edu.cn/cran/Linux:apt-get install r-base我用的是Windows下的R2、开始第一个小的实例用R的函数来计算婴儿的平均体重、标准差、相关...
阅读全文
摘要:一、数据的相关问题 二、名词解释 数据集:数据对象的集合 属性:对象的性质或特性 测量标度:将数值或符号值与对象的属性相关联的规则 数据集的特性 维度 稀疏性:非零项所占比例很小,只存非零项,可节省时间和空间 分辨率:影响数据的性质 数据清理:清理不真实或重复的对象(如人的身高2米,体重2kg) 涉
阅读全文
