摘要:
训练集(train set) 验证集(validation set) 测试集(test set) 一般需要将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数, 阅读全文
摘要:
Preprocess # 通用的预处理框架 import pandas as pd import numpy as np import scipy as sp # 文件读取 def read_csv_file(f, logging=False): print(" 读取数据 ") data = pd. 阅读全文
摘要:
阅读全文
摘要:
oc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据(基于loc和iloc 的混合) 同理,索引列数据也是如此! 举例说明: 1、分别使用loc、iloc、ix 索引第一行的数据: (1)loc import pandas as pddata=[[1,2 阅读全文
摘要:
前言 ———————————————————————————————————————— 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。 这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字化。 那什么是特征数字化呢?例子如下: 性别特征 阅读全文
摘要:
并行 集群计算。 并行计算。 并发 并发执行。 Spark Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算快10x 使用: java / Scala /R /python 提供80+算子 阅读全文
摘要:
一、Spark 是什么及其特点 Spark是基于内存计算的大数据并行计算框架,可用于构架大型的、低延迟的数据分析应用程序。 Spark具有如下几个主要特点:运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。 容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spa 阅读全文
摘要:
scatter 散点图 全页折叠 散点图 全页折叠 散点图 全页折叠 语法 scatter(x,y) scatter(x,y,sz) scatter(x,y,sz,c) scatter(___,'filled') scatter(___,mkr) scatter(___,Name,Value) sc 阅读全文
摘要:
一、协方差: 可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何? 你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。 从数值来看,协方差的数值越大,两个变量同向程度也就越大。反 阅读全文
摘要:
-------------------------------存储过程Study------------------------------ -------------------------------------------------------------------------- --删除表 drop table student go ------------... 阅读全文