01 2021 档案
摘要:定义:降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 降维的两种方式 特征选择 主成分分析(可以理解一种特征提取的方式) 什么是特征选择 定义:数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。 方法: Filter(过滤式):主要
阅读全文
摘要:在后来的章节中,又介绍了“混乱大都市”和“设计之城”两个项目,将两种比较,形象的说出了好的架构与差的架构的一些特性。“混乱大都市”的最大问题是重复,它没有考虑好软件设计中最关键的品质,内聚和耦合。它的失败经验很值得我们借鉴:缺乏预见性和对架构的整体思考。版本的发布周期过于漫长;系统没有弹性,可扩展性
阅读全文
摘要:特征预处理 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 包含内容 数值型数据的无量纲化: 归一化 标准化 特征预处理API sklearn.preprocessing 为什么我们要进行归一化/标准化? 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容
阅读全文
摘要:点到平面距离 梯度下降法 梯度是方向导数中的最大值,梯度一定是函数上升的方向, 最小值为0, 即到达山顶 随机梯度下降法 感知机、支持向量机和逻辑回归 感知机 感知机的优化目标 感知机算法(SGD) 支持向量机:间隔最大化 支持向量机:样本损失函数 优化目标 逻辑回归:赋予样本概率解释 似然函数和负
阅读全文
摘要:plt.figure(figsize=(9, 6)) y_train_pred_ridge = ridge.predict(X_train[features_without_ones]) plt.scatter(y_train_pred_ridge, y_train_pred_ridge - y_t
阅读全文
摘要:文件读取与存储 我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。 CSV 读取:read_csv pandas.read_csv(filepath_or_buffer, sep =',', u
阅读全文
摘要:Pandas数据结构 Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。 其中Series是一维数据结构,DataFrame是二维的表格型数据结构,MultiIndex是三维的数据结构。 1.Series Series是一个类
阅读全文
摘要:应用groupby和聚合函数实现数据的分组与聚合 什么分组与聚合 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','r
阅读全文
摘要:机器学习定义: We define machine learning as a set of methods that can automatically detect patterns in data, and then use the uncovered patterns to predict
阅读全文
摘要:交叉表与透视表什么作用 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数 data.pivot_table
阅读全文
摘要:架构是系统设计的一部分,它突出了某些细节,并通过抽象省略掉了另一些细节。软件系统的架构包括行为上的和结构上的。外部行为描述展示了软件如何与用户、其他设备和外部设备进行交互,也就是需求。结构描述展示了软件如何被划分为多个部分,以及这些部分的关系。 2.架构设计目标 架构设计目标即另外一个需求,对其他开
阅读全文
摘要:为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。 什么是数据的离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 离散化有很多
阅读全文
摘要:类似 如何处理nan 判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) import pandas as pdimport numpy as npimport matplotlib.pyplot as plt movie = pd.read_csv("./data
阅读全文
摘要:Numpy介绍 Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。 Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。 Numpy使用ndarray对象来处理多维数组,该对象是一个快
阅读全文
摘要:特征提取 1 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 2 特征提取API sklearn.feature_extraction 字典特征提取 作用:对字典数据进行特征
阅读全文
摘要:画出某城市11点到12点1小时内每分钟的温度变化折线图,温度范围在15度~18度 import matplotlib.pyplot as plt import random # 画出温度变化图 # 0.准备x, y坐标的数据 x = range(60) y_shanghai = [random.un
阅读全文
摘要:安装jupyter_contrib_nbextensions库 安装该库的命令如下: python -m pip install jupyter_contrib_nbextensions 然后执行: jupyter contrib nbextension install --user --skip-
阅读全文
摘要:为什么要学习架构?之前,老师教我们软件架构的时候,就告诉我们,软件开发,先从架构入手。他说,弄清楚了架构,再来学习具体的语法和技术就很简单了。以前不懂,底层具体的细节都不了解,如何来构建一个系统呢?就像让我们去建造一栋大厦,刚开始想到的可能就是需要砖、砌墙的工具、、、、、这就像刚学习编程的自己,以为
阅读全文
摘要:3. 使用 netcat 数据源测试 Flume cd /usr/local/flume sudo vim ./conf/example.conf # example.conf: A single-node Flume configuration # Name the components on t
阅读全文
摘要:2. 使用 Avro 数据源测试 FlumeAvro 可以发送一个给定的文件给 Flume,Avro 源使用 AVRO RPC 机制。请对 Flume的相关配置文件进行设置,从而可以实现如下功能:在一个终端中新建一个文件helloworld.txt(里面包含一行文本“Hello World”),在另
阅读全文
运行项目连接Mysql时出现警告Establishing SSL connection without server‘s identity verification is not recommende
摘要:解决: jdbc:mysql://localhost:3306/testdb?characterEncoding=utf-8&useSSL=false
阅读全文
摘要:2 .编程实现将 RDD 转换为 DataFrame源文件内容如下(包含 id,name,age): 请将数据复制保存到 Linux 系统中,命名为 employee.txt,实现从 RDD 转换得到DataFrame,并按“id:1,name:Ella,age:36”的格式打印出 DataFram
阅读全文
摘要:Spark SQL 基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 json数据 { "id":1 ,"name":"Ella","age":36} { "id":2,"name":"Bob","age":29 } { "id":3 ,"n
阅读全文
摘要:2. 编写独立应用程序实现数据去重 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 20170103 x
阅读全文
摘要:安装过程参照: http://dblab.xmu.edu.cn/blog/1307-2/ 启动Spark: cd /usr/local/spark bin/spark-shell 运行例子: scala> 8*2+5 res0: Int = 21 退出: :quit
阅读全文
摘要:1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。+ + + + 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为 exercise2-1.scala
阅读全文
摘要:import os os.environ['TF_CPP_MIN_LOG_LEVEL']='2' #使tensorflow少打印一些不必要的信息 import tensorflow.compat.v1 as tf from tensorflow import keras from tensorflo
阅读全文
摘要:在安装第三方库的时候,Python报错 pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out. 原因是
阅读全文
摘要:将 tf.nn.softmax_cross_entropy_with_logits(_pred, y) 改为: tf.nn.softmax_cross_entropy_with_logits(logits=_pred, labels=y)
阅读全文
摘要:TensorFlow 2.0中contrib被弃用 于是将 from tensorflow.contrib import rnn 替换成 from tensorflow.python.ops import rnn 如果出现 AttributeError: module 'tensorflow.pyt
阅读全文
摘要:单线性回归 y=w*x+b import numpy as np import tensorflow as tf import matplotlib.pyplot as plt # 随机生成1000个点,围绕在y=0.1x+0.3的直线周围 num_points = 1000 vectors_set
阅读全文
摘要:解决方案: 打开Prompt命令行 activate tensorflow conda install matplotlib 等待下载完即可
阅读全文
摘要:加法: tf.add(x,y,name=None)参数说明:x:一个张量,必须是下列类型之一:bfloat16/half/float32/uint8/int8/int16/int32/int64/complex64/complex128/stringy: 一个张量,类型必须同xname:操作的名字,
阅读全文
摘要:TensorBoard是Tensorflow的可视化工具 import tensorflow.compat.v1 as tf #清除default graph和不断增加的结点 tf.reset_default_graph() #logdir改为自己机器上的合适路径 logdir=r'D:\360Mo
阅读全文
摘要:会话(session):会话拥有并管理Tensorflow程序运行时的所有资源,计算之后需关闭会话回收资源 import tensorflow.compat.v1 as tf #定义计算图 tens=tf.constant([1,2,4]) #创建一个会话 sess=tf.Session() # 使
阅读全文
摘要:我的环境:win10 和anaconda3.5 在jupyter notebook执行import tensorflow as tf时,会发生错误:No module named tensorflow 在jupyter notebook的选项中还是只有python3,并没有刚安装的环境 解决办法 打
阅读全文

浙公网安备 33010602011771号