随笔档案「2021年1月」 - ziyuliu

特征降维

摘要：定义：降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程降维的两种方式特征选择主成分分析（可以理解一种特征提取的方式）什么是特征选择定义：数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。方法： Filter(过滤式)：主要阅读全文

posted @ 2021-01-31 18:54 ziyuliu 阅读(622) 评论(0) 推荐(0)

架构之美阅读笔记03

摘要：在后来的章节中，又介绍了“混乱大都市”和“设计之城”两个项目，将两种比较，形象的说出了好的架构与差的架构的一些特性。“混乱大都市”的最大问题是重复，它没有考虑好软件设计中最关键的品质，内聚和耦合。它的失败经验很值得我们借鉴：缺乏预见性和对架构的整体思考。版本的发布周期过于漫长；系统没有弹性，可扩展性阅读全文

posted @ 2021-01-30 21:41 ziyuliu 阅读(54) 评论(0) 推荐(0)

特征工程-数据预处理---归一化和标准化

摘要：特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程包含内容数值型数据的无量纲化：归一化标准化特征预处理API sklearn.preprocessing 为什么我们要进行归一化/标准化？特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容阅读全文

posted @ 2021-01-30 02:07 ziyuliu 阅读(535) 评论(0) 推荐(0)

第三讲分门别类，各得其所--分类-----学习总结

摘要：点到平面距离梯度下降法梯度是方向导数中的最大值，梯度一定是函数上升的方向，最小值为0，即到达山顶随机梯度下降法感知机、支持向量机和逻辑回归感知机感知机的优化目标感知机算法（SGD）支持向量机：间隔最大化支持向量机：样本损失函数优化目标逻辑回归：赋予样本概率解释似然函数和负阅读全文

posted @ 2021-01-29 23:18 ziyuliu 阅读(163) 评论(0) 推荐(0)

第二讲回归初心，方得始终--回归-----学习总结

摘要：plt.figure(figsize=(9, 6)) y_train_pred_ridge = ridge.predict(X_train[features_without_ones]) plt.scatter(y_train_pred_ridge, y_train_pred_ridge - y_t 阅读全文

posted @ 2021-01-28 23:53 ziyuliu 阅读(411) 评论(0) 推荐(0)

pandas文件读取

摘要：文件读取与存储我们的数据大部分存在于文件当中，所以pandas会支持复杂的IO操作，pandas的API支持众多的文件格式，如CSV、SQL、XLS、JSON、HDF5。 CSV 读取：read_csv pandas.read_csv(filepath_or_buffer, sep =',', u 阅读全文

posted @ 2021-01-28 23:04 ziyuliu 阅读(659) 评论(0) 推荐(0)

pandas学习

摘要：Pandas数据结构 Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。其中Series是一维数据结构，DataFrame是二维的表格型数据结构，MultiIndex是三维的数据结构。 1.Series Series是一个类阅读全文

posted @ 2021-01-27 18:33 ziyuliu 阅读(192) 评论(0) 推荐(0)

pandas分组与聚合

摘要：应用groupby和聚合函数实现数据的分组与聚合什么分组与聚合分组API DataFrame.groupby(key, as_index=False) key:分组的列数据，可以多个案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','r 阅读全文

posted @ 2021-01-26 21:32 ziyuliu 阅读(191) 评论(0) 推荐(0)

第一讲机器会学习么?--介绍学习-----学习总结

摘要：机器学习定义： We define machine learning as a set of methods that can automatically detect patterns in data, and then use the uncovered patterns to predict 阅读全文

posted @ 2021-01-26 18:20 ziyuliu 阅读(170) 评论(0) 推荐(0)

pandas交叉表与透视表学习

摘要：交叉表与透视表什么作用交叉表：交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表：透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数 data.pivot_table 阅读全文

posted @ 2021-01-25 21:31 ziyuliu 阅读(184) 评论(0) 推荐(0)

架构之美阅读笔记02

摘要：架构是系统设计的一部分，它突出了某些细节，并通过抽象省略掉了另一些细节。软件系统的架构包括行为上的和结构上的。外部行为描述展示了软件如何与用户、其他设备和外部设备进行交互，也就是需求。结构描述展示了软件如何被划分为多个部分，以及这些部分的关系。 2.架构设计目标架构设计目标即另外一个需求，对其他开阅读全文

posted @ 2021-01-24 21:40 ziyuliu 阅读(54) 评论(0) 推荐(0)

pandas数据离散化和合并

摘要：为什么要离散化连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。什么是数据的离散化连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。离散化有很多阅读全文

posted @ 2021-01-24 21:30 ziyuliu 阅读(179) 评论(0) 推荐(0)

pandas----高级处理-缺失值处理

摘要：类似如何处理nan 判断数据中是否包含NaN： pd.isnull(df) pd.notnull(df) import pandas as pdimport numpy as npimport matplotlib.pyplot as plt movie = pd.read_csv("./data 阅读全文

posted @ 2021-01-23 20:58 ziyuliu 阅读(166) 评论(0) 推荐(0)

Numpy学习

摘要：Numpy介绍 Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。 Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用Python要简洁的多。 Numpy使用ndarray对象来处理多维数组，该对象是一个快阅读全文

posted @ 2021-01-22 17:35 ziyuliu 阅读(175) 评论(0) 推荐(0)

特征工程--特征抽取

摘要：特征提取 1 将任意数据（如文本或图像）转换为可用于机器学习的数字特征注：特征值化是为了计算机更好的去理解数据字典特征提取(特征离散化) 文本特征提取图像特征提取（深度学习将介绍） 2 特征提取API sklearn.feature_extraction 字典特征提取作用：对字典数据进行特征阅读全文

posted @ 2021-01-22 16:48 ziyuliu 阅读(300) 评论(0) 推荐(0)

Matplotlib绘图学习

摘要：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度 import matplotlib.pyplot as plt import random # 画出温度变化图 # 0.准备x, y坐标的数据 x = range(60) y_shanghai = [random.un 阅读全文

posted @ 2021-01-21 17:43 ziyuliu 阅读(214) 评论(0) 推荐(0)

安装jupyter_contrib_nbextensions库

摘要：安装jupyter_contrib_nbextensions库安装该库的命令如下： python -m pip install jupyter_contrib_nbextensions 然后执行： jupyter contrib nbextension install --user --skip- 阅读全文

posted @ 2021-01-21 17:16 ziyuliu 阅读(529) 评论(0) 推荐(0)

1.20

摘要：1.20 阅读全文

posted @ 2021-01-20 23:35 ziyuliu 阅读(48) 评论(0) 推荐(0)

架构之美阅读笔记01

摘要：为什么要学习架构？之前，老师教我们软件架构的时候，就告诉我们，软件开发，先从架构入手。他说，弄清楚了架构，再来学习具体的语法和技术就很简单了。以前不懂，底层具体的细节都不了解，如何来构建一个系统呢？就像让我们去建造一栋大厦，刚开始想到的可能就是需要砖、砌墙的工具、、、、、这就像刚学习编程的自己，以为阅读全文

posted @ 2021-01-19 19:57 ziyuliu 阅读(82) 评论(0) 推荐(0)

使用 netcat 数据源测试 Flume

摘要：3. 使用 netcat 数据源测试 Flume cd /usr/local/flume sudo vim ./conf/example.conf # example.conf: A single-node Flume configuration # Name the components on t 阅读全文

posted @ 2021-01-18 18:49 ziyuliu 阅读(687) 评论(0) 推荐(0)

使用 Avro 数据源测试 Flume

摘要：2. 使用 Avro 数据源测试 FlumeAvro 可以发送一个给定的文件给 Flume，Avro 源使用 AVRO RPC 机制。请对 Flume的相关配置文件进行设置，从而可以实现如下功能：在一个终端中新建一个文件helloworld.txt（里面包含一行文本“Hello World”），在另阅读全文

posted @ 2021-01-18 18:09 ziyuliu 阅读(1603) 评论(0) 推荐(0)

运行项目连接Mysql时出现警告Establishing SSL connection without server‘s identity verification is not recommende

摘要：解决： jdbc:mysql://localhost:3306/testdb?characterEncoding=utf-8&useSSL=false 阅读全文

posted @ 2021-01-18 17:24 ziyuliu 阅读(244) 评论(0) 推荐(0)

Spark编程实现利用 DataFrame 读写 MySQL 的数据

摘要：2 ．编程实现将 RDD 转换为 DataFrame源文件内容如下（包含 id,name,age）：请将数据复制保存到 Linux 系统中，命名为 employee.txt，实现从 RDD 转换得到DataFrame，并按“id:1,name:Ella,age:36”的格式打印出 DataFram 阅读全文

posted @ 2021-01-18 17:10 ziyuliu 阅读(3004) 评论(0) 推荐(0)

Spark实验五Spark SQL 基本操作

摘要：Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。 json数据 { "id":1 ,"name":"Ella","age":36} { "id":2,"name":"Bob","age":29 } { "id":3 ,"n 阅读全文

posted @ 2021-01-18 13:58 ziyuliu 阅读(3453) 评论(0) 推荐(0)

Spark实验编写独立应用程序实现数据去重

摘要：2. 编写独立应用程序实现数据去重对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。输入文件 A 的样例如下： 20170101 x 20170102 y 20170103 x 阅读全文

posted @ 2021-01-17 02:19 ziyuliu 阅读(5454) 评论(0) 推荐(0)

下载安装配置spark-2.1.0-bin-without-hadoop

摘要：安装过程参照： http://dblab.xmu.edu.cn/blog/1307-2/ 启动Spark： cd /usr/local/spark bin/spark-shell 运行例子： scala> 8*2+5 res0: Int = 21 退出： :quit 阅读全文

posted @ 2021-01-16 19:15 ziyuliu 阅读(918) 评论(0) 推荐(0)

Scala 语言学习

摘要：1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn，直到 Sn 刚好大于或等于 q 为止，其中 q 为大于 0 的整数，其值通过键盘输入。+ + + + 例如，若 q 的值为 50.0，则输出应为：Sn=50.416695。请将源文件保存为 exercise2-1.scala 阅读全文

posted @ 2021-01-15 23:20 ziyuliu 阅读(347) 评论(0) 推荐(0)

手写数字问题

摘要：import os os.environ['TF_CPP_MIN_LOG_LEVEL']='2' #使tensorflow少打印一些不必要的信息 import tensorflow.compat.v1 as tf from tensorflow import keras from tensorflo 阅读全文

posted @ 2021-01-14 20:50 ziyuliu 阅读(120) 评论(0) 推荐(0)

pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.

摘要：在安装第三方库的时候，Python报错 pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out. 原因是阅读全文

posted @ 2021-01-13 20:45 ziyuliu 阅读(471) 评论(0) 推荐(0)

ValueError: Only call `softmax_cross_entropy_with_logits` with named arguments (labels=..., logits=..., ...)

摘要：将 tf.nn.softmax_cross_entropy_with_logits(_pred, y) 改为： tf.nn.softmax_cross_entropy_with_logits(logits=_pred, labels=y) 阅读全文

posted @ 2021-01-13 16:33 ziyuliu 阅读(138) 评论(0) 推荐(0)

ModuleNotFoundError: No module named 'tensorflow.contrib' 解决方法

摘要：TensorFlow 2.0中contrib被弃用于是将 from tensorflow.contrib import rnn 替换成 from tensorflow.python.ops import rnn 如果出现 AttributeError: module 'tensorflow.pyt 阅读全文

posted @ 2021-01-12 00:02 ziyuliu 阅读(9944) 评论(0) 推荐(1)

线性回归模型练习

摘要：单线性回归 y=w*x+b import numpy as np import tensorflow as tf import matplotlib.pyplot as plt # 随机生成1000个点，围绕在y=0.1x+0.3的直线周围 num_points = 1000 vectors_set 阅读全文

posted @ 2021-01-10 23:37 ziyuliu 阅读(306) 评论(0) 推荐(0)

练习线性回归模型出现ImportError: No module named 'matplotlib'

摘要：解决方案：打开Prompt命令行 activate tensorflow conda install matplotlib 等待下载完即可阅读全文

posted @ 2021-01-10 21:46 ziyuliu 阅读(102) 评论(0) 推荐(0)

TensorFlow基本运算

摘要：加法： tf.add(x,y,name=None)参数说明：x：一个张量，必须是下列类型之一：bfloat16/half/float32/uint8/int8/int16/int32/int64/complex64/complex128/stringy: 一个张量，类型必须同xname：操作的名字，阅读全文

posted @ 2021-01-10 21:17 ziyuliu 阅读(362) 评论(0) 推荐(0)

TensorBoard学习可视化

摘要：TensorBoard是Tensorflow的可视化工具 import tensorflow.compat.v1 as tf #清除default graph和不断增加的结点 tf.reset_default_graph() #logdir改为自己机器上的合适路径 logdir=r'D:\360Mo 阅读全文

posted @ 2021-01-10 20:25 ziyuliu 阅读(94) 评论(0) 推荐(0)

TensorFlow常用基本操作

摘要：会话(session):会话拥有并管理Tensorflow程序运行时的所有资源，计算之后需关闭会话回收资源 import tensorflow.compat.v1 as tf #定义计算图 tens=tf.constant([1,2,4]) #创建一个会话 sess=tf.Session() # 使阅读全文

posted @ 2021-01-10 19:52 ziyuliu 阅读(351) 评论(0) 推荐(0)

在jupyter notebook导入tensorflow出错：No module named tensorflow 解决办法

摘要：我的环境：win10 和anaconda3.5 在jupyter notebook执行import tensorflow as tf时，会发生错误：No module named tensorflow 在jupyter notebook的选项中还是只有python3，并没有刚安装的环境解决办法打阅读全文

posted @ 2021-01-10 14:23 ziyuliu 阅读(1474) 评论(0) 推荐(0)

Flamel

01 2021 档案

公告