随笔分类 - 机器学习
摘要:代码如下: import matplotlib.pyplot as plt import numpy as np %matplotlib inline plt.rcParams['font.sans-serif'] = 'SimHei' plt.rcParams['axes.unicode_minu
阅读全文
摘要:1、脚本 # scikit-learn 没有绘制树状图的功能,需借助 SciPy 库完成 import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from scipy.cluster.hierarchy impo
阅读全文
摘要:说明: KMeans 聚类中的超参数是 K,需要我们指定。K 值一方面可以结合具体业务来确定,另一方面可以通过肘方法来估计。K 参数的最优解是以成本函数最小化为目标,成本函数为各个类畸变程度之和,每个类的畸变程度等于该类重心与其内部成员位置距离的平方和但是平均畸变程度会随着K的增大先减小后增大,所以
阅读全文
摘要:版本说明 Python version: 3.6.6 |Anaconda, Inc.| (default, Jun 28 2018, 11:21:07) [MSC v.1900 32 bit (Intel)] NumPy version:1.17.4 pandas version:0.25.3 sc
阅读全文
摘要:# 读取数数据, 查看数据结构 df_raw <- read.csv("sms_spam.csv", stringsAsFactors=F) str(df_raw) length(df_raw$type) # 将数据分为特征值矩阵 X 和 类标向量y 两部分,将 y 换为因子 X <- df_raw
阅读全文
摘要:在 skilearn 的手写数据集中,每个数据点都是 0 到 9 之间手写数字的一张 8*8 灰度图像。用 PCA 将其降维到二维,并可视化数据点,如下: 1、digits 数据演示: import matplotlib.pyplot as plt from sklearn.datasets imp
阅读全文
摘要:R # 一数多图 x <- 2:6 y <- 7:3 y1 <- y +2 opar <- par(no.readonly = TRUE) par(mfrow=c(2, 3)) plot(x, y) plot(x, y, type="l") barplot(x, y) # 简单条形图 barplot
阅读全文