摘要:
> ######变量聚类 > setwd("/Users/yaozhilin/Downloads/R_edu/data") > accepts<-read.csv("accepts.csv") > #导入ClustOfvar包——>用hclustvar对变量进行聚类及用stability确定聚类数量 阅读全文
摘要:
> ######因子分析 > pt<-read.csv("profile_telecom.csv") > head(pt) ID cnt_call cnt_msg cnt_wei cnt_web 1 1964627 46 90 36 31 2 3107769 53 2 0 2 3 3686296 2 阅读全文
摘要:
> #########主成分分析与因子分析 > setwd("/Users/yaozhilin/Downloads/R_edu/data") > pt<-read.csv("profile_telecom.csv") > head(pt,5) ID cnt_call cnt_msg cnt_wei 阅读全文
摘要:
线性回归 • 回归分析(regression analysis)用来建立方程模拟两 个或者多个变量之间如何关联 • 被预测的变量叫做:因变量(dependent variable), 输出(output) • 被用来进行预测的变量叫做: 自变量(independent variable), 输入(i 阅读全文
摘要:
导语: 既然有了matplotlib,那为啥还需要seaborn呢?其实seaborn是在matplotlib基础上进行封装,Seaborn就是让困难的东西更加简单。用Matplotlib最大的困难是其默认的各种参数,而Seaborn则完全避免了这一问题。seaborn是针对统计绘图的,一般来说,s 阅读全文
摘要:
导语:为什么用pandas绘图 matplotlib虽然功能强大,但是matplotlib相对而言较为底层,画图时步骤较为繁琐,比较麻烦,因为要画一张完整的图表,需要实现很多的基本组件,比如图像类型、刻度、标题、图例、注解等等。目前有很多的开源框架所实现的绘图功能是基于matplotlib的,pan 阅读全文
摘要:
•figure和subplot matplotlib的图像都是位于figure对象中的,我们可以通过plt.figure创建一个新的figure: 1 fig=plt.figure(figsize=(6,6))#figsize控制画布的大小 但figure是不能绘图的,我们需要用fig.add_su 阅读全文
摘要:
Matplotlib 导入数据 1 import matplotlib.pyplot as plt 2 %matplotlib inline#不需写plot.show直接出图 3 plt.rcParams['font.sans-serif'] = ['SimHei']#显示中文 4 plt.rcPa 阅读全文
摘要:
数组 array是用来存储同类型的序列数据 创建数组 一维数组 1 import numpy as np 1 data=[1,2,3,4] 1 array1=np.array(data) 2 array1 array([1, 2, 3, 4])二维数组 1 np.zeros((4,3)) 2 #创建 阅读全文
摘要:
数据清洗 数据清洗分为三步: 重复值处理——删除(有几个相同就删除还是全部得相同)缺失值处理——删除,填充(均值,众数,中位数,前后相邻值),插值(拉格朗日插值,牛顿插值)异常值处理——describe进行描述性分析+散点图+箱型图定位异常值,处理方法:删除,视为缺失值 导入数据 1 import 阅读全文