10 2017 档案
摘要:4.1数据清洗 4.1.1缺失值处理 1.缺失值处理方法:删除记录、数据插补、不处理 2.常用的插补方法: 均值/中位数/众数插补:用该属性取值的平均数/中位数/众数进行插补 使用固定值:将缺失值的属性用一个常量替换。 最近临插补:在记录中找到与缺失值最接近的样本的该属性值插补 回归方法:对带有缺失
阅读全文
摘要:1.创建带有缺失值的数据库: 查看数据内容: 2.通常情况下删除行,使用参数axis = 0,删除列的参数axis = 1,通常不会这么做,那样会删除一个变量。 删除后结果:
阅读全文
摘要:在指定的间隔内返回均匀间隔的数字。(返回num个样本数据,在[start, stop])。 函数形式: linspace(start, stop, num = 50, endpoint = True, retstep = False, dtype = None) start:队列的开始值 stop:
阅读全文
摘要:re.sub主要功能实现正则的替换。 re.sub定义: sub(pattern, repl, string, count=0, flags=0) 意思为:对字符串string按照正则表达式pattern匹配,将string的匹配项替换成字符串repl。 方法解析: pattern为表示正则中的模式
阅读全文
摘要:1 dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列 2 df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数,索引,列名称。 3 df2=pd.DataFrame({'A':pd.Timestamp('20160728'...
阅读全文
摘要:pandas最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型。 生成日期范围: pd.date_range()可用于生成指定长度的DatetimeIndex。参数可以是起始结束日期,或单给一个日期,加一个时间段参数。日期是包含的。 默认情况下,date_ran
阅读全文
摘要:1.jupyter顶部的选项卡是Files(文件)、Running(运行)、Cluster(聚类)。右上角的New,可以创建notebook、文本文件、文件夹、终端。 2.notebook自带一组快捷键,notebook里每一个叫做cell。 3.快捷键: 两种模式:Command mode 和 E
阅读全文
摘要:1. 算法概要 设训练集的一个少数类样本数为 ,应用过采样方法生成 个样本。 ① 从样本数为 的样本中选择一个样本,搜索它的 近邻。 ② 从 近邻样本中随机选择一个样本,将这两个样本连接成一条直线,新合成的样本就在这条直线上,重复 \(N\
阅读全文
摘要:使用python获得系统的信息时,使用os.environ() environ是一个字符串所对应环境的映像对象; os.environ.keys() 主目录下所有的key os.environ 显示key+内容。 windows: · os.environ['HOMEPATH']:当前用户主目录。
阅读全文