随笔分类 -  python基础自学

知识点整理与分享
摘要:读取h5 文件时报错: python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte" 法一:MS = pd.read_csv("path",encoding = "ISO-8859-1", engine='python',delimit 阅读全文
posted @ 2021-07-01 15:11 柒久酒 阅读(1500) 评论(0) 推荐(0) 编辑
摘要:compile() 函数将一个字符串编译为字节代码。 compile(source, filename, mode[, flags[, dont_inherit]]) source -- 字符串或者AST(Abstract Syntax Trees)对象。。 filename -- 代码文件名称,如 阅读全文
posted @ 2021-04-23 15:31 柒久酒 阅读(81) 评论(0) 推荐(0) 编辑
摘要:numpy.array(object,dtype = None,copy = True, order ='K',subok = False,ndmin =0) 数组属性: arange:创建等差数组 通过索引找数组位置 阅读全文
posted @ 2021-04-23 11:00 柒久酒 阅读(95) 评论(0) 推荐(0) 编辑
摘要:qurey()方法可以找到特定的行需要注意1.如果数据是dataframe类型,那么需要这样输出筛选出的每一行for index,row in data.query(“nameXXX").iterrows()2. 如果XXX是一个变量,那么可以用@XXX的方式来引用这个东西for index,row 阅读全文
posted @ 2021-04-22 21:48 柒久酒 阅读(92) 评论(0) 推荐(0) 编辑
摘要:1.正向/逆向最大匹配法 2.NLP概率图:HMM针对中文分词应用——Viterbi算法 统计学思想:Viterbi算法找出一条概率最大路径(最短的马尔科夫链) jieba支持三种分词: 固有分词 繁体分词 自定义词典 阅读全文
posted @ 2021-04-22 09:50 柒久酒 阅读(62) 评论(0) 推荐(0) 编辑
摘要:re.sub(pattern, repl, string, count=0, flags=0) 参数: pattern : 正则中的模式字符串。 repl : 替换后的字符串,也可为一个函数。 string : 要被查找替换的原始字符串。 count : 模式匹配后替换的最大次数,默认 0 表示替换 阅读全文
posted @ 2021-04-22 09:44 柒久酒 阅读(108) 评论(0) 推荐(0) 编辑
摘要:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True) 参数含义: 阅读全文
posted @ 2021-04-22 09:27 柒久酒 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-11-11 09:36 柒久酒 阅读(66) 评论(0) 推荐(0) 编辑
摘要:sklearn.preprocessing.Normalizer(norm=’l2’, copy=True) norm:可以为l1、l2或max,默认为l2 若为l1时,样本各个特征值除以各个特征值的绝对值之和 若为l2时,样本各个特征值除以各个特征值的平方之和 若为max时,样本各个特征值除以样本 阅读全文
posted @ 2020-10-23 14:46 柒久酒 阅读(556) 评论(0) 推荐(0) 编辑
摘要:make_blobs——为聚类产生数据集,产生一个数据集和相应的标签 n_samples:表示数据样本点个数,默认值100 n_features:表示数据的维度,默认值是2 centers:产生数据的中心点,默认值3 cluster_std:数据集的标准差,浮点数或者浮点数序列,默认值1.0 cen 阅读全文
posted @ 2020-10-23 14:23 柒久酒 阅读(291) 评论(0) 推荐(0) 编辑
摘要:subplot(nrows,ncols,plot_number)——将figure分成nrows*ncols的子图表示 nrows:子图的行数 ncols:子图的列数 plot_number:索引值,表示把图放在第plot_number个位置上 阅读全文
posted @ 2020-09-25 13:40 柒久酒 阅读(866) 评论(0) 推荐(0) 编辑
摘要:sort 和sorted的区别: sort用于列表 sorted用于所有可迭代的对象进行排序操作 sorted(iterable,key =None,reverse=False) iterable--可迭代对象 key--用于比较的元素,只有一个参数,具体的函数的参数是取自于可迭代对象中,指定可迭代 阅读全文
posted @ 2020-09-14 13:56 柒久酒 阅读(163) 评论(0) 推荐(0) 编辑
摘要:dataframe是一张二维表,行(索引),列(标签) loc通过列名值进行截取,而iloc通过索引截取 import numpy as np import pandas as pd test_array=np.arange(16).reshape(4,4)#四行四列数值到16的数组 test1=p 阅读全文
posted @ 2020-08-28 09:51 柒久酒 阅读(1439) 评论(0) 推荐(0) 编辑
摘要:list.append(object) 向列表中添加一个对象objectlist.extend(sequence) 把一个序列seq的内容添加到列表中 music_media = ['compact disc', '8-track tape', 'long playing record'] new_ 阅读全文
posted @ 2020-08-24 16:44 柒久酒 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-08-24 10:31 柒久酒 阅读(415) 评论(0) 推荐(0) 编辑
摘要:1. x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。2. y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指 阅读全文
posted @ 2020-08-21 15:50 柒久酒 阅读(2707) 评论(0) 推荐(0) 编辑
摘要:新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。 基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序 'hello world' >>> "{0} {1}".f 阅读全文
posted @ 2020-08-21 15:13 柒久酒 阅读(136) 评论(0) 推荐(0) 编辑
摘要:value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况:') print(train['cls'].agg(['value_counts'])) agg():聚合函数 训练集中,因变量 cls 阅读全文
posted @ 2020-08-21 15:08 柒久酒 阅读(3363) 评论(0) 推荐(0) 编辑
摘要:sample(序列a,n) 功能:从序列a中随机抽取n个元素,并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri 阅读全文
posted @ 2020-08-21 15:03 柒久酒 阅读(499) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示