python基础自学 - 随笔分类 - 柒久酒

python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte"的解决办法

摘要：读取h5 文件时报错： python 报错"UnicodeDecodeError: 'utf-8' codec can't decode byte" 法一：MS = pd.read_csv("path",encoding = "ISO-8859-1", engine='python',delimit 阅读全文

posted @ 2021-07-01 15:11 柒久酒阅读(1500) 评论(0) 推荐(0) 编辑

python compile()

摘要：compile() 函数将一个字符串编译为字节代码。 compile(source, filename, mode[, flags[, dont_inherit]]) source -- 字符串或者AST（Abstract Syntax Trees）对象。。 filename -- 代码文件名称，如阅读全文

posted @ 2021-04-23 15:31 柒久酒阅读(81) 评论(0) 推荐(0) 编辑

numpy.array( )

摘要：numpy.array(object,dtype = None,copy = True, order ='K',subok = False,ndmin =0) 数组属性： arange：创建等差数组通过索引找数组位置阅读全文

posted @ 2021-04-23 11:00 柒久酒阅读(95) 评论(0) 推荐(0) 编辑

python qurey()

摘要：qurey()方法可以找到特定的行需要注意1.如果数据是dataframe类型，那么需要这样输出筛选出的每一行for index,row in data.query(“nameXXX").iterrows()2. 如果XXX是一个变量，那么可以用@XXX的方式来引用这个东西for index,row 阅读全文

posted @ 2021-04-22 21:48 柒久酒阅读(92) 评论(0) 推荐(0) 编辑

文本分词

摘要：1.正向/逆向最大匹配法 2.NLP概率图：HMM针对中文分词应用——Viterbi算法统计学思想：Viterbi算法找出一条概率最大路径（最短的马尔科夫链） jieba支持三种分词：固有分词繁体分词自定义词典阅读全文

posted @ 2021-04-22 09:50 柒久酒阅读(62) 评论(0) 推荐(0) 编辑

re.sub()

摘要：re.sub(pattern, repl, string, count=0, flags=0) 参数： pattern : 正则中的模式字符串。 repl : 替换后的字符串，也可为一个函数。 string : 要被查找替换的原始字符串。 count : 模式匹配后替换的最大次数，默认 0 表示替换阅读全文

posted @ 2021-04-22 09:44 柒久酒阅读(108) 评论(0) 推荐(0) 编辑

pd.concat()数据拼接

摘要：pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True) 参数含义：阅读全文

posted @ 2021-04-22 09:27 柒久酒阅读(407) 评论(0) 推荐(0) 编辑

loc和iloc

摘要：阅读全文

posted @ 2020-11-11 09:36 柒久酒阅读(66) 评论(0) 推荐(0) 编辑

sklearn.preprocessing.Normalizer

摘要：sklearn.preprocessing.Normalizer(norm=’l2’, copy=True) norm：可以为l1、l2或max，默认为l2 若为l1时，样本各个特征值除以各个特征值的绝对值之和若为l2时，样本各个特征值除以各个特征值的平方之和若为max时，样本各个特征值除以样本阅读全文

posted @ 2020-10-23 14:46 柒久酒阅读(556) 评论(0) 推荐(0) 编辑

sklearn中的make_blobs

摘要：make_blobs——为聚类产生数据集，产生一个数据集和相应的标签 n_samples:表示数据样本点个数,默认值100 n_features:表示数据的维度，默认值是2 centers:产生数据的中心点，默认值3 cluster_std：数据集的标准差，浮点数或者浮点数序列，默认值1.0 cen 阅读全文

posted @ 2020-10-23 14:23 柒久酒阅读(291) 评论(0) 推荐(0) 编辑

subplot(nrows,ncols.plot_number)

摘要：subplot(nrows,ncols,plot_number)——将figure分成nrows*ncols的子图表示 nrows：子图的行数 ncols:子图的列数 plot_number：索引值，表示把图放在第plot_number个位置上阅读全文

posted @ 2020-09-25 13:40 柒久酒阅读(866) 评论(0) 推荐(0) 编辑

python sorted

摘要：sort 和sorted的区别： sort用于列表 sorted用于所有可迭代的对象进行排序操作 sorted(iterable,key =None,reverse=False) iterable--可迭代对象 key--用于比较的元素，只有一个参数，具体的函数的参数是取自于可迭代对象中，指定可迭代阅读全文

posted @ 2020-09-14 13:56 柒久酒阅读(163) 评论(0) 推荐(0) 编辑

python loc和iloc

摘要：dataframe是一张二维表，行（索引），列（标签） loc通过列名值进行截取，而iloc通过索引截取 import numpy as np import pandas as pd test_array=np.arange(16).reshape(4,4)#四行四列数值到16的数组 test1=p 阅读全文

posted @ 2020-08-28 09:51 柒久酒阅读(1439) 评论(0) 推荐(0) 编辑

python append和extend区别

摘要：list.append(object) 向列表中添加一个对象objectlist.extend(sequence) 把一个序列seq的内容添加到列表中 music_media = ['compact disc', '8-track tape', 'long playing record'] new_ 阅读全文

posted @ 2020-08-24 16:44 柒久酒阅读(185) 评论(0) 推荐(0) 编辑

Python add_subplot

摘要：阅读全文

posted @ 2020-08-24 10:31 柒久酒阅读(415) 评论(0) 推荐(0) 编辑

X_train和y_train

摘要：1. x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。2. y_train-这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指阅读全文

posted @ 2020-08-21 15:50 柒久酒阅读(2707) 评论(0) 推荐(0) 编辑

python format

摘要：新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置，按默认顺序 'hello world' >>> "{0} {1}".f 阅读全文

posted @ 2020-08-21 15:13 柒久酒阅读(136) 评论(0) 推荐(0) 编辑

python value_counts()

摘要：value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况：') print(train['cls'].agg(['value_counts'])) agg():聚合函数训练集中，因变量 cls 阅读全文

posted @ 2020-08-21 15:08 柒久酒阅读(3363) 评论(0) 推荐(0) 编辑

python sample

摘要：sample(序列a，n) 功能：从序列a中随机抽取n个元素，并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri 阅读全文

posted @ 2020-08-21 15:03 柒久酒阅读(499) 评论(0) 推荐(0) 编辑

随笔分类 - python基础自学

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜