随笔 - 480  文章 - 0 评论 - 45 阅读 - 73万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  python基础

1 2 3 4 下一页
python 面对对象 类(继承, 多态)
摘要:继承,继承其它实例化样本的属性和方法,需要在声明里重新定义和使用 多态: 表示在父类里定义一个函数,在子类里都可以使用 阅读全文
posted @ 2019-10-16 11:39 python我的最爱 阅读(330) 评论(0) 推荐(0) 编辑
python pymysql 连接 mysql数据库进行操作
摘要:1.数据库的连接操作 2. 进行数据库的查询,执行select * from student 3. 数据的增加操作 insert into student(name, register_data, sex) values('N4', '2015-02-03', 'M') 4. 进行表User_2的创 阅读全文
posted @ 2019-09-11 15:38 python我的最爱 阅读(538) 评论(0) 推荐(0) 编辑
mysql数据库基础
摘要:1. mysql -u root -p 123456; # 进行数据库的登录,cmd进入mysql的安装bin路径下 2. show databases; # 查看当前的数据库 3. use oldboydb; # 使用oldboydb 数据库,用于进行数据库的切换 4.show tables; 查 阅读全文
posted @ 2019-09-09 19:41 python我的最爱 阅读(317) 评论(0) 推荐(0) 编辑
python正则表达式解析(re)
摘要:正则表达式的使用方法主要有4种: re.search(进行正则匹配), re.match(从头开始匹配) re.findall(找出所有符合条件的字符列表) re.split(根据条件进行切分) re.sub(根据条件进行替换) 匹配规则里的符号 # . 可以被当作任意字符, re.M 忽略开头的换 阅读全文
posted @ 2019-09-06 15:33 python我的最爱 阅读(1848) 评论(0) 推荐(0) 编辑
python 装饰器 (test = submit(test))
摘要:两层的装饰器,这里对于register不需要进行输入 装饰器主要使用的是 test = submit(test), 在函数中返回了submit的函数,因此需要再嵌套一个函数,用来进行返回submit的函数地址 阅读全文
posted @ 2019-09-04 10:59 python我的最爱 阅读(470) 评论(0) 推荐(0) 编辑
机器学习进阶-svm支持向量机
摘要:支持向量机需要解决的问题:找出一条最好的决策边界将两种类型的点进行分开 这个时候我们需要考虑一个问题,在找到一条直线将两种点分开时,是否具有其他的约束条件,这里我们在满足找到一条决策边界时,同时使得距离边界最近的点到边界的距离最远,对于下图而言,我们可以看出右边的图比左边的图的分类效果要好,因为点到 阅读全文
posted @ 2019-02-16 13:15 python我的最爱 阅读(416) 评论(0) 推荐(1) 编辑
机器学习入门-文本特征-word2vec词向量模型 1.word2vec(进行word2vec映射编码)2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
摘要:函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp 阅读全文
posted @ 2019-01-27 12:26 python我的最爱 阅读(5731) 评论(0) 推荐(0) 编辑
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
摘要:函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component 阅读全文
posted @ 2019-01-27 00:28 python我的最爱 阅读(4467) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-使用聚类增加文本的标签属性
摘要:通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 阅读全文
posted @ 2019-01-26 23:43 python我的最爱 阅读(1507) 评论(0) 推荐(0) 编辑
机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)
摘要:函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 阅读全文
posted @ 2019-01-26 21:40 python我的最爱 阅读(8209) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
摘要:TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 阅读全文
posted @ 2019-01-26 19:54 python我的最爱 阅读(954) 评论(0) 推荐(0) 编辑
机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型
摘要:函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe 阅读全文
posted @ 2019-01-26 19:37 python我的最爱 阅读(5198) 评论(0) 推荐(1) 编辑
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
摘要:函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 阅读全文
posted @ 2019-01-26 18:50 python我的最爱 阅读(2070) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-时间特征处理
摘要:我们可以将一连串的时间特征进行拆分,比如:2015-03-08 10:30:00.360000+00:00, 我们可以将其转换为日期类型,然后从里面提取年,月,日等时间信息 对于一些hour,month等信息,我们也可以使用pd.cut将hour信息按照时刻转换为离散数据,如morning,afte 阅读全文
posted @ 2019-01-26 10:05 python我的最爱 阅读(2696) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-对数据进行log变化
摘要:对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化 代码: 第一步: 阅读全文
posted @ 2019-01-25 22:27 python我的最爱 阅读(6908) 评论(1) 推荐(1) 编辑
机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分,生成新的特征)
摘要:函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行 阅读全文
posted @ 2019-01-25 22:05 python我的最爱 阅读(1387) 评论(0) 推荐(2) 编辑
机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
摘要:函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图 对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化 就好比:我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄 阅读全文
posted @ 2019-01-25 19:44 python我的最爱 阅读(1742) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
摘要:函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2,即^2, interaction_only表示是否只使用a*b, include_ 阅读全文
posted @ 2019-01-25 19:13 python我的最爱 阅读(2760) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)
摘要:函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数 二值化指的是:将大于0的特征使用1表示,将等于0的特征还是用0表示 对于二值化操作:使用两种方法 第一 阅读全文
posted @ 2019-01-25 18:32 python我的最爱 阅读(1387) 评论(0) 推荐(0) 编辑
机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)
摘要:1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd 阅读全文
posted @ 2019-01-25 16:30 python我的最爱 阅读(1298) 评论(0) 推荐(0) 编辑

1 2 3 4 下一页
点击右上角即可分享
微信分享提示