随笔档案「2020年8月」 - 小小喽啰

Python国内镜像地址

摘要：推荐几个不错的国内镜像阿里云：https://mirrors.aliyun.com/pypi/simple/ 豆瓣：https://pypi.douban.com/simple/ 清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/ 中国科学技术大学 htt 阅读全文

posted @ 2020-08-31 18:25 小小喽啰阅读(24413) 评论(0) 推荐(0)

机器学习from(zhouxun-old leader)

摘要：Main: Template.py Template.py 为主要流程部分，依次实现： Train Test Split Missing Imputation Feature Selection Cap and Floor Data Scaling Model Selection Feature R 阅读全文

posted @ 2020-08-31 17:10 小小喽啰阅读(347) 评论(0) 推荐(0)

np.argsort()元素从小到大排序后，提取对应的索引index，可以一行搞定排序

摘要：函数用法 numpy.argsort(a, axis=-1, kind=’quicksort’, order=None) 功能: 将矩阵a按照axis排序，并返回排序后的下标，axis=0是列，1是行参数: a:输入矩阵， axis:需要排序的维度返回值: 输出排序后的下标 import numpy 阅读全文

posted @ 2020-08-31 17:02 小小喽啰阅读(7120) 评论(0) 推荐(0)

df.mask() 和df.where() 替换方法区别

摘要：具体用法详情请看：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mask.html，现在主要说一下区别: where 是条件为False才替换，而mask是条件为True才替换 import 阅读全文

posted @ 2020-08-31 15:17 小小喽啰阅读(1761) 评论(0) 推荐(0)

sklearn.feature_selection.VarianceThreshold 方差阈值法（过滤法的一种）

摘要：sklearn.feature_selection.VarianceThreshold 方差阈值法，用于特征选择，过滤器法的一种，去掉那些方差没有达到阈值的特征。默认情况下，删除零方差的特征函数用法： class sklearn.feature_selection.VarianceThreshol 阅读全文

posted @ 2020-08-31 14:39 小小喽啰阅读(5292) 评论(0) 推荐(0)

python .tolist() 将数组或者矩阵转换成list

摘要：python .tolist() 将数组或者矩阵转换成list from numpy import * a1 = [[1,2,3],[4,5,6]] #列表 a2 = array(a1) #数组 a2 ''' array([[1, 2, 3], [4, 5, 6]]) ''' a3 = mat(a1 阅读全文

posted @ 2020-08-31 14:18 小小喽啰阅读(7046) 评论(0) 推荐(0)

sklearn.feature_selection.SelectFromModel 特征重要性选择（嵌入法的一种）

摘要：嵌入式特征选择在学习器训练过程中自动地进行特征选择。嵌入式选择最常用的是L1正则化与L2正则化。 SelectFromModel是一个元变压器，可与拟合后具有coef_或feature_importances_属性的任何估算器一起使用。如果相应的coef_或feature_importances_值阅读全文

posted @ 2020-08-31 12:22 小小喽啰阅读(4049) 评论(0) 推荐(0)

sklearn.model_selection.StratifiedShuffleSplit 分层抽样（交叉验证法的一种）

摘要：sklearn.model_selection.StratifiedShuffleSplit 主要用于数据不均匀的时候，比如在医疗数据当中得癌症的人比不得癌症的人少很多，此交叉验证对象是StratifiedKFold和ShuffleSplit的合并，返回分层的随机折叠。折叠是通过保留每个类别的样品百阅读全文

posted @ 2020-08-31 11:23 小小喽啰阅读(1257) 评论(0) 推荐(0)

使用python 连接hive，并且发送邮箱

摘要：工作中，我们可能会遇到需要每天给领导发送邮箱，数据来源是hive，并且格式基本一致，那么下面这些代码就可是使用得到 # coding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import da 阅读全文

posted @ 2020-08-31 10:49 小小喽啰阅读(645) 评论(0) 推荐(0)

XGBoost 学习调参的例子

摘要：发现后面设置参数的时候，原生接口和sklearn的参数混在一起了，现在修改为 def run_xgboost(data_x,data_y,random_state_num): train_x,valid_x,train_y,valid_y = train_test_split(data_x.valu 阅读全文

posted @ 2020-08-28 16:20 小小喽啰阅读(1739) 评论(0) 推荐(0)

GBDT参数理解

摘要：GBDT 适用范围 GBDT 可以适用于回归问题（线性和非线性）其实多用于回归；GBDT 也可用于二分类问题（设定阈值，大于为正，否则为负）和多分类问题 RF与GBDT之间的区别与联系 1）相同点：都是由多棵树组成最终的结果都由多棵树共同决定。 2）不同点：组成随机森林的树可以分类树也可以是回阅读全文

posted @ 2020-08-28 15:22 小小喽啰阅读(3905) 评论(0) 推荐(0)

GBDT 梯度提升决策树（集成学习）简单理解

摘要：一、基本概念 GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，全称梯度提升决策树，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（g 阅读全文

posted @ 2020-08-28 11:37 小小喽啰阅读(802) 评论(0) 推荐(0)

boosting算法

摘要：一、boosting算法 boosting是一种集成学习算法，由一系列基本分类器按照不同的权重组合成为一个强分类器，这些基本分类器之间有依赖关系。包括Adaboost算法、提升树、GBDT算法一、Adaboost算法 AdaBoost方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器阅读全文

posted @ 2020-08-27 15:11 小小喽啰阅读(3594) 评论(0) 推荐(0)

使用python 合并多个Excel文件到一个Excel文件中

摘要：工作中经常遇到要将十几个Excel（不管是xls、xlsx、或者是CSV）合并到同一个文件中去，手工一个一个复制是不可能的，此时就轮到Python出马了主要是利用for循环，读取每一个文件，作为df，然后再通过list的append加在一起，然后再通过pd.concat拼接起来，最后将文件读到CS 阅读全文

posted @ 2020-08-27 13:45 小小喽啰阅读(8125) 评论(0) 推荐(0)

Bagging算法

摘要：目录什么是集成学习 Bagging算法 Bagging用于分类 Bagging用于回归一、什么是集成学习集成学习是一种技术框架，它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务，一般结构是：先产生一组“个体学习器”，再用某种策略将它们结合起来，目前，有三种常见的阅读全文

posted @ 2020-08-26 19:47 小小喽啰阅读(10086) 评论(0) 推荐(2)

np.c_[ ]和np.r_[ ] 数组拼接(r是行拼接，c是列拼接）方法

摘要：np.r_是按列连接两个矩阵，就是把两矩阵上下相加，要求列数相等。np.c_是按行连接两个矩阵，就是把两矩阵左右相加，要求行数相等 a = np.array([[1, 2, 3],[7,8,9]]) b=np.array([[4,5,6],[1,2,3]]) np.r_[a,b] ''' array 阅读全文

posted @ 2020-08-26 19:19 小小喽啰阅读(409) 评论(0) 推荐(0)

Kaggle经典数据分析项目：泰坦尼克号生存预测！

摘要：数据分析练手项目：开源项目《动手学数据分析》：https://github.com/datawhalechina/hands-on-data-analysis DCIC 2020算法分析赛：DCIC 是国内少有的开放政府真实数据的经典赛事，对能力实践，学术研究等都提供了很好的机会。https:// 阅读全文

posted @ 2020-08-26 10:12 小小喽啰阅读(1334) 评论(0) 推荐(0)

支持向量机算法

摘要：1.什么是支持向量机2.支持向量机的推导3.SVM的损失函数4.SVM的核函数有哪些，核函数的作用是什么5.硬间隔和软间隔6.SVM可以做多分类吗，怎么做7.SVM可以做回归吗，怎么做8.SVM的对偶问题，为什么要把原问题转化为对偶问题9.KKT限制条件有哪些一、函数间隔与几何间隔在正式介绍SV 阅读全文

posted @ 2020-08-25 16:10 小小喽啰阅读(421) 评论(0) 推荐(0)

sklearn.svm.SVC 支持向量机参数详解

摘要：用法如下： class sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, 阅读全文

posted @ 2020-08-25 15:34 小小喽啰阅读(9248) 评论(0) 推荐(0)

机器学习算法（五）: 基于支持向量机的分类预测

摘要：目录 Demo实践支持向量机软间隔超平面一、Demo实践 #Step1:库函数导入 ## 基础函数库 import numpy as np ## 导入画图库 import matplotlib.pyplot as plt import seaborn as sns ## 导入逻辑回归模型函数阅读全文

posted @ 2020-08-25 14:07 小小喽啰阅读(1563) 评论(0) 推荐(0)

决策树原理的python实现

摘要：我们已经知道ID3算法是基于信息增益来实现的，下面就根据原理写出代码： # -*- coding: utf-8 -*- """ Created on Tue Aug 11 10:12:48 2020 @author: Admin """ from math import log import ope 阅读全文

posted @ 2020-08-25 09:56 小小喽啰阅读(385) 评论(0) 推荐(0)

决策树算法算法介绍

摘要：目录概念决策树的学习过程决策树三种常用方法决策树算法的参数决策树的总结一、概念决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上阅读全文

posted @ 2020-08-24 10:14 小小喽啰阅读(11432) 评论(2) 推荐(0)

pandas 网址

摘要：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html 里面有多种函数的用法阅读全文

posted @ 2020-08-24 09:48 小小喽啰阅读(317) 评论(0) 推荐(0)

sklearn.tree.DecisionTreeClassifier 决策树模型参数详解

摘要：决策树参数如下： class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_ 阅读全文

posted @ 2020-08-21 18:13 小小喽啰阅读(5429) 评论(0) 推荐(0)

幂函数

摘要：目录基本概念 python画图定义域和值域性质单调区间特性一、基本概念幂函数是基本初等函数之一。一般地，y = xa （α为有理数）的函数，即以底数为自变量，幂为因变量，指数为常数的函数称为幂函数。例如函数y = x0 、y = x1 、y = x2 、y = x-1 （注：y = x 阅读全文

posted @ 2020-08-21 15:48 小小喽啰阅读(3591) 评论(0) 推荐(0)

指数函数

摘要：目录基本概念 python画图基本性质运算法则一、基本概念细胞的分裂是一个很有趣的现象，新细胞产生的速度之快是十分惊人的。例如，某种细胞在分裂时，1个分裂成2个，2个分裂成4个……因此，第x次分裂得到新细胞数y与分裂次数x的函数关系式即为：指数函数是重要的基本初等函数之一。一般地，y 阅读全文

posted @ 2020-08-21 10:50 小小喽啰阅读(2189) 评论(0) 推荐(0)

导数

摘要：计算复合函数的导数时，关键是分析清楚复合函数的构造，即弄清楚该函数是由哪些基本初等函数经过这样的过程复合而成的，求导数时，按复合次序由最外层起，向内一层一层地对中间变量求导数，直到对自变量求导数为止一、导数表：序号原函数导函数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 阅读全文

posted @ 2020-08-20 18:48 小小喽啰阅读(437) 评论(0) 推荐(0)

逻辑回归损失函数推导

摘要：推导过程：取似然函数为：对数似然函数为：最大似然估计就是求使取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。但是，在Andrew Ng的课程中将取为下式，即因为乘了一个负的系数-1/m，所以取最小值时的θ为要求的最佳参数梯度下降法求的最小值 https://bl 阅读全文

posted @ 2020-08-20 18:33 小小喽啰阅读(427) 评论(0) 推荐(0)

逻辑回归推导

摘要：首先线性模型：而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数而每一个观察到的样本(xi, yi)出现的概率是：由于y的取值是（0,1），当y=1的时候，后面那一项是不是没有了，那就只阅读全文

posted @ 2020-08-20 17:21 小小喽啰阅读(430) 评论(0) 推荐(0)

二项分布

摘要：目录：定义期望与方差两个二项分布的协方差 python画图二项分布与其他分布的关系一、定义在n次独立重复的伯努利试验中，设每次试验中事件A发生的概率为p。用 X 表示n重伯努利试验中事件A发生的次数，则X的可能取值为0，1，…，n,且对每一个k（0≤k≤n）,事件{X=k}即为“n次试验阅读全文

posted @ 2020-08-20 14:27 小小喽啰阅读(6960) 评论(0) 推荐(0)

转：数据预处理之数据可视化总结

摘要：文章转载于：https://www.cnblogs.com/jiaxin359/p/8615502.html 数据可视化可以帮助我们理解数据：查看数据的分布情况，观察有没有异常值，各个变量之间的相关情况。当我们进行数据可视化的时候，我们要紧紧围绕着这个变量和我们的目标变量之间的关系，在绘制大多数图阅读全文

posted @ 2020-08-19 17:11 小小喽啰阅读(449) 评论(0) 推荐(0)

特征选择

摘要：目录移除方差较低的特征 VarianceThreshold方法单变量特征选择回归特征消除基于L1正则化的特征选择（线性模型的特征选择）基于树结构的特征选择特征选择特征选择是从数据集的诸多特征里面选择和目标变量相关的特征，去掉那些不相关的特征。特征选择分为两个问题：一个是子集搜索问题，阅读全文

posted @ 2020-08-19 15:53 小小喽啰阅读(540) 评论(0) 推荐(0)

pandas的reshape(1,-1)

摘要：reshape可以用于numpy库里的ndarray和array结构以及pandas库里面的DataFrame和Series结构。reshape用来更改数据的列数和行数reshape（行，列）可以根据指定的数值将数据转换为特定的行数和列数；那么reshape(1,-1)或者reshape(-1,1) 阅读全文

posted @ 2020-08-19 10:54 小小喽啰阅读(1861) 评论(0) 推荐(0)

mlxtend.feature_selection 特征工程

摘要：特征选择主要思想：包裹式（封装器法）从初始特征集合中不断的选择特征子集，训练学习器，根据学习器的性能来对子集进行评价，直到选择出最佳的子集。包裹式特征选择直接针对给定学习器进行优化案例一、封装器法常用实现方法：循序特征选择。循序向前特征选择：Sequential Forward Select 阅读全文

posted @ 2020-08-18 14:51 小小喽啰阅读(2706) 评论(0) 推荐(0)

pd.to_datetime() 时间处理函数

摘要：pd.to_datetime() 因为不了解该段代码意思： # 不过要注意，数据里有时间出错的格式，所以我们需要 errors='coerce' data['used_time'] = (pd.to_datetime(data['creatDate'], format='%Y%m%d', error 阅读全文

posted @ 2020-08-18 10:34 小小喽啰阅读(54702) 评论(0) 推荐(1)

sklearn.metrics.classification_report分类模型评估

摘要：sklearn.metrics.classification_report（）模型评估的一种，输出一个报告 sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None, sample_wei 阅读全文

posted @ 2020-08-17 17:47 小小喽啰阅读(2474) 评论(0) 推荐(0)

Pearson相关系数和Spearman相关系数的区别

摘要：1.皮尔森相关系数(Pearson)评估两个连续变量之间的线性关系 -1 ≤ p ≤ 1p接近0代表无相关性p接近1或-1代表强相关性代码： #相关系数显著性检验 import numpy as np import scipy.stats as stats import scipy x=np.ar 阅读全文

posted @ 2020-08-14 18:30 小小喽啰阅读(7456) 评论(0) 推荐(0)

信用卡评分模型（二）python

摘要：前面已经有了一篇信用卡的文章，拓展不同方法前面的处理方式都一样，主要不同的是从缺失值开始的： #导入模块 import pandas as pd import numpy as np from scipy import stats import seaborn as sns import matp 阅读全文

posted @ 2020-08-14 10:13 小小喽啰阅读(1808) 评论(0) 推荐(0)

pandas 的 df.as_matrix() 表格转换成数组函数用法

摘要：df.as_matrix()可将dataframe数据转换成数组，和df.values 用法一致，但是现在一般使用values ，二者返回的都是数组 #原始DataFrame import pandas as pd import numpy as np df=pd.DataFrame(np.aran 阅读全文

posted @ 2020-08-14 10:08 小小喽啰阅读(2391) 评论(0) 推荐(0)

pandas 的 notnull() 的返回非空值函数的用法

摘要：df.notnull() 返回的是布尔值 data原始数据如下： import numpy as np import pandas as pd from pandas import Series,DataFrame data=DataFrame() data['a']=[1,2,3,4] data[ 阅读全文

posted @ 2020-08-13 18:58 小小喽啰阅读(3684) 评论(0) 推荐(1)

pandas.ix() 函数使用方法

摘要：pandas中有iloc、loc、ix数据提取方法，其中 iloc：是位置索引 loc：是标签索引 ix：结合了iloc和loc的用法，首先会尝试loc一样的行为，如果索引中不存在标签，则会退回iloc一样的行为但是已经不建议使用ix 用法就不赘述了阅读全文

posted @ 2020-08-13 18:40 小小喽啰阅读(1548) 评论(0) 推荐(0)

pandas 的stack() 和unstack() 函数

摘要：pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠” 常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式： stack函数会将数据从”表格结构“变成”花括号结构“，即将其行索引变成列索引，反阅读全文

posted @ 2020-08-13 16:10 小小喽啰阅读(2214) 评论(0) 推荐(2)

三角函数（sin,cos,tan）、log等等

摘要：函数关系还有更多的数据具体看：https://baike.baidu.com/item/%E4%B8%89%E8%A7%92%E5%87%BD%E6%95%B0%E5%85%AC%E5%BC%8F/4374733?fr=aladdin 主要看看图形是怎么样的 #三角函数的自变量是角度 import 阅读全文

posted @ 2020-08-13 14:40 小小喽啰阅读(3815) 评论(0) 推荐(0)

转：信用评分卡模型分析(基于Python)--理论部分

摘要：信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成，其中主体评级模型可用“四张卡”来表示，分别是A卡、B卡、C卡和F卡；债项评级模型通常按照主体的融资用途，分为企业融资模型、现金流融资模型和项目融资模型等。我们主要讨论主体评级模型的开发过程。在互金公司等各阅读全文

posted @ 2020-08-13 11:32 小小喽啰阅读(1421) 评论(0) 推荐(0)

信用评分卡（一）

摘要：目录导入数据缺失值和异常值处理特征可视化特征选择模型训练模型评估模型结果转评分计算用户总分一、导入数据 #导入模块 import pandas as pd import numpy as np from scipy import stats import seaborn as sn 阅读全文

posted @ 2020-08-12 17:34 小小喽啰阅读(1074) 评论(0) 推荐(0)

fig.add_subplot(111, projection='3d')解释画3D图片

摘要：看不懂这个代码 # 选取其前三个特征绘制三维散点图 from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(10,8)) ax = fig.add_subplot(111, projection='3d') iris_all 阅读全文

posted @ 2020-08-11 17:41 小小喽啰阅读(10011) 评论(2) 推荐(1)

plt.annotate() 在图中标注文字

摘要：plt.annotate()函数用于标注文字 plt.annotate(s,sy,*args,**kwargs) 参数解释： s 为注释文本内容 xy 为被注释的坐标点 xytext 为注释文字的坐标位置 xycoords 参数如下: figure points：图左下角的点 figure pixe 阅读全文

posted @ 2020-08-11 17:13 小小喽啰阅读(5341) 评论(0) 推荐(0)

numpy 的 ravel() 和 flatten() 扁平化函数，可去掉元素list的[]

摘要：Numpy提供了两个函数进行扁平化操作他们的功能相同，但在内存上有很大的不同。我们在平时使用的时候flatten()更为合适，在使用过程中flatten()分配了新的内存，但ravel()返回的是一个数组的视图例子： import numpy as np a=np.arange(12).resh 阅读全文

posted @ 2020-08-11 16:33 小小喽啰阅读(425) 评论(0) 推荐(0)

np.meshgrid() 生成网格坐标函数，主要用于可视化决策边界

摘要：numpy.meshgrid() 生成网格点坐标矩阵 [X,Y] = meshgrid(x,y) 将向量x和y定义的区域转换成矩阵X和Y,其中矩阵X的行向量是向量x的简单复制，而矩阵Y的列向量是向量y的简单复制(注：下面代码中X和Y均是数组，在文中统一称为矩阵了)。假设x是长度为m的向量，y是长度阅读全文

posted @ 2020-08-11 15:55 小小喽啰阅读(3761) 评论(0) 推荐(0)

plt.xlim() 和 plt.xticks()

摘要：plt.xlim() 显示的是x轴的作图范围，同时plt.ylim() 显示的是y轴的作图范围，而 plt.xticks() 表达的是x轴的刻度内容的范围 plt.xlim()有两个参数输入： 1 plt.xlim(num1, num2) 2 plt.xlim(xmin=num1,xmax=num2 阅读全文

posted @ 2020-08-11 15:18 小小喽啰阅读(51045) 评论(0) 推荐(0)

pandas.date_range() 时间序列

摘要：pd.date_range()使用方法 pd.date_range()函数文档 pandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed=No 阅读全文

posted @ 2020-08-11 14:54 小小喽啰阅读(1761) 评论(0) 推荐(0)

plt.scatter() 和sns.scatterplot() 画散点图

摘要：plt.scatter()画散点图 matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None 阅读全文

posted @ 2020-08-11 14:35 小小喽啰阅读(20445) 评论(0) 推荐(1)

sklearn.linear_model.LogisticRegression逻辑回归参数详解

摘要：其实我们很少使用到sklearn里面的逻辑回归，因为它不能很好地处理样本均衡，我们一般使用statsmodels.api.Logit 逻辑回归参数 class sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, t 阅读全文

posted @ 2020-08-11 11:14 小小喽啰阅读(4774) 评论(0) 推荐(0)

机器学习算法（六）：基于决策树的分类预测

摘要：一、决策树的介绍决策树是一种常见的分类模型，在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先看男方是否有房产，如果有房产再看是否有车产，如果有车产再看是否有稳定工作……最后得出是否要阅读全文

posted @ 2020-08-11 10:39 小小喽啰阅读(6272) 评论(0) 推荐(0)

机器学习算法（一）: 基于逻辑回归的分类预测

摘要：代码流程 Part1 Demo实践 Step1:库函数导入 Step2:模型训练 Step3:模型参数查看 Step4:数据和模型可视化 Step5:模型预测 Part2 基于鸢尾花（iris）数据集的逻辑回归分类实践 Step1:库函数导入 Step2:数据读取/载入 Step3:数据信息简单查看阅读全文

posted @ 2020-08-10 18:47 小小喽啰阅读(2681) 评论(0) 推荐(0)

numpy.diff()函数,后一个元素减前面的一个元素

摘要：当我在看到这个代码时，不是很了解np.diff()函数： #计算以下列表中连续的天数。 import numpy as np from dateutil import parser dateString = ['Oct, 2, 1869', 'Oct, 10, 1869', 'Oct, 15, 18 阅读全文

posted @ 2020-08-10 15:30 小小喽啰阅读(7677) 评论(0) 推荐(0)

文件和文件系统

摘要：目录一、文件与文件系统打开文件文件对象方法简结的with语句二、OS 模块中关于文件/目录常用的函数三、序列化与反序列化正文一、文件与文件系统 1.打开文件 open(file, mode='r', buffering=None, encoding=None, errors=None 阅读全文

posted @ 2020-08-09 00:10 小小喽啰阅读(273) 评论(0) 推荐(0)

Task08：模块与datetime模块(2天)

摘要：目录一、模块什么是模块命名空间导入模块 if __name__ == '__main__' 搜索路径包（package）二、datetime模块 datetime 类 date类 time类 timedelta类正文一、模块 1.什么是模块 1 容器 -> 数据的封装 2 函数 -> 阅读全文

posted @ 2020-08-07 17:44 小小喽啰阅读(423) 评论(0) 推荐(0)

numpy 的四则运算

摘要：一、一维矩阵的加减乘除，三角函数注意，如果是两个数组运算，则元素个数要一致 import numpy as np a=np.array([10,20,30,40]) #array([10, 20, 30, 40]) b=np.arange(4) #array([0, 1, 2, 3]) c=np. 阅读全文

posted @ 2020-08-07 17:24 小小喽啰阅读(957) 评论(0) 推荐(0)

朴素贝叶斯——文本分类

摘要：朴素贝叶斯是基于贝叶斯定理于独立分布假设的分类算法 1 优点：在数据较少的情况下仍然有效，可以处理多分类问题。 2 缺点：对入输入数据的准备方式较为敏感。 3 使用数据类型：标称型数据。标称型数据和数值型数据的区别： 1 标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主阅读全文

posted @ 2020-08-07 15:29 小小喽啰阅读(623) 评论(0) 推荐(0)

python 补一个集合set之间的运算

摘要：看到下面这个代码，不知道这个是什么意思： data=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], 阅读全文

posted @ 2020-08-07 14:03 小小喽啰阅读(369) 评论(0) 推荐(0)

逻辑回归

摘要：逻辑回归一、什么是逻辑回归是用于处理因变量为分类变量的回归问题，常见的是二分类或二项分布问题，也可以处理多分类问题，它实际上是属于一种分类方法。主要思想是用最大似然概率方法构造方差，为最大化方差，利用牛顿梯度上升求解方差参数。优缺点如下： 1 优点：计算代价不高，易于理解和实现。 2 缺点：容阅读全文

posted @ 2020-08-07 11:02 小小喽啰阅读(1148) 评论(0) 推荐(0)

python 递归排序

摘要：递归排序：首先讲下合并两个有序集合有两个有序的序列，分别为 [1,4,7] ,[2,3,5],现在请考虑将这两个序列合并成一个有序的序列 1 首先创建一个新的序列，分别从两个序列中取出第一个数，1和2，1比2小，把1放到新的序列中 2 第一个序列中的1已经放到新序列中，那么拿出4来进行比较，2比阅读全文

posted @ 2020-08-06 18:23 小小喽啰阅读(861) 评论(0) 推荐(0)

函数的递归

摘要：递归函数： 1.递归函数就是函数内部会调用函数本身： def my_print(content, count): print(content) if count == 1: return my_print(content, count-1) my_print('ok', 2) ''' 输出： ok 阅读全文

posted @ 2020-08-06 17:23 小小喽啰阅读(311) 评论(0) 推荐(0)

python 快速排序

摘要：快速排序：思路可以归结为3个步骤： 1 从待排序数组中随意选中一个数值，作为基准值 2 移动待排序数组中的元素，是的基准值左侧的数值都小于等于它，右侧的数值大于等于它 3 基准值将原来的数组分为两部分，针对这两部分，重复步骤1，2， 3 先实现1、2步骤的分区分区虽然没有让整个数组变得有序，但是阅读全文

posted @ 2020-08-06 17:10 小小喽啰阅读(323) 评论(0) 推荐(0)

python 希尔排序

摘要：希尔排序，又称缩小增量排序，其实就是改进版的插入排序当待排序列基本有序的情况下，插入算法的效率非常高，那么希尔排序就是利用这个特点对插入算法进行了改造升级希尔排序的关键是对待排序进行分组，这个分组并不是真的对序列进行了拆分，而仅仅是虚拟的分组，增量是分组时所使用的步长如： #待排序数组 4,1 阅读全文

posted @ 2020-08-06 16:57 小小喽啰阅读(197) 评论(0) 推荐(0)

python 选择排序

摘要：选择排序：假设有一个序列，a[0],a[1],a[2]...a[n]现在，对它进行排序。我们先从0这个位置到n这个位置找出最小值，然后将这个最小值与a[0]交换；然后将a[0]排除，在a[1]到a[n]之间找到最小值，将这个值和a[1]交换，重复这个过程，知道最后一个 def select_so 阅读全文

posted @ 2020-08-06 16:26 小小喽啰阅读(154) 评论(0) 推荐(0)

python 插入排序

摘要：插入排序：每一步都将一个待排数据按其大小插入到已经排序的数据中的适当位置，直到全部插入完毕先进行第一步：这一步是实现第一个待排序数字插到已经排好顺序的地方去 def insert(lst, index): """ 列表lst从索引0到索引index-1 都是有序的函数将索引index位置上的阅读全文

posted @ 2020-08-06 16:17 小小喽啰阅读(368) 评论(0) 推荐(0)

python 冒泡算法

摘要：冒泡排序核心思想即是相邻的两个数据进行比较：假设数列A有n个数据，首先比较A[0]和A[1]，确保较大的数在右边，后面重复同样的动作，一直到最大值在最右边，但是这样得到的数据仍然是无序的，只不过是找到了最大值，接下来要把最大值排除在外，再重复这个过程。。。。。 #实现剔除最大值后找最大值的过阅读全文

posted @ 2020-08-06 16:01 小小喽啰阅读(306) 评论(0) 推荐(0)

hive 函数

摘要：一、日期函数 1 date_add 指定日期n天之后，用法：date_add(date('2018-09-09'),10) 参数类型分别为date和int，返回date类型 2 add_months 指定日期n月之后，用法：add_months(date('2018-09-09'),2) 参数类型分阅读全文

posted @ 2020-08-05 17:25 小小喽啰阅读(235) 评论(0) 推荐(0)

Task07：类、对象与魔法方法(3天)

摘要：目录我把目录折叠起来了，如果需要查看直接点击一、类于对象 1.对象=属性+方法 2.self是什么？ 3.python的魔法方法 4.公有和私有 5.继承 6.组合 7.类、类对象和实例对象 8.什么是绑定 9.一些相关的内置函数（BIF）二、魔法方法 1.基本的魔法方法 2.算术运算符 3. 阅读全文

posted @ 2020-08-05 11:12 小小喽啰阅读(249) 评论(0) 推荐(0)

基于机器学习的文本分类NLP基本介绍

摘要：一、学习目的： 1 学会TF-IDF的原理和使用 2 使用sklearn的机器学习模型完成文本分类二、处理文本方法： 1 One-hot（独热编码） 2 Bag of Words（词袋） 3 N-gram 4 TF-IDF 分数下面具体介绍每种方法 2.1.one-hot 即将每一个单词使用一个阅读全文

posted @ 2020-08-04 18:53 小小喽啰阅读(758) 评论(0) 推荐(0)

数据分析EDA学习总结

摘要：探索性数据分析（Exploratory Data Analysis，EDA）：是一种探索数据的结构和规律的一种数据分析方法。其主要的工作包含： 1 对数据进行清洗， 2 对数据进行描述（描述统计量，图表）， 3 查看数据的分布， 4 比较数据之间的关系， 5 培养对数据的直觉和对数据进行总结 ED 阅读全文

posted @ 2020-08-03 18:45 小小喽啰阅读(590) 评论(0) 推荐(0)

Task06：函数与Lambda表达式(2天)

摘要：函数与Lambda表达式目录一、函数 1.函数的定义 2.函数的调用 3.函数文档 4.函数参数 5.函数的返回值 6.变量的作用域 7.内嵌函数 8.闭包 9.递归二、Lambda表达式 1.匿名函数的定义 2.匿名函数的应用正文一、函数 1.函数的定义 1 函数以def关键词开头，后接阅读全文

posted @ 2020-08-02 22:04 小小喽啰阅读(240) 评论(0) 推荐(0)