摘要:
scikit-learn 0.17之后就不再支持隐马尔可夫模型,而是将其独立拎出来作为单独的包。其中: hmmlearn:无监督隐马尔可夫模型 seqlearn :监督隐马尔可夫模型 一些通用的参数: verbose:一个正数。用于开启/关闭迭代中间输出日志功能。 数值越大,则日志越详细。 数值为0 阅读全文
摘要:
一、标签传播算法 scikit-learn 有两个类实现了标签传播算法: LabelPropagation:迭代过程: 执行标签传播:$F^{<t+1>}=PF^{<t+1>}$ 。 重置$F$ 中的标签样本标记:$F_l^{<t+1>}=Y_l$,其中$F_l$ 表示$F$ 的前$l$行。 Lab 阅读全文
摘要:
(一)通用方法、参数 1.通用方法 get_params([deep]):返回模型的参数。 deep: 如果为True,则可以返回模型参数的子对象。 set_params(**params):设置模型的参数。 params:待设置的关键字参数。 fit(X[, y, sample_weight]) 阅读全文
摘要:
一、数据集切分 二、性能度量 三、验证曲线 && 学习曲线 四、超参数优化 阅读全文
摘要:
一、线性模型 二、支持向量机 三、贝叶斯模型 四、决策树 五、KNN 六 、AdaBoost 七、梯度提升树 八、Random Forest 阅读全文
摘要:
一、PCA 二、MDS 三、Isomap 四、LocallyLinearEmbedding 五、FA 六、FastICA 七、t-SNE 阅读全文
摘要:
一、特征处理 二、特征选择 三、字典学习 四、PipeLine 阅读全文
摘要:
1.稀疏矩阵是那些矩阵中大部分为零的矩阵。这种矩阵只用保存非零元素的相关信息,从而节约了内存的使用。scipy.sparse提供了多种表示稀疏矩阵的格式。scipy.sparse.lialg提供了对稀疏矩阵进行线性代数运算的函数。scipy.sparse.csgraph提供了对稀疏矩阵表示的图进行搜 阅读全文
摘要:
scipy的integrate模块提供了集中数值积分算法,其中包括对常微分方程组ODE的数值积分。 1. 积分 (1)数值积分函数: scipy.integrate.quad(func, a, b, args=(), full_output=0, epsabs=1.49e-08, epsrel=1. 阅读全文
摘要:
1. 连续随机变量 2. 离散随机变量 3. 核密度估计 4. 常见分布 阅读全文
摘要:
1.numpy和scipy都提供了线性代数函数库linalg。但是scipy的线性代数库比numpy更加全面。 2.numpy中的求解线性方程组:numpy.linalg.solve(a, b)。而scipy中的求解线性方程组: scipy.linalg.solve(a, b, sym_pos=Fa 阅读全文
摘要:
1.scipy的optimize模块提供了许多数值优化算法。 2.求解非线性方程组: scipy.optimize.fsolve(func, x0, args=(), fprime=None, full_output=0, col_deriv=0, xtol=1.49012e-08, maxfev= 阅读全文
摘要:
Scipy的核心计算部分是一些Fortran数值计算库: 线性代数使用LAPACK库 快速傅立叶变换使用FFTPACK库 常微分方程求解使用ODEPACK库 非线性方程组求解以及最小值求解使用MINPACK 库 1. constants 模块 scipy的constants模块包含了众多的物理常数: 阅读全文
摘要:
一、文本文件 1.pandas.read_csv() 可以读取文本文件(.csv 格式): pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None 阅读全文
摘要:
1.时间序列的移动窗口上的各种统计函数是一种常见的操作。这一类函数我们称作移动窗口函数 与其他统计函数一样,移动窗口函数也排除了NA值 所谓移动窗口,就是两层含义: 窗口:统计函数作用的对象为该窗口内的数值 移动:该窗口是移动的,每个窗口对应一个统计量 。最终生成一个统计量序列 2.计算移动窗口的平 阅读全文
摘要:
1.matplotlib是一种比较低级的工具,pandas中有许多利用DataFrame对象数据组织特点来创建标准图表的高级绘图方法。 2.Series/DataFrame.plot():绘制图形。 Series.plot(kind='line', ax=None, figsize=None, us 阅读全文
摘要:
1. Python 中的时间 1.1 时区 1.2 time 模块 1.3 datetime 模块 2. 时间点 Timestamp 3. 时间段 Period 4. DatetimeIndex 5. PeriodIndex 6. resample 和频率转换 阅读全文
摘要:
一、分组 1.分组运算的过程为:拆分-应用-合并 拆分阶段:Series/DataFrame等数据根据你提供的一个或者多个键,被拆分为多组 应用阶段:根据你提供的一个函数应用到这些分组上 合并阶段:将函数的执行结果合并到最终结果中 2.分组中有两种数据:源数据(被分组的对象),分组数据(用于划分源数 阅读全文
摘要:
1.Series.map 通过Series.map()方法,所有字符串和正则表达式方法都能应用于各个值。但是如果存在NaN就会报错。为了解决这个问题,pandas提供了一些能够跳过NaN值的字符串操作方法。 2.Series.str.ufunc Series.str能够将Series的值当作字符串处 阅读全文
摘要:
一、移除重复数据 1.Series/DataFrame.duplicated Series/DataFrame.duplicated(*args, **kwargs) 返回一个布尔Series,指示调用者中,哪些行是重复的(重复行标记为True)。 参数: keep:一个字符串或者False,指示如 阅读全文