摘要:
一. GridSearchCV参数介绍 导入模块: GridSearchCV官方说明 参数: estimator:scikit-learn 库里的算法模型; param_grid:需要搜索调参的参数字典; scoring:评价指标,可以是 auc, rmse,logloss等; n_jobs:并行计 阅读全文
摘要:
项与项集:设itemset={item1, item_2, …, item_m}是所有项的集合,其中,item_k(k=1,2,…,m)成为项。项的集合称为项集(itemset),包含k个项的项集称为k项集(k-itemset)。事务与事务集:一个事务T是一个项集,它是itemset的一个子集,每个 阅读全文
摘要:
一、自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。 2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测 阅读全文
摘要:
删除表中的某一行或者某一列更明智的方法是使用drop,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。 (1)清理无效数据 此处:print( data.dropna()) 和 print(data[data.notnull()]) 结果一样 (2)填充无效值 注意: 阅读全文
摘要:
一、激活函数 1.什么是激活函数 激活函数: 就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。 2.为什么要有激活函数 如果不用激活函数,每一层的输出都是上一层的线性组合,从而导致整个神经网络的输出为神经网络输入的线性组合,无法逼近任意函数。 3.激活函数的特性 非线性 可微性: 阅读全文
摘要:
一般来说集成学习可以分为三大类: 用于减少方差的bagging 用于减少偏差的boosting 用于提升预测结果的stacking 一、Bagging(1996) 1、随机森林(1996) RF = bagging + random-combination C&RT (1)RF介绍 RF通过Bagg 阅读全文
摘要:
logistic回归的基本思想 logistic回归是一种分类方法,用于两分类问题。其基本思想为: a. 寻找合适的假设函数,即分类函数,用以预测输入数据的判断结果; b. 构造代价函数,即损失函数,用以表示预测的输出结果与训练数据的实际类别之间的偏差; c. 最小化代价函数,从而获取最优的模型参数 阅读全文
摘要:
1.标准回归 1 from numpy import * 2 import matplotlib.pyplot as plt 3 4 #标准回归函数和数据导入函数 5 def loadDataSet(filename): 6 # f = open(filename) 7 # dataSet = [] 阅读全文
摘要:
1.理论基础——条件概率,词集模型、词袋模型 条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下: 词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现 词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需 阅读全文
摘要:
线性回归 误差是测量值与真实值的差值,服从X~N(0,sig^2) 高斯+最大似然估计推出最小二乘法: 阅读全文