随笔分类 - python
摘要:1.anaconda 1.什么是 anaconda 便捷获取包,对包进行管理,对环境可以进行统一管理包含了 conda python 180多个科学包1.1什么是包python类、模块、包的区别1.1.1类 将数据和操作进行封装,以便将来的复用1.1.2模块 对应一个文件;创建一个脚本文件后,定义了
阅读全文
摘要:向量空间模型 文本可用 字、词组、短语、甚至‘概念’等元素表示 用来表示文本的性质,称为文本的特征 区别文本的属性 特征选择就是要选择最能表征文本含义的词组元素 方法: 文档频率 信息增益 卡方检验 互信息 文档频率(DF) 某一词组出现在文档中的频率称为文档频率(DF) DF=出现词组的文本数/数
阅读全文
摘要:词项权重计算 词项频率 如何才能对检索的文档进行评分和排序呢?一个合理的想法是,如果一篇文档包含的查询词的数目越多,那么这篇文档与查询相关的可能性就越高,就意味着更可能是用户所需要的文档。 【如果只考虑词频,那么长文本会更可能包含更多的查询词而获得评分优势; 需要消除文档长度对评分的影响,这也是向量
阅读全文
摘要:移除重复数据 利用函数或映射进行数据转换 替换值 重命名轴索引 离散化和面元划分 检测和过滤异常值 排列和随机采样 计算指标/哑变量
阅读全文
摘要:sklearn.linear_model.logisticregression (penlty='l2',dual=false,tol=0.0001,C=1.0,fit_intercept=true,intercept_scaling=1,class_weight=none,random_state
阅读全文
摘要:广义线性模型包括 logistic回归与多重线性回归,最大区别是因变量不同 logistic回归:二项分布 多重线性回归:连续变量 poisson回归:poisson分布 负二项回归:负二项分布 logistic回归的主要用途: 寻找危险因素 预测 判别 常规步骤 寻找h函数(hypothesis)
阅读全文
摘要:由于各评价指标的性质不同,通常具有不同的量纲和数量级 直线方法(极值法、标准差法) 折线方法(三折线法) 曲线型法(半正态性分布) 不同的标准化方法,对系统的评价结果会产生不同的影响 常见的方法:min-max标准化、log函数转换、atan函数转换、z-score标准化、模糊量化发 数据的标准化,
阅读全文
摘要:处理缺失数据: 根据各标签的值中 是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍程度 用指定值或插值方法(如ffill 或 bfill ) 填充缺失数据 返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值 NA ,该对象的类型与源类型一样 过滤缺失数据 可以通过pandas.is
阅读全文
摘要:根据已有模型学习python 首先用到panda 1.panda.read_excel() 读取excel表 2.panda.concat() 合并数据 合并数据集 merge函数 concat函数
阅读全文
摘要:为了使计算机能够真正处理文本特征,必须对文本特征进行特征加权,将文本表示成计算机可以处理的数学向量 1.布尔模型--即命中模型 是基于特征项的严格匹配模型 可以看做向量模型的特例 根据特征是否在文档中出现 特征的权值只能取或 首先,建立一个二值变量的集合,这些变量对应于文本的特征项 文本用这些特征变
阅读全文