摘要: 判别式模型:拿到的是条件概率,在给定特征X情况下求Y得概率,找到最大的Y作为结果,不关注Y的分布。比如神经网络,你把X灌进去就能拿到结果。仅仅对输入抽取特征,即特征函数为f(x)。 产生式模型:是一种联合分布,用联合分布生成样本,比如HMM,BNS,MRF,对输入输出同时抽取特征,即特征函数为f(x 阅读全文
posted @ 2018-01-25 16:45 fionaplanet 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 一、极大似然已经发生的事件是独立重复事件,符合同一分布已经发生的时间是可能性(似然)的事件利用这两个假设,已经发生时间的联合密度值就最大,所以就可以求出总体分布f中参数θ 用极大似然进行机器学习有监督学习:最大熵模型无监督学习:GMM 二、熵和信息自信息i(x) = -log(p(x)) 信息是对不 阅读全文
posted @ 2018-01-21 15:30 fionaplanet 阅读(986) 评论(0) 推荐(0) 编辑
摘要: 一、基础知识 计算机没有人类的先验知识,如何理解文字,如何让实现文本分类,必须找到一套方法或方式对这些我们人类造成的词去表达和表式。一是从大量的预料中,拿到一些可以对它的含义表达的一些表达方式,二是文本是标记性的语言没办法去做机器学习,转成计算机可以理解的数值型的向量。 词编码 > N-gram, 阅读全文
posted @ 2018-01-11 14:23 fionaplanet 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 一、马尔科夫链 1.马尔科夫链:指数学中具有马尔可夫性质的离散时间随机过程。即给定当前知识或信息的情况下,过去对于未来预测无关,的这样一种前后关系。 2.马尔科夫性质:初始状态确定的情况下,给定不变的状态转移矩阵,n次循环之后最终会达到稳态的分布。下面例子中,达到稳态后,在很久的未来,每一天的天气都 阅读全文
posted @ 2018-01-08 14:48 fionaplanet 阅读(1546) 评论(0) 推荐(0) 编辑
摘要: 本以为很简单,结果发现还是有些坑啊 1. 安装cx_oracle pip install cx_oracle 或者用whi文件,这样你能知道版本号那些https://www.lfd.uci.edu/~gohlke/pythonlibs/#cx_oracle cx_Oracle‑5.3+oci12c‑ 阅读全文
posted @ 2017-12-04 14:22 fionaplanet 阅读(4765) 评论(0) 推荐(0) 编辑
摘要: 同时安装了Python2 和Python3的情况下,由于我的电脑默认的是使用Python3,pip的时候直接就安装在3上了,为了让2也安装, 办法之一就是在安装python2的路径下比如,D:\Anaconda2\script里面使用命令行,然后使用pip install就可以安装了。 方法二 指定 阅读全文
posted @ 2017-12-04 11:07 fionaplanet 阅读(478) 评论(0) 推荐(0) 编辑
摘要: Sqoop实现Hbase和关系型数据库的数据互导 Zookeeper 配置的更新,文件的命名 Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。 Hive是Hadoop的一个数据仓库工具,可以将结构化 阅读全文
posted @ 2017-11-24 16:07 fionaplanet 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 下面是一些主流的会用于综合指标评价以及绩效评价的一些方法: 1. AHP(层次分析)+加权 目前这个方法是对于医保领域评价绩效用的最多的,包括重庆市、天津市、苏北某市。具体相关文献见文件夹“AHP+加权”。 优点:这个方法目前最符合需求,可以将定量的指标结合算出综合指标,用的也比较多。 缺点:对于各 阅读全文
posted @ 2017-11-16 09:42 fionaplanet 阅读(5842) 评论(0) 推荐(0) 编辑
摘要: DEA(包络分析) 1.概念 利用多项投入指标和产出指标,利用线性规划的方法,对具有可比性的同类型单位进行有效性评价的一种数量分析方法。以效率的概念作为加总模式,效率等于总产出除以总投入,并以效率最大化为目标。 解决了不同量纲多种投入和多种产出的效率分析问题,同类决策单元的相同效率,其计算出来的效率 阅读全文
posted @ 2017-11-16 09:39 fionaplanet 阅读(4133) 评论(0) 推荐(0) 编辑
摘要: 最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个 阅读全文
posted @ 2017-09-20 10:52 fionaplanet 阅读(7001) 评论(45) 推荐(0) 编辑