摘要: 条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然语言处理中得到了广泛应用。 HMM最大的缺点1》由于其输入独立性假设,导致不能考虑上下文特征,限制了特征的选择;2》在每一个节点都要进行归一化,所以只能找 阅读全文
posted @ 2020-01-14 19:37 Christbao 阅读(247) 评论(0) 推荐(0) 编辑
摘要: hive 窗口函数按照我个人理解,依据hive在map_reduce运算中,通过数据聚合,做好数据清洗和运算,一般在olap(在线数据分析)中事半功倍。 假设以下工作场景:窗口函数的威力你就会见识到: 1、比赛场景中,每场比赛的成绩排名第二位的选手,或者每场比赛成绩排名前五的选手; 2、如果有选手淘 阅读全文
posted @ 2019-12-25 10:33 Christbao 阅读(648) 评论(0) 推荐(0) 编辑
摘要: mecab(http://mecab.sourceforge.net/)是奈良先端科技大学开发的日文分词系统,基于CRF的分词原理,有c++实现,提供python、perl、ruby等接口 日文NLP中几个著名的开源系统,Juman,Chasen,Mecab,Mecab比较新,速度快。 命名实体识别 阅读全文
posted @ 2019-12-16 20:59 Christbao 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 程序与进程 程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。 程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。 进程是资源分配的最小单位,线程是CPU调度的最小单位,每一个进程中至少有一 阅读全文
posted @ 2019-12-11 16:01 Christbao 阅读(201) 评论(0) 推荐(0) 编辑
摘要: one-hot encoding与哑变量的区别 one-hot比哑变量的特征位多一位,即哑变量是精简版的one-hot,即在线性回归中用截距项来表示最后一维,但由于最初很难分辨特征的主次关系,且机器学习中多数情况为非线性回归,所以哑变量不太适用(蒙的,有待考证,回头纠正) one_hot将特征映射到 阅读全文
posted @ 2019-12-11 14:25 Christbao 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 微积分 dy=x微分*x变化量 微分中值定理:微分中值定理揭示了函数在某区间的整体性质与该区间内部某一点的导数之间的关系,因而称为中值定理 切线:通过割线和无穷小量定义了切线。 导数:通过切线和无穷小量定义了导数,导数是曲线在某点处切线的斜率,导数的值等于微商。 微分:微分是微小的增量,即无穷小量。 阅读全文
posted @ 2019-12-11 14:24 Christbao 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 聚类分析(集中趋势分析) 离散分析(分散性和变异性分析) 离散分布模型(二项、几何、泊松) 连续分布分析(正态分析) 统计抽样分析 置信区间设置 假设检验、卡方分布(结论检验) 相关和回归 将异常值剔除在外,可以保障数据不被扭曲 数据集中程度 平均数的类别有三种:均值、中位数、众数 均值带来的数值并 阅读全文
posted @ 2019-12-11 14:21 Christbao 阅读(828) 评论(0) 推荐(0) 编辑
摘要: word embedding Embedding就是用一个低维稠密的向量“表示”一个对象,这里所说的对象可以是一个词(Word2vec),也可以是一个物品(Item2vec),亦或是网络关系中的节点(Graph Embedding)。其中“表示”这个词意味着Embedding向量能够表达相应对象的某 阅读全文
posted @ 2019-12-11 14:06 Christbao 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 混淆矩阵 精准率/查准率,presicion 预测为正的样本中实际为正的概率 召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR F1分数,同时考虑查准率和查全率,二者达到平衡,=2*查准率*查全率/(查准率+查全率) 真正率 = 灵敏度 sensitivity 召回率 TP/T 阅读全文
posted @ 2019-12-11 14:05 Christbao 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 激活函数性质:为了增强网络的表示能力和学习能力 1、连续可导的非线性函数;2、函数简单,提高效率;3、导函数值域在一定区间。 神经网络是典型的分布式并行处理模型,神经元之间交互处理信息。 1》信息表示是分布式;2》记忆和知识存储在单元的连接上;3》通过逐步改变单元的连接强度来学习新知识 静态计算图和 阅读全文
posted @ 2019-12-11 14:03 Christbao 阅读(274) 评论(0) 推荐(0) 编辑