yangyang12138

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

03 2020 档案

文本特征选取
摘要:1.信息增益法 信息增益法根据某项特征ti为整个分类所能提供信息量多少来衡量该特征项的重要程度,从而决定对该项特征的取舍。 信息量的多少由信息熵来衡量,因此,信息增益即不考虑任何特征时文档的熵和考虑该特征后文章熵的差 2.卡方统计量 卡方统计量衡量的是特征t和类别C直接的相关联程度,并假设t和C直接 阅读全文

posted @ 2020-03-31 01:11 杨杨09265 阅读(128) 评论(0) 推荐(0) 编辑

角色标注
摘要:参考来源:https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides/nlp_case/label_semantic_roles/README.cn.html 1.源数据介绍 自然语言分析技术大致分为三个层面:词法分析、句法分析 阅读全文

posted @ 2020-03-30 03:26 杨杨09265 阅读(317) 评论(0) 推荐(0) 编辑

情感分析
摘要:1.网络结构 2.数据源 数据集的训练集和测试集分别包含25000个已标注过的电影评论。其中,负面评论的得分小于等于4,正面评论的得分大于等于7,满分10分。 文章参考:https://www.paddlepaddle.org.cn/documentation/docs/zh/user_guides 阅读全文

posted @ 2020-03-29 05:57 杨杨09265 阅读(211) 评论(0) 推荐(0) 编辑

alink
摘要:alink调用的两种模式 第一种直接调用对象本书 直接定义创建对象,fit数据,然后生成模型 public static void main(String[] args) throws Exception { Row[] data = new Row[]{ Row.of(new Object[]{0 阅读全文

posted @ 2020-03-27 02:31 杨杨09265 阅读(570) 评论(0) 推荐(0) 编辑

flink(一)
摘要:1.概述 Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理. 2.安装 下载:https://mirror.bit.edu.cn/apache/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.12.tgz解压到指 阅读全文

posted @ 2020-03-26 01:05 杨杨09265 阅读(175) 评论(0) 推荐(0) 编辑

plt画函数
摘要:画函数功能包:matplotlib.mathtext 1.音符 命令结果 \acute a 或 \'a \bar a \breve a \ddot a 或 \"a \dot a 或 \.a \grave a 或 \a` \hat a 或 \^a \tilde a 或 \~a \vec a \over 阅读全文

posted @ 2020-03-24 22:55 杨杨09265 阅读(230) 评论(0) 推荐(0) 编辑

plt画图工具(3d)
摘要:1.3d图形 生成3d图的方式 fig = plt.figure()ax = fig.gca(projection='3d') 普通图形,设置x,y,z三个轴的数据 from matplotlib import cbook from matplotlib import cm from matplot 阅读全文

posted @ 2020-03-23 23:33 杨杨09265 阅读(1276) 评论(0) 推荐(1) 编辑

plt画图工具(二维图形)
摘要:1.直线图 import numpy as np from matplotlib import pyplot as plt x = np.arange(1,11) y = 2 * x + 5 plt.title("Matplotlib demo") plt.xlabel("x axis captio 阅读全文

posted @ 2020-03-23 05:31 杨杨09265 阅读(609) 评论(0) 推荐(0) 编辑

语言模型
摘要:1.概述 通俗的讲就是通过语料,计算某个句子出现的概率 对于一个由l个基元(“基元”可以为字、词或短语等,为了表述方便,以后我们只用“词”来通指)构成的句子 s = w1w2s3……wl,其概率计算公式为 p(s) = p(w1)p(w2|w1)……p(wl|w1w2……wl-1) = ∏ p(wi 阅读全文

posted @ 2020-03-21 01:04 杨杨09265 阅读(184) 评论(0) 推荐(0) 编辑

自动机
摘要:自动机是一种理想化的机器,它只是抽象分析问题的理论工具,并不具备实际的物质形态,它是科学定义的演算机器,用来表达某种不需要人力干涉的机械性演算过程。根据不同的构成和功能,自动机分成4中: 有限自动机(FA),下推自动机(PDA),线性界限自动机,图灵机 1.有限自动机 DFA M是一个五元组 M = 阅读全文

posted @ 2020-03-20 01:50 杨杨09265 阅读(1067) 评论(0) 推荐(0) 编辑

乔姆斯基体系
摘要:1.正则文法RG 3型文法,对应的语言叫RL 如果文法G的规则集P中所有规则均满足如下形式 A->Bx, A->x 其中,A,B∈N,x∈∑ 则称文法G满足正则文法。 例子 对于文法G = (N,∑,P,S) N = {S,A,B} ∑={a,b,c} 以下情况均为正则文法 S->aA A->aA 阅读全文

posted @ 2020-03-19 03:16 杨杨09265 阅读(349) 评论(0) 推荐(0) 编辑

PCA
摘要:给定矩阵X我们需要旋转它以使得数据沿着最大变化方向,这意味着我们需要用一个旋转矩阵去乘以数据矩阵X,也就是Y=transpose(P)*X,这里P被用来使得Y的协方差矩阵变为对角形。 cov(Y) = cov(transpose(P)*X) = [对角矩阵] 由协方差定义知: cov(Y) = E[ 阅读全文

posted @ 2020-03-18 00:49 杨杨09265 阅读(101) 评论(0) 推荐(0) 编辑

文法
摘要:1.文法定义 文法是一个四元组, G = (V,T,P,S) V - 变量的非空有穷集,对于所有属于V元素A,A叫作一个语法变量,简称为变量,也可叫作非终极符号。它表示一个语法范畴,所以,本书中有时候又称之为语法范畴。 T - 终极符的非空有穷集,对于所有T的元素a,a叫作终极符,由于V中变量表示语 阅读全文

posted @ 2020-03-17 02:20 杨杨09265 阅读(352) 评论(0) 推荐(0) 编辑

nltk(五)
摘要:nltk.parse句法分析 1).上下文无关文法 2).递归下降解析器 3).图表分析,动态规划 from nltk.parse import * parser = CoreNLPParser(url='http://localhost:9966') tokens = 'Rami Eid is s 阅读全文

posted @ 2020-03-16 03:10 杨杨09265 阅读(125) 评论(0) 推荐(0) 编辑

nltk(四)
摘要:1.nltk.lm语言模型 统一的语言模型接口 class LanguageModel(object): """ABC for Language Models. Cannot be directly instantiated itself. """ def __init__(self, order, 阅读全文

posted @ 2020-03-14 05:46 杨杨09265 阅读(343) 评论(0) 推荐(0) 编辑

nltk(三)
摘要:1.tokenize 主要用于单词的拆分, 主要啊包括MWETokenizer(多单词拆分),RegexpTokenizer(正则抽取单词拆分),SpaceTokenizer(空格单词拆分),TabTokenizer,StanfordSegmenter(斯坦福分词器),TreebankWordTok 阅读全文

posted @ 2020-03-13 03:20 杨杨09265 阅读(190) 评论(0) 推荐(0) 编辑

nltk(二)
摘要:1.collocations模块 用于计算一组单词中,没window_size个单词中n个词同时出现的次数 from nltk.collocations import * sent = 'this this is is a a test test'.split() b = BigramColloca 阅读全文

posted @ 2020-03-12 01:24 杨杨09265 阅读(189) 评论(0) 推荐(0) 编辑

语义
摘要:1.短语分类 ADJP 形容词短语 ADVP 由副词开头的副词短语,状语 CLP 量词短语 CP 由补语引导的补语从句、关系从句 DNP XP+DEP结构构成的短语 DP 限定词短语 DVP XP+DEV结构构成的短语 FRAG 片段 IP 简单句 LCP 处所词为中心的短语 LST 用于解释说明性 阅读全文

posted @ 2020-03-11 01:07 杨杨09265 阅读(383) 评论(0) 推荐(0) 编辑

nltk(一)
摘要:1.wsd模块 返回上下文中不明确单词的synset。 nltk.wsd.lesk(['I', 'went', 'to', 'the', 'bank', 'to', 'deposit', 'money', '.'], 'bank') 2.util模块 from nltk.util import * 阅读全文

posted @ 2020-03-10 00:51 杨杨09265 阅读(181) 评论(0) 推荐(0) 编辑

CRF条件随机场
摘要:1.概述 X={X1,X2……Xn}和Y={Y1,Y2……Yn}都是联合随机变量,若随机变量Y构成一个无向图G=(V,E)表示的马尔可夫随机场(MRF),则其条件概率分布P(Y|X)称为条件随机场。即P(Yv|X,Yw,w!=v) = P(Yv|X,Yw,w=v),w=v表示与节点v相连的所有节点w 阅读全文

posted @ 2020-03-09 00:41 杨杨09265 阅读(128) 评论(0) 推荐(0) 编辑

rnn神经网络
摘要:1.概述 循环神经网络是一种能对序列数据进行精确建模的有力工具。实际上,循环神经网络的理论计算能力是图灵完备的。自然语言是一种典型的序列数据(词序列),近年来,循环神经网络及其变体在自然语言处理的多个领域,如语言模型、句法解析、语义角色标注(或一般的序列标注)、语义表示、图文生成、对话、机器翻译等任 阅读全文

posted @ 2020-03-07 01:31 杨杨09265 阅读(239) 评论(0) 推荐(0) 编辑

paddle线性回归
摘要:1.构建输入变量和输出变量 x = fluid.data(name='x', shape=[None, 1], dtype='float32')y = fluid.data(name='y', shape=[None, 1], dtype='float32') 2.建立神经网络 y_predict 阅读全文

posted @ 2020-03-06 06:05 杨杨09265 阅读(194) 评论(0) 推荐(0) 编辑

自然语言处理
摘要:1.处理框架 Ltp:中文分词、分词标注、未登陆词识别、句法分析、语义角色标注 Stanford NLP:中文分词、分词标注、未登陆词识别、句法分析 FudanNLP:中文分词、句法分析 HanLP:中文分词、句法分析等各类算法 ICTCLAS分词系统:具有里程碑意义的中文分词系统 Anjs中文分词 阅读全文

posted @ 2020-03-05 02:21 杨杨09265 阅读(155) 评论(0) 推荐(0) 编辑

GDBT回归
摘要:1.概述 GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再此基础上, 阅读全文

posted @ 2020-03-04 01:33 杨杨09265 阅读(190) 评论(0) 推荐(0) 编辑

广义线性回归
摘要:1.概述 广义线性模型[generalize linear model]线性模型的扩展,通过联结函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种 阅读全文

posted @ 2020-03-03 02:06 杨杨09265 阅读(803) 评论(0) 推荐(0) 编辑

采样
摘要:1.高斯随机数 用于获取两个独立的0均值且单位方差的正态分布的高斯变量 实现步骤: 选择两个均匀分布的随机数0<=U1,U2<=1 设定thtea = 2piU1 和 r=sqrt(-2ln(U2)) 那么x=rsin(thtea),y=rcos(thtea)就是0均值单位方差的独立高斯分布变量 2 阅读全文

posted @ 2020-03-01 22:52 杨杨09265 阅读(302) 评论(0) 推荐(0) 编辑

paddle(三)
摘要:一、数据源 InMemoryDataset,QueueDataset 加载数据并在训练前缓冲数据。此类由DatasetFactory创建。 import paddle.fluid as fluid dataset = fluid.DatasetFactory().create_dataset("In 阅读全文

posted @ 2020-03-01 02:58 杨杨09265 阅读(482) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示