2017年7月4日

摘要: 上一节,我们介绍利用文本和知识库融合训练词向量的方法,如何更好的融合这些结构化知识呢?使得训练得到的词向量更具有泛化能力,能有效识别同义词反义词,又能学习到上下文信息还有不同级别的语义信息。 基于上述目标,我们尝试基于CBOW模型,将知识库中抽取的知识融合共同训练,提出LRWE模型。模型的结构图如下 阅读全文
posted @ 2017-07-04 17:29 bbking 阅读(5836) 评论(0) 推荐(1) 编辑

2017年6月2日

摘要: 1. 关于词向量 词向量是计算机将自然语言符号化的重要手段,通过把词或短语映射成低维的实数向量,以向量间的距离来衡量词语的相似性,可作为词语特征进行各项任务,在机器学习算法和自然语言处理中有着广泛应用。 传统的语言模型(eg. Word2vec)是基于分布假设,使用无监督的方式,利用给定的语料库中词 阅读全文
posted @ 2017-06-02 17:22 bbking 阅读(3664) 评论(1) 推荐(0) 编辑

2016年7月7日

摘要: 本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用于分类任务,效果有一定提升。 一. word2vec 模型 word2vec 是 Google 在 阅读全文
posted @ 2016-07-07 16:08 bbking 阅读(26489) 评论(14) 推荐(4) 编辑

2016年7月5日

摘要: 本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 阅读全文
posted @ 2016-07-05 18:18 bbking 阅读(43057) 评论(6) 推荐(5) 编辑

2016年7月2日

摘要: 最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。 1. 中文维基数据下载 下载dump:https://dumps.wikimedia.org/zhwiki/latest/,维基数据主要包含以下几部分 zh 阅读全文
posted @ 2016-07-02 21:22 bbking 阅读(24182) 评论(7) 推荐(3) 编辑

2015年12月5日

摘要: 之前学习了CNN的相关知识,提到Yoon Kim(2014)的论文,利用CNN进行文本分类,虽然该CNN网络结构简单效果可观,但论文没有给出具体训练时间,这便值得进一步探讨。 Yoon Kim代码:https://github.com/yoonkim/CNN_sentence 利用作者提供的... 阅读全文
posted @ 2015-12-05 18:51 bbking 阅读(7415) 评论(0) 推荐(0) 编辑

2015年11月24日

摘要: 一、题目描述 Constraints :Time Limit: 2 secs, Memory Limit: 32 MB Description: We often hear that computer is a magic, a great invention, or even a marvel. 阅读全文
posted @ 2015-11-24 16:24 bbking 阅读(741) 评论(0) 推荐(0) 编辑

2015年11月19日

摘要: 斯坦福课程CS224d: Deep Learning for Natural Language Processing lecture13:Convolutional neural networks -- for sentence classification 主要是学习笔记,卷积神经网络(CNN), 阅读全文
posted @ 2015-11-19 14:43 bbking 阅读(7298) 评论(0) 推荐(3) 编辑

2015年7月18日

摘要: 上周领了新任务,做国内高校改名历史的统计,这个挺有意思,以下是我任务完成过程,和大家分享。一. 数据收集 数据需求:目前已有高校校名,各高校改名历史记录 高校校名数据来源:尝试从高校排名网站(iPIN),中国教育和科研计算机网等抓取,但高校名不全,前者709,后者1394,最后从教育部找到一... 阅读全文
posted @ 2015-07-18 20:46 bbking 阅读(2130) 评论(1) 推荐(2) 编辑

2015年6月25日

摘要: 前不久做了有关自动文摘的学习,采用方法是TextRank算法,整理和大家分享。 一. 关于自动文摘 利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此 阅读全文
posted @ 2015-06-25 19:45 bbking 阅读(14084) 评论(0) 推荐(0) 编辑

导航