摘要: author:佟学强 V:txq130 有一养鸡场,鸡每天都下蛋,蛋全都一样的。 有一天厂长发现,西方的蛋好像比他的蛋个头大,而且营养还好,数量也多。厂长心急,于是开始扩充养鸡场规模,孵化更多的鸡出来。厂长对众鸡说,你们以后必须更加努力,而且要转变思路,我们的蛋,第一,数量不能比他们少太多,最起码要 阅读全文
posted @ 2018-08-16 10:48 佟学强 阅读(590) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-07-13 15:56 佟学强 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 矩阵论是对线性代数的延伸,很有必要深入研究。研究矩阵论可以加深对PCA,SVD,矩阵分解的理解,尤其是第一章入门的线性空间的理解,在知识图谱向量化,self_attention等论文中会涉及大量的矩阵论的知识。本文对此做一个总结,分为以下结构: 第一部分:矩阵的线性空间,矩阵的意义; 第二部分:矩阵 阅读全文
posted @ 2018-06-07 23:18 佟学强 阅读(12961) 评论(0) 推荐(1) 编辑
摘要: 相信各位在学习cnn的时候,常常对于卷积或者池化后所得map的的大小具体是多少,不知道怎么算。尤其涉及到边界的时候。 首先需要了解对于一个输入的input_height*input_widtht的图像,在卷积或者池化的时候,经常需要加padding,这是为了处理边界问题时而采用的一种方式,于是原输入 阅读全文
posted @ 2018-05-09 14:25 佟学强 阅读(1494) 评论(1) 推荐(0) 编辑
摘要: 这篇文章,专门讲语义相似度问题。 先看场景: scene(一):用户通过大众点评,线上约了餐馆,就餐后在上面发表了很多评论,评论中涉及了大量的餐馆的问题,比如菜品质量,酒店卫生,服务等等。现在需要抽取之中的要点,然后反馈给商家。 scene(二):KB_QA的两个问题:①获取question的语义表 阅读全文
posted @ 2018-05-01 12:10 佟学强 阅读(3648) 评论(0) 推荐(0) 编辑
摘要: 随着中国改革开放程度的加深,互联网行业也逐渐出现变革,典型的变化就是由原来的低端重复性造轮子,逐步转向高端,以技术创新为主导。一个有力的证明就是近年来以技术驱动的创业公司越来越多,这在10年前是不可想象的。在人才要求上,对工作经验不再那么看重,而更加重视求职者的学历,专业,背景。 在这样的背景下,一 阅读全文
posted @ 2018-04-17 12:55 佟学强 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 前面的博客进行了总述,这篇博客细化深入,主要结合知识图谱,KB_QA,语义表示的丰富性方面来论述,但是仍然会很宽泛,因为讲具体的技术细节,会有很多人蒙圈的,没有太大意义。 前面提到,语义理解,一方面要获取丰富,灵活的语义表示,另一方面要与知识图谱融合。要想获取精准的语义理解,比如谁是第一个为纸牌屋里 阅读全文
posted @ 2018-02-12 20:53 佟学强 阅读(2240) 评论(0) 推荐(0) 编辑
摘要: 2017年就这么悄无声息地过去了。在工业界,2016年是推荐的元年,2017年是中国的AI元年,这意味着路漫漫其修远兮~,而学术界永远会超前于工业界,有些时候难免也会有些一厢情愿……这些线索表明:①AI的发展非常迅速②学术界和工业界不同步的现象是共存的。过去的一年在nlp领域里,知识图谱的发展是最为 阅读全文
posted @ 2018-02-02 12:55 佟学强 阅读(5500) 评论(4) 推荐(2) 编辑
摘要: author:XueQiang Tong mail:niurenai@outlook.com v:txq130 先引入一个例子: bush这个词有灌木丛和总统两个意思。给你一句话,如果其中含有bush这个词,如何判断他的语义? 这是一个经典又古老的nlp话题。解决他的方案,有很多。其中有一个方案是这 阅读全文
posted @ 2017-12-04 15:48 佟学强 阅读(627) 评论(0) 推荐(0) 编辑
摘要: Page 1Published as a conference paper at ICLR 2017AS IMPLE BUT T OUGH - TO -B EAT B ASELINE FOR S EN -TENCE E MBEDDINGSSanjeev Arora, Yingyu Liang, Te 阅读全文
posted @ 2017-11-11 15:37 佟学强 阅读(2960) 评论(0) 推荐(0) 编辑
摘要: 深度学习,知识图谱,nlp学习经历 获取信息来源:英文paper研读,吴恩达公开课,Hiton公开课,北大nlp教材,英文最新学术论文,中科院院士技术博客,知识图谱专家课程自学进修路线:基础理论 专业理论(公开课,讲义,教材,技术博客) 框架原理及使用:sparkMLlib,tensorflow 最 阅读全文
posted @ 2017-10-11 15:38 佟学强 阅读(673) 评论(0) 推荐(0) 编辑
摘要: nlp领域里,语义理解仍然是难题! 给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概 阅读全文
posted @ 2017-09-20 16:27 佟学强 阅读(6766) 评论(0) 推荐(1) 编辑
摘要: 知识图谱与语义相似度的关系 阅读全文
posted @ 2017-08-24 23:11 佟学强 阅读(8661) 评论(0) 推荐(1) 编辑
摘要: 训练完一个模型后,为了以后重复使用,通常我们需要对模型的结果进行保存。如果用Tensorflow去实现神经网络,所要保存的就是神经网络中的各项权重值。建议可以使用Saver类保存和加载模型的结果。 1、使用tf.train.Saver.save()方法保存模型 tf.train.Saver.save 阅读全文
posted @ 2017-07-26 22:31 佟学强 阅读(4180) 评论(1) 推荐(0) 编辑
摘要: 黄文坚的tensorflow实战一书中的第四章,讲述了tensorflow实现多层感知机。Hiton早年提出过自编码器的非监督学习算法,书中的代码给出了一个隐藏层的神经网络,本人扩展到了多层,改进了代码。实现多层神经网络时,把每层封装成一个NetLayer对象(本质是单向链表),然后计算隐藏层输出值 阅读全文
posted @ 2017-07-26 10:10 佟学强 阅读(2911) 评论(0) 推荐(0) 编辑
摘要: 之前研究的CRF算法,在中文分词,词性标注,语义分析中应用非常广泛。但是分词技术只是NLP的一个基础部分,在人机对话,机器翻译中,深度学习将大显身手。这篇文章,将展示深度学习的强大之处,区别于之前用符号来表示语义,深度学习用向量表达语义。这篇文章的最大价值在于,为初学者指明了研究方向。下面为转载的原 阅读全文
posted @ 2017-06-06 17:24 佟学强 阅读(944) 评论(0) 推荐(0) 编辑
摘要: 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自 阅读全文
posted @ 2017-04-25 17:50 佟学强 阅读(587) 评论(1) 推荐(0) 编辑
摘要: 看了宗成庆博士的《统计自然语言处理(中文信息处理)》的第六章,对维特比算法有着非常精辟的讲解。把其中的讲解上传上来,个人感觉比较正统。 今天用Java实现了这个算法,也可以转换为C代码: 测试文件: 输出结果为1,0,0,就是sunny,rainy,rainy。对比了一下,结果没问题,逻辑也没问题。 阅读全文
posted @ 2017-04-25 13:10 佟学强 阅读(869) 评论(0) 推荐(0) 编辑
摘要: 苏伟峰 李绍滋 厦门大学计算机科学系 厦门 361005 摘 要 本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。 关键词 文本分类 概念 《知网》 全信息 阅读全文
posted @ 2017-04-21 11:04 佟学强 阅读(1353) 评论(0) 推荐(0) 编辑
摘要: 基于《知网》的词汇语义相似度计算[1] 刘群†‡李素建† {liuqun,lisujian}@ict.ac.cn † 中国科学院计算技术研究所 ‡ 北京大学计算语言学研究所 摘要: 《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于《知网》中对于 阅读全文
posted @ 2017-04-21 10:57 佟学强 阅读(1797) 评论(0) 推荐(0) 编辑