02 2018 档案
摘要:工业界 腾讯人工智能实验室(Tencent AI Lab) 百度自然语言处理(Baidu NLP):对外提供了百度AI开放平台,王海峰(现任百度副总裁,AI技术平台体系AIG总负责人) 微软亚洲研究院自然语言计算组(Natural Language Computing - Microsoft Res
阅读全文
摘要:参考:Familia的Github项目地址、百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding
阅读全文
摘要:一、TextRank原理 TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。 1. PageRank算法 PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·佩奇(
阅读全文
摘要:方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” 方案二:同义词近义词库 比较经典的是哈工大社会计算与信息检索研究
阅读全文
摘要:1. 查看文件的编码方式:file命令 但是file命令不太可靠, 一个gb2312编码的文件被判断为ISO-8859 2. 在gedit用指定的编码方式打开文件 打开gedit, 然后File => Open => 左下角的Character Encoding的右边有个下拉列表,选择Add or
阅读全文
摘要:在使用linux时,经常需要进行文件查找。其中查找的命令主要有find和grep。两个命令是有区别的: (1)find命令:根据文件的属性进行查找,如文件名,文件大小,所有者,所属组,是否为空,访问时间,修改时间等。 (2)grep命令:根据文件的内容进行查找,会对文件的每一行按照给定的模式(pat
阅读全文
摘要:暂时不知道什么命令可以达到这个目标,目前的方法是分步进行: 首先,找出指定创建时间内的文件名 例如在imgs文件夹中,找出创建时间在一天内的文件 然后将这些文件复制到指定的imgs_feb1st文件夹 关于获取文件的创建时间、更改时间等参考: https://zhidao.baidu.com/que
阅读全文