随笔档案「2018年2月」 - 焦距

国内知名的自然语言处理(NLP)团队

摘要：工业界腾讯人工智能实验室（Tencent AI Lab）百度自然语言处理（Baidu NLP）：对外提供了百度AI开放平台，王海峰（现任百度副总裁，AI技术平台体系AIG总负责人）微软亚洲研究院自然语言计算组（Natural Language Computing - Microsoft Res 阅读全文

posted @ 2018-02-27 17:25 焦距阅读(2774) 评论(0) 推荐(0)

Familia：百度NLP开源的中文主题模型应用工具包

摘要：参考：Familia的Github项目地址、百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding 阅读全文

posted @ 2018-02-27 13:53 焦距阅读(922) 评论(0) 推荐(0)

基于TextRank提取关键词、关键短语、摘要

摘要：一、TextRank原理 TextRank是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的，所以首先简要介绍下PageRank算法。 1. PageRank算法 PageRank设计之初是用于Google的网页排名的，以该公司创办人拉里·佩奇（阅读全文

posted @ 2018-02-23 15:45 焦距阅读(3676) 评论(0) 推荐(0)

【中文同义词近义词】词向量 vs 同义词近义词库

摘要：方案一：利用预训练好的词向量模型优点：（1）能把词进行语义上的向量化（2）能得到词与词的相似度缺点：（1）词向量的效果和语料库的大小和质量有较大的关系（2）用most_similar() 得到往往不是“同义词”，而是“共现词” 方案二：同义词近义词库比较经典的是哈工大社会计算与信息检索研究阅读全文

posted @ 2018-02-11 14:39 焦距阅读(5097) 评论(0) 推荐(0)

Linux下打开windows中文文本乱码问题

摘要：1. 查看文件的编码方式：file命令但是file命令不太可靠, 一个gb2312编码的文件被判断为ISO-8859 2. 在gedit用指定的编码方式打开文件打开gedit, 然后File => Open => 左下角的Character Encoding的右边有个下拉列表，选择Add or 阅读全文

posted @ 2018-02-09 20:41 焦距阅读(1176) 评论(0) 推荐(0)

[Linux] find文件查找和grep文件内容查找

摘要：在使用linux时，经常需要进行文件查找。其中查找的命令主要有find和grep。两个命令是有区别的： (1)find命令：根据文件的属性进行查找，如文件名，文件大小，所有者，所属组，是否为空，访问时间，修改时间等。 (2)grep命令：根据文件的内容进行查找，会对文件的每一行按照给定的模式(pat 阅读全文

posted @ 2018-02-05 12:09 焦距阅读(3785) 评论(0) 推荐(0)

[Linux] 复制文件夹下指定创建时间的文件

摘要：暂时不知道什么命令可以达到这个目标，目前的方法是分步进行：首先，找出指定创建时间内的文件名例如在imgs文件夹中，找出创建时间在一天内的文件然后将这些文件复制到指定的imgs_feb1st文件夹关于获取文件的创建时间、更改时间等参考： https://zhidao.baidu.com/que 阅读全文

posted @ 2018-02-01 18:02 焦距阅读(1289) 评论(0) 推荐(0)

焦距

向前一步

02 2018 档案

公告