摘要:
RecQ是一个用于推荐系统的python库(python2.7.x),实现了一些state-of-the-art的推荐算法。 github地址:https://github.com/Coder-Yu/RecQ 为了轻松地运行RecQ(不需要逐一设置RecQ中使用的包),强烈建议使用anaconda。 阅读全文
摘要:
背景 介绍一个处理进程的实用工具,这个是一个第三方库。应用主要有类似ps、cd、top,还有查看硬盘、内存使用情况等。 推荐的理由主要有 2 个,第一个是跨平台的,不管是OSX、Centos、Windows还是SUSE、Ubuntu,都可以用这个工具,对于运维来说,非常实用;第二个是强于os.sys 阅读全文
摘要:
背景 在研究和新闻文章中,关键词构成了一个重要的组成部分,因为它们提供了文章内容的简洁表示。关键词在从信息检索系统,书目数据库和搜索引擎优化中定位文章方面也起着至关重要的作用。关键词还有助于将文章分类为相关主题或学科。 提取关键词的传统方法涉及基于文章内容和作者的判断手动分配关键词。这涉及大量时间和 阅读全文
摘要:
FuzzyWuzzy 模糊字符串匹配,它使用Levenshtein Distance来计算简单易用的包中序列之间的差异。 前置条件 Python 2.7 or higher difflib python-Levenshtein(可选的,在字符串匹配中提供4-10倍的加速,不过在某些情况下可能导致不同 阅读全文
摘要:
本文介绍TextRank算法及其在多篇单领域文本数据中抽取句子组成摘要中的应用。 TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要 阅读全文
摘要:
文本 1. string:通用字符串操作 2. re:正则表达式操作 3. difflib:差异计算工具 4. textwrap:文本填充 5. unicodedata:Unicode字符数据库 6. stringprep:互联网字符串准备工具 7. readline:GNU按行读取接口 8. rl 阅读全文
摘要:
在这篇文章里,我们将会介绍4个Python解释器自身提供的小工具。这些小工具在笔者的日常工作中经常用到,减少了各种时间的浪费,然而,却很容易被大家忽略。每当有新来的同事看到我这么使用时,都忍不住感叹,原来Python还隐藏了这么好用的功能。下面就来看一下Python自带的几个小工具 一、1秒钟启动一 阅读全文
摘要:
Python 是一个设计优美的解释型高级语言,它提供了很多能让程序员感到舒适的功能特性。但有的时候,Python 的一些输出结果对于初学者来说似乎并不是那么一目了然。 这个有趣的项目意在收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性,并尝试讨论这些现象背后真正的原理! 虽 阅读全文
摘要:
我们将现有的 提取方法(Extractive)(如LexRank,LSA,Luhn和Gensim现有的TextRank摘要模块)与含有51个文章摘要对的Opinosis数据集进行比较。我们还尝试使用Tensorflow的文本摘要算法进行抽象技术(Abstractive),但由于其极高的硬件需求(70 阅读全文
摘要:
语义网的愿景活跃且良好,广泛应用于行业 语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科学美国人》发表的文章《The Semantic Web》所介绍的那样)。ISWC 是共享这一愿景的研究人员和工程师组 阅读全文