摘要:
作为著名Python web框架之一的Flask,具有简单轻量、灵活、扩展丰富且上手难度低的特点,因此成为了机器学习和深度学习模型上线跑定时任务,提供API的首选框架。众所周知,Flask默认不支持非阻塞IO的,当请求A还未完成时候,请求B需要等待请求A完成后才能被处理,所以效率非常低。但是线上任务通常需要异步、高并发等需求,本文总结一些在日常使用过程中所常用的技巧。一、前沿异步和多线程有什么区别... 阅读全文
摘要:
1、背景关键词提取我们前面介绍了TF-IDF和他的改进版TF_IWF,关于关键词提取简介和应用可以参考以上前篇文章。在前面我们讲过网页排序算法PageRank的原理,将PageRank用到文本的关键词提取就是TextRank了。2、原理相比于PageRank,如下图所示在TextRank中,无非是将单词作为节点,每个单词的外链来源于该单词前后固定大小窗口的所有单词。类似于RageRank的思想,T... 阅读全文
摘要:
1、背景在google创立初期,搜索网页排序使用的核心算法就是PageRank,成就其成为全球最大的搜索引擎。2、PageRank搜索引擎用户希望在查询过后,快速准确的找到用户需要的网页,因此需要行之有效的网页排名算法。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法 — “论文的引用次数”。由此想到网页的重要性也可以根据这种方法来评价,于是PageRank就诞生了。有别于词... 阅读全文
摘要:
1、背景在上篇特征加权之TFIDF 中,我们提到了IDF的固有缺点,即\(IDF\) 的简单结构并不能使提取的关键词,十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被掩盖。例如:语料库 \(D\) 中教育类文章偏多,而文本 \(j \)是一篇属于教育类的文章,那么教育类相关的词语的\( IDF ... 阅读全文
摘要:
1、背景TF-IDF是信息检索和文本挖掘中常用的特征加权技术,同样常用于文本主题提取和分词加权等场景。TF-IDF是一种完全基于统计的方法,其核心思想是假设字词的重要性与其在某篇文章中出现的比例成正比,与其在其他文章中出现的比例成反比。2、TF-IDF怎么理解呢?某个词在一篇文章中反复出现有两种情况,即这个词是关键词或者常用词(可理解为停用词)。要确定这个词的最终属性则需要考虑这个词在其他文章中出... 阅读全文
摘要:
1、背景2、理论2.1、Jensen不等式优化理论中,假设 \(f\) 是定义域为实数的函数,如果对于所有的实数 \(x\) ,且二阶导数\(f''(x)\geq 0\) ,则 \(f\) 是凸函数。当 \(x\) 是向量时,如果其Hessian矩阵H是半正定的 (\(H \geq 0\)),那么 \(f\) 是凸函数。且当 \(f''(x)>0\) 或者 \(H>0\) ,那么称 \(f\) 是... 阅读全文