摘要:背景 拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。 要解决的问题 1、识别人名:ner 命名实体识别。 2、识别两个人是有关系的; 人名共现来说明两个人之间有关系; 词向量计算词与词之间的相似度来说明两个人之间关系。 3、人物关系挖掘。 两个人名满足某种依存模式,则将两个人名和关系抽取出
阅读全文
随笔分类 - 结构算法
摘要:背景 拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。 要解决的问题 1、识别人名:ner 命名实体识别。 2、识别两个人是有关系的; 人名共现来说明两个人之间有关系; 词向量计算词与词之间的相似度来说明两个人之间关系。 3、人物关系挖掘。 两个人名满足某种依存模式,则将两个人名和关系抽取出
阅读全文
摘要:背景 提升产品体验,节省用户感知度。——想想,如果看到一堆相似性很高的新闻,对于用户的留存会有很大的影响。 技术方案1、信息指纹算法 思路:为每个网页计算出一组信息指纹(Fingerprint)。比较两个网页相同信息指纹数量,从而判断内容的重叠性。 步骤: 1)提取网页正文信息特征(通常是一组词),
阅读全文
摘要:概述 动态规划我们在工作中会经常用到,有时候你会有这个意识,而且我相信你在项目中肯定使用过,只是你不了解这种方式是“动态规划”而已。它最大的特点就是“空间换时间“。 如果你想大致了解下,你可以直接略过细节,直接看“使用动态规划方法求解最优钢条切割问题”这一部分。细节部分,只是使用案例和数学公式教大家
阅读全文
摘要:概述 概念解析: 串行算法:在任一时刻仅有一条指令被执行。 并行算法:能够在多处理器计算机上运行,并且允许多条指令同时执行。 并行计算机:拥有多个处理单元的计算机。并行计算机体系结构模型有多重:如共享存储(每个处理器可都可以直接访问存储器的任何位置),分布式存储(每个处理器的存储器是私有的,处理器之
阅读全文
摘要:问题 <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoibGlzdC1pdGVtIiwic3R5bGVzIjp7ImFsaWduIjoibGVmdCIsImluZGVudCI6MCwidGV4dC1pbmRlbnQiOjAsIm
阅读全文
摘要:问题 <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoibGlzdC1pdGVtIiwic3R5bGVzIjp7ImFsaWduIjoibGVmdCIsImluZGVudCI6MCwidGV4dC1pbmRlbnQiOjAsIm
阅读全文
摘要:问题 <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoibGlzdC1pdGVtIiwic3R5bGVzIjp7ImFsaWduIjoibGVmdCIsImluZGVudCI6MCwidGV4dC1pbmRlbnQiOjAsIm
阅读全文
摘要: 我一直在想一个问题,我怎么能把一件事情说的明白呢?尤其是程序方面的知识点。思路清楚是非常重要的(只有思路清楚,表达清楚了,才能一目了然),这个清楚的思路怎么表现出来?我努力去做这件事情。这篇主要围绕堆栈来展开话题。
阅读全文
摘要:序很多博友要求我修改标题,我也感觉这几篇文章确实跟大型网站和架构关系不大,所以决定修改标题。上文聊到伸展树,这篇讲ISAM树。ISAM树是1964年IBM提出的。索引顺序存取方法(ISAM, Indexed Sequential Access Method)最初是IBM公司发展起来的一个文件系统,可以连续地(按照他们进入的顺序)或者任意地(根据索引)记录任何访问。如果对ISAM代码感兴趣,可以参考mysql-3.23.35源码,里面的代码很有参考价值。——代码部分我就不讲解了,以后如果有时间就专门针对isam做个系列文章。ISAM结构♦ 相当于多叉平衡树♦ 树矮(能减少硬盘I/O次数)♦ 节点
阅读全文
摘要:序承接上文,我们继续聊这个话题。平衡二叉树:AVL Tree(1962)上文我们只实现了单旋,但是实际中为了达到平衡很多是要做双旋操作的。先来看一张双旋后的一张图,明显右边的图查询的时候会更便捷。 整个过程 下面我们就进行代码实践。#include <stdio.h>#include <stdlib.h>#define max(a,b) (((a) > (b)) ? (a) : (b)) typedef struct AvlNode{ int data; struct AvlNode *left_child, *...
阅读全文
摘要:序 承接上文浅谈大型网站的算法和架构(一),我们继续聊我们的话题。 上文中很多人提到不扣题,这只是一部分资料,所以会感觉到不扣题,主要是题目太大了,而且内容太多了,我只能一部分一部分的写出来,望大家见谅。 我们老大也只讲到上,还有中和下呢! 上偏重于基础部分——就是算法部分。里面包括现今架构中的产品使用的算法,让我们了解产品本质的一些东西。需要到伸展树这一篇开始才能真正讲到相关架构产品。 中和下他还没开始呢!估计也够我研究一段时间了。大家就权当了解下算法吧!二叉树 上文中提到的两个结构(数组和链表)各有弊端。 1》数组在更新的时候比较消耗资源,需要挨个挪动后面的元素。 2》而...
阅读全文
摘要:序 上个月老大给我们讲解了"浅谈大型网站的算法和架构",获益匪浅。由于篇幅太多(光数据结构大概就有20多种),我也没有办法一下全部吸收,故我边理解,边分章节与大家分享。 这周我查阅资料,来理解各个数据结构和算法。 推荐几本个人感觉不错的书籍:——我把电子书放到http://download.csdn.net/user/rtxbc这里了,需要下载,到这里进行下载。 《指针的艺术.蔡明志》——我只看了C语言这一篇。C语言个人感觉比较难的也就是指针了。 《数据结构 使用C语言[朱战立]》——严蔚敏的也不错,可就是里面的很多语法都是抽象语法,无法运行。我个人如果没有办法在终端运行,
阅读全文
|