摘要:
1 #include<iostream> 2 using namespace std; 3 4 class base 5 { 6 public: 7 base(){} 8 virtual void fun(){cout<<"base.fun";} 9 };10 11 class derive:public base12 {13 public:14 derive(){}15 void fun(){cout<<"derive.fun";}16 };17 18 int main()19 {20 base *b... 阅读全文
摘要:
Question:(1) char * const *(*p)()想要表达的意思是? (2) const char* const *p想要表达的意思又是?想要回答上述两个问题,就要先来看一下C/C++语言声明的优先级规则吧A 声明从它的名字开始读取,然后按照优先级顺序依次读取。B 优先级从高到低依次是: B.1 声明中被括号括起来的那部分 B.2 后缀操作符: 括号()表示这是一个函数,而放括号[]表示这是一个数组。 B.3 前缀操作符: 星号*表示“指向...的指针”。C 如果const和/或volatie关键字的后面紧跟类型说明符(如int c... 阅读全文
摘要:
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1.欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自 阅读全文
摘要:
Slope OneFrom Wikipedia, the free encyclopediaJump to: navigation, searchSlope One is a family of algorithms used for collaborative filtering, introduced in a 2005 paper by Daniel Lemire and Anna Maclachlan[1]. Arguably, it is the simplest form of non-trivial item-based collaborative filtering based 阅读全文
摘要:
C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员 函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技 术,RTTI技术,虚函数技术,要么是试图做到在编译时决议,要么试图做到运行时决议。关于虚函数的使用方法,我在这里不做过多的阐述。大家可以看看相关的C++的书籍。在这篇文章中,我只想从虚函数的实现机制上面为大家 一个清晰的剖析。当然,相同的文章在网上也出现过一些了,但我总感觉这些文章不是很容易阅读,大段大段的代码,没有图片 阅读全文
摘要:
上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。 举例来说,如果只有 2 个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。 以 IMDB 为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为 1 分,最高为 10 分。 系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前 250 名的电影。 这里就有一个问题:热门电影与冷门电影的平均得分, 阅读全文
摘要:
迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去 24 小时最热门的文章"。 但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。 这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名。 一种常见的错误算法是:得分 = 赞成票 - 反对票 假定有两个项目,项目A是 60 张赞成票,40张反对票,项目B是 550 张赞成票,450张反对票。请问,谁应该排在前面?按照上面的公式,B会排在前面,因为它的得分(550 - 450 = 100)高于A 阅读全文
摘要:
上一篇文章,我介绍了 Reddit的排名算法。 它的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。 但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 Stack Overflow,就是这样一个网站。 你在上面提出各种关于编程的问题,等待别人回答。访问者可以对你的问题进行投票(赞成票或反对票),表示这个问题是不是有价值。 一旦有人回答了你的问题,其他人也可以对这个回答投票(赞成票或反对票)。根据投票结果,系统自动找出最佳回答。 排名算法的作用是,找出某段时间内的热点问题,即哪些问题最被关注、得到了最多的讨论。... 阅读全文
摘要:
这个系列的前三篇,介绍了 Hacker News,Reddit 和 Stack Overflow的排名算法。 今天,讨论一个更一般的数学模型。 这个系列的每篇文章,都是可以分开读的。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企图解决的都是同一个问题:根据用户的投票,决定最近一段时间内的"热文排名"。 你可能会觉得,这是一个全新的课题,伴随着互联网而产生,需要全新的方法来解决。但是,实际上不是。我们可以把"热文排名"想象成一个"自然冷却"的过程:(1)任一时刻,网站中所有的文章,都有一个"当前温 阅读全文
摘要:
互联网的出现,意味着"信息大爆炸"。用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。下面,我将整理和分析一些基于用户投票的排名算法,打算分成六个部分连载,今天是第一篇。一、Delicious最直觉、最简单的算法,莫过于按照单位时间内用户的投票数进行排名。得票最多的项目,自然就排在第一位。旧版的D 阅读全文