上一页 1 ··· 5 6 7 8 9 10 11 12 下一页

2010年2月1日

摘要: SpamRank的基本思想与TrustRank基本一致。它的假设是:对于非作弊页面来说,指向其的链接页面一般来说是非均匀分布的;而对于作弊页面,支持页面的pagerank值一般都是比较小的。具体做法是:1、首先计算每个页面的支持权重。2、判断页面是否满足Power low分布(这个分部是互联网一个比较准确的估计),对于不满足该分布的页面判断为spam页面,进行惩罚,降低其pagerank值。 阅读全文
posted @ 2010-02-01 07:08 小橋流水 阅读(250) 评论(0) 推荐(0) 编辑

2010年1月31日

摘要: BadRank是通过spam种子来发现更多的spam页面的一种方法。该方法基于的假设是:指向spam页面的页面通常也是spam页面(TrustRank假设的逆否)。将WEB的所有链接反向,得到反向的WEB图。人工选择一些spam页面种子,在pagerank中的初始向量d中,这些种子对应的分量置1,其余为0。然后对d做一下规一化处理。最后在反向图上,利用该d跑偏向性的pagerank算法,得到的pa... 阅读全文
posted @ 2010-01-31 07:40 小橋流水 阅读(271) 评论(0) 推荐(0) 编辑

2010年1月29日

摘要: TrustRank是combatwebspam中最经典的方法之一,其他文章都与其进行比较。该方法基于的假设是:好的叶面很少指向spam页面。具体做法是选择一些好的页面(goodseeds),在初始向量中d,这些好的种子页面置1,其余置0。最后再对d进行一下规一化处理。然后利用该d计算偏向性的PageRank值,即为TrustRank值。该值越高说明该页面越值得信赖,是spam的概率越低。 阅读全文
posted @ 2010-01-29 08:37 小橋流水 阅读(242) 评论(0) 推荐(0) 编辑

2010年1月17日

摘要: Stack class EmptyStackException(Exception): pass class Element: def __init__(self, value, next): self.value = value self.next = next class Stack: def __init__(self): ... 阅读全文
posted @ 2010-01-17 10:40 小橋流水 阅读(192) 评论(0) 推荐(0) 编辑

2009年12月29日

摘要: 写了一个SetMutableGraph,主要是在ArrayListMutableGraph的基础上用IntAVLTreeSet自动排序,效率应该不错。代码如下: 欢迎搞web数据挖掘的同学一起探讨研究: package edu.dut.wisdom; /* * Copyright (C) 2006-2007 Sebastiano Vigna * * This program is free... 阅读全文
posted @ 2009-12-29 14:22 小橋流水 阅读(190) 评论(0) 推荐(0) 编辑

2009年12月26日

摘要: WebGraph是一个非常不错的web图工具,网站地址http://webgraph.dsi.unimi.it/,提供多种图的格式,更可贵的是提供一种压缩图格式。 ImmutableGraph用来遍历,ASCIIGraph用来读取ASCIIGraph格式,ArrayListMutableGraph用来构建自己的web图,但是实现的不是很快捷,我自己实现了一个稍微改进的版本: public cl... 阅读全文
posted @ 2009-12-26 11:35 小橋流水 阅读(791) 评论(0) 推荐(0) 编辑

2009年12月13日

摘要: 其实,我们用visio画的都是矢量图,只是我们通常转换成位图(jpg等格式)后再使用,这样其实就失去了矢量图的价值了。这里讲一种在latex中插入viso生成的矢量图的方法。 首先,在我们的电脑中安装adobe acrobat(当然用盗版的),然后打开visio将visio画的图打印成pdf ,然后用acrobat打开该pdf,菜单-》文档-》裁剪,选中删除白边距,确定即可,然后将该pdf加... 阅读全文
posted @ 2009-12-13 13:44 小橋流水 阅读(1311) 评论(0) 推荐(0) 编辑

2009年12月4日

摘要: 最近,想做一个刷票的程序,有验证码,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。 后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的ocr组件,但是发现根本就识别不... 阅读全文
posted @ 2009-12-04 05:15 小橋流水 阅读(772) 评论(1) 推荐(0) 编辑

2009年11月15日

摘要: 今天做实验的时候,由于数据太大,超过了2G,最终出现了outofmemory异常,没办法,后来想可能使用64位系统就能运行成功了。 但是我磁盘空间比较紧张,正好前段时间听说能在vhd里装系统,今天正好体验一把。 首先用计算机管理中的磁盘管理创建一个vhd磁盘,最大大小设置为20G以上,动态或固定的都行,如果是动态的话,要确保有足够的空间,否则在后面的过程将出现蓝屏错误。 将创建出来的vhd磁... 阅读全文
posted @ 2009-11-15 17:02 小橋流水 阅读(244) 评论(0) 推荐(0) 编辑

2009年11月12日

摘要: Spam Rank TrustRank Topical TrustRank Anti-Trust Rank HostRank BadRank 阅读全文
posted @ 2009-11-12 13:40 小橋流水 阅读(194) 评论(0) 推荐(0) 编辑
摘要: deb http://Ubuntu.uestc.edu.cn/ubuntu/ karmic main restricted universe multiversedeb http://Ubuntu.uestc.edu.cn/ubuntu/ karmic-backports main restricted universe multiversedeb http://Ubuntu.uestc.edu.... 阅读全文
posted @ 2009-11-12 10:57 小橋流水 阅读(229) 评论(0) 推荐(0) 编辑

2009年10月19日

摘要: 刚刚写了图的广度优先算法,现在完成深度优先算法DFS,color等的意义和上一篇一致,但f用于记录完成时间。 DFS color = {} pai = {} d = {} time = 0 f = {} # 记录完成时间 def DFS(G): for u in G.keys(): color[u] = 'WHITE' pai[u] = 'NIL' ... 阅读全文
posted @ 2009-10-19 13:23 小橋流水 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 为了记录搜索的轨迹,广度优先搜索将每个顶点都找色为白色、灰色和黑色。算法开始时,所有的顶点都是白色的。伴随着搜索的进行,各顶点会逐渐变成灰色,然后成为黑色。与黑色顶点相邻的所有定点都是已经被发现的。灰色顶点可能会有一些白色的相邻顶点,他们代表了已发现与未发现顶点之间的边界。 对于每一个顶点u,其色彩存储于变量color[u]中,u的父母存于变量pai[u]中。 具体代码如下所示(python实现)... 阅读全文
posted @ 2009-10-19 12:36 小橋流水 阅读(330) 评论(0) 推荐(0) 编辑

2009年10月11日

摘要: Latex、Lyx命令备忘 阅读全文
posted @ 2009-10-11 19:20 小橋流水 阅读(775) 评论(1) 推荐(1) 编辑
摘要: 最近刚学Python,就用Python写了一个算法,由于不熟练的原因,实现得并不好,但结果是对的,代码如下: # -*- coding: UTF8 -*- import sys import copy def init_pass(T): C = {} for t in T: for i in t: if i in C.keys(): ... 阅读全文
posted @ 2009-10-11 16:59 小橋流水 阅读(810) 评论(0) 推荐(0) 编辑

2009年10月9日

摘要: SQL SERVER垂直分片 阅读全文
posted @ 2009-10-09 19:55 小橋流水 阅读(772) 评论(0) 推荐(0) 编辑

2009年10月7日

摘要: 找出400-800间素数的三种方法,第二次Java上机作业一道题。 阅读全文
posted @ 2009-10-07 16:25 小橋流水 阅读(481) 评论(0) 推荐(0) 编辑

2009年10月4日

摘要: SQL Server 2005 分布式水平分片配置 阅读全文
posted @ 2009-10-04 13:14 小橋流水 阅读(2947) 评论(7) 推荐(1) 编辑

2009年9月24日

摘要: 找出200-400之间素数的快速算法,python实现 阅读全文
posted @ 2009-09-24 08:29 小橋流水 阅读(460) 评论(4) 推荐(0) 编辑
摘要: def isPrime(number): divisor = 3 testLimit = number if number % 2 == 0: return False while testLimit > divisor: if number % divisor == 0: return False ... 阅读全文
posted @ 2009-09-24 08:29 小橋流水 阅读(493) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页

导航