上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 33 下一页
摘要:昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。 Read More
posted @ 2008-05-11 23:34 蛙蛙王子 Views(8066) Comments(15) Diggs(1) Edit
摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。 Read More
posted @ 2008-05-10 20:43 蛙蛙王子 Views(23682) Comments(51) Diggs(6) Edit
摘要:辛辛苦苦写个共享软件,又怕被人破解,所以就会想到用注册码的方式来激活软件。本蛙给大家一个简单的思路来实现软件注册码算法,当然.net做的东西很容易被人破解,反编译出来把验证注册码的代码一去就算破解了,不过咱不讨论这个先。 Read More
posted @ 2008-05-03 21:55 蛙蛙王子 Views(4780) Comments(34) Diggs(0) Edit
不知道有多少人去研究google,阿里妈妈的广告作弊算法,抓包、分析http头,分析参数,分析cookies,甚至分析鼠标的点击序列,写钩子用程序去点广告,或者去模仿用户行为,我说这太麻烦了。不管你的广告做的多么好,你的广告点击次和广告商的收益低于一定比例,人家肯定不会给你广告费的,人家又不傻。这里用另一种思路去鼓励你的网站访问者去随机的点击广告,毕竟最终是人点的,咱只是鼓励一下,还不算不道德,是吧。 Read More
posted @ 2008-05-01 12:57 蛙蛙王子 Views(2446) Comments(22) Diggs(0) Edit
摘要:Tag系统是Web2.0的一个招牌应用,如果你有一个经营了好几年的论坛,是不是也想生成自己的一套TAG。别听他们说什么语义WEB,文本聚类算法,TIIDF,余弦定理,相似度算法啥的高深算法(我一个也没整明白),跟我来,简单的计算词频来提取tag的效果就很好。 Read More
posted @ 2008-04-29 23:34 蛙蛙王子 Views(6935) Comments(30) Diggs(2) Edit
写代码也得会用一些常用的排查问题工具,像windbg,Wireshark,EnCase,LogParser,Sysinternals等,今天和大家分享和一个LogParser和Wireshark组合使用的例子。 Read More
posted @ 2008-04-29 22:20 蛙蛙王子 Views(7460) Comments(13) Diggs(0) Edit
有时候我们调用一个第三方的会阻塞的方法,我们要想法做一个调用超时值,一般来说就是另起一个线程加join的办法,这里有另外一种思路,但也不是完全的解决办法,希望大家多多讨论。 Read More
posted @ 2008-04-22 23:12 蛙蛙王子 Views(2608) Comments(17) Diggs(1) Edit
如何让多进程多线程访问数据库,而不会选择相同的数据,这在设计分布式程序的时候经常用到,多台机器的多个进程,每个进程都有多个线程,每个线程要从数据库里取数据来处理,要实现不能漏取数据,也不能重复取数据,这里给出答案 Read More
posted @ 2008-04-19 23:36 蛙蛙王子 Views(9663) Comments(48) Diggs(1) Edit
网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。 Read More
posted @ 2008-04-19 19:41 蛙蛙王子 Views(10469) Comments(18) Diggs(3) Edit
原文:http://blog.zxbc.cn/8543/viewspace-1939 1. 导言 在最近几年,个人和公司创建和存储的数字数据的数量急剧膨胀。过去,企业使用计算机系统和数据库以结构化格式例如关系表或固定的格式文档来存储 它们的大部分商业数据,软件应用程序使用这些结构化数据存储来执行商业操作。然而在现今,公司的很大一部分数据是存储在使用功能强大的工具例如 Microsoft® ... Read More
posted @ 2008-04-19 09:26 蛙蛙王子 Views(1094) Comments(2) Diggs(0) Edit
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 33 下一页