君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
  1057 随笔 :: 381 文章 :: 141 评论 :: 169万 阅读

05 2015 档案

摘要:对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采取分布式架构,才有可能在较短时间内完成一轮抓取工作。 分布式爬虫可以分为若千个分布式层级。不同的应用可能由其中部分层级构成,下图是一个大型分布式爬虫的3个层级:分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫... 阅读全文
posted @ 2015-05-16 00:02 刺猬的温驯 阅读(868) 评论(0) 推荐(0) 编辑

摘要:2014年6月7日发生了一件事情:聊天程序“尤金·古斯特曼”(Eugene Goostman)在英国皇家学会举行的2014图灵测试大会上冒充一个13岁乌克兰男孩而骗过了33%的评委,从而按照图灵当初的定义,“通过”了图灵测试。尤金的在线对话页面,不幸的是因为这一事件给服务器带来的压力,该网站已经几天... 阅读全文
posted @ 2015-05-14 01:01 刺猬的温驯 阅读(1986) 评论(0) 推荐(0) 编辑

摘要:摘 要:人工智能自创立以来以其快速的发展不断逼近人类智能的领地,但在人工智能的背后,有很多难以解决的工程学及理论问题,从而引起很多争议,其中最多的就是机器能否思维、人工智能能否真正实现的问题。图灵测试及中文屋论证两个思想实验分别从不同理路论证了人工智能实现的可能性,从而揭示出智能的根本特征:意向性。... 阅读全文
posted @ 2015-05-14 00:44 刺猬的温驯 阅读(1550) 评论(0) 推荐(0) 编辑

摘要:前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向... 阅读全文
posted @ 2015-05-10 19:07 刺猬的温驯 阅读(298) 评论(0) 推荐(0) 编辑

摘要:(笔记图片截图自课程Image and video processing: From Mars to Hollywood with a stop at the hospital的教学视频,使用时请注意版权要求。)JPEG用哈夫曼编码(Huffman Encoder)作为其符号编码。哈弗曼编码是压缩算... 阅读全文
posted @ 2015-05-02 03:24 刺猬的温驯 阅读(13100) 评论(0) 推荐(1) 编辑

摘要:前两天发布那个rsync算法后,想看看数据压缩的算法,知道一个经典的压缩算法Huffman算法。相信大家应该听说过David Huffman和他的压缩算法——Huffman Code,一种通过字符出现频率,Priority Queue,和二叉树来进行的一种压缩算法,这种二叉树又叫Huffman二叉树... 阅读全文
posted @ 2015-05-02 03:05 刺猬的温驯 阅读(505) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示