长颈鹿Giraffe

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年2月25日

摘要: 最近装了Ubuntu 10.10,因为之前有Windows 7等系统,所以Ubuntu装上后出现启动菜单,默认Ubuntu启动。网上找了好多修改启动选项的方法,众说纷纭,现在总结如下: 一、能上网情况下的最好方法:安装startupmanager——图形启动项管理器 打开终端输入:sudo apt-get install startupmanager 安装启动管理器 系统——系统管理——启动管理器,选中默认开机操作系统即可。 二、最方便的方法:调整Windows系统的默认启动顺序(不需要修改grub.cfg) /etc/grub.d 目录中的脚本文件的文件名都是以数字开头,这确定了... 阅读全文
posted @ 2012-02-25 23:21 长颈鹿Giraffe 阅读(4534) 评论(0) 推荐(2) 编辑

2012年2月15日

摘要: 安装过程要在ubuntu中正确的安装及配置 OpenCV 2.3.1, 请确保完成一下步骤.执行以下指令,删除 ffmpeg and x264 的任何旧版本,如果以前没有安装也没有问题。sudo apt-get remove ffmpeg x264 libx264-dev下载安装x264和ffmpeg所有的依赖:sudo apt-get updatesudo apt-get install build-essential checkinstall git cmake libfaac-dev libjack-jackd2-dev libmp3lame-dev libopencore-amrnb- 阅读全文
posted @ 2012-02-15 22:11 长颈鹿Giraffe 阅读(1858) 评论(0) 推荐(2) 编辑

2011年12月16日

摘要: 聚类是信息检索、数据挖掘中的一类重要技术,是分析数据并从中发现有用信息的一种有效手段。它将数据对象分组成为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大。作为统计学的一个分支和一种无监督的学习方法,聚类从数学分析的角度提供了一种准确、细致的分析工具。而k-means算法是最常用和最典型的聚类算法之一,k-means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。k-means的优点在于能快速的收敛及易于实现,但是该算法在一些数.. 阅读全文
posted @ 2011-12-16 00:20 长颈鹿Giraffe 阅读(6554) 评论(1) 推荐(4) 编辑

2011年12月14日

摘要: 摘要:NVIDIA公司在1999年发布GeForce256时首先提出GPU(图形处理器)的概念,随后大量复杂的应用需求促使整个产业蓬勃发展至今。GPU在这十多年的演变过程中,我们看到GPU从最初帮助CPU分担几何吞吐量,到Shader(着色器)单元初具规模,然后出现Shader单元可编程性,到今天GPU通用计算领域蓬勃发展这一清晰轨迹。本报告首先根据搜集到的资料记录GPU通用计算的发展过程中硬件和软件的演变,然后介绍并简要比较现在比较流行的GPU通用计算编程模型,最后对GPU通用计算在不同领域的成功应用进行概述。关键词:GPUGPU通用计算可编程单元编程模型GPGPU应用1、GPU通用计算的背 阅读全文
posted @ 2011-12-14 19:40 长颈鹿Giraffe 阅读(3946) 评论(4) 推荐(2) 编辑

2011年12月9日

摘要: 一、基于二元语法模型分词的思想下面是该程序的主要过程与思路:1、针对语料库进行训练。本程序使用的是北大提供的人民日报1998 年1 月的语料库,包含约110万词。由于采用二元语法模型,所以需要计算语料库中单个词的频率,以及每一个词后面出现另一个词的频率。2、建立二元切分词图。 建立一个有向无环图,图中的结点为任意一个可能的候选词语,图中的边代表相邻两个词语的续接关系。二元切分词图的每一条边的权值表示二元词语转移概率P(Wi|Wi-1)。任何一种切分的方式可以表示为二元切分词图上的一条起始结点到结束结点的路径。路径上所有边的概率之积就是该切分结果对应的二元语法模型概率。而我们要做的就是找出一条概 阅读全文
posted @ 2011-12-09 15:57 长颈鹿Giraffe 阅读(3007) 评论(2) 推荐(0) 编辑

摘要: 参考了一些论文和网上的资料以及清华大学出版社出版的《自己动手写网络爬虫》这本书中的部分章节,设计了主题爬虫的主要体系结构如下图所示: Heritrix是一个由 java 开发的、开源的网络爬虫,我参考网上的一些文章分析了其部分关键功能的代码,然后借鉴其几个比较好的地方实现了一个通用爬虫的主要功能。下面是我实现的爬虫中几个个人认为比较好的地方。1) 可配置性:通过.properties配置文件可以配置该爬虫所使用的线程数、线程等待时间,连接超时时间,可爬取文件类型和下载目录等。2) 爬虫礼仪:解析站点根目录下的robots.txt文件,遵循爬虫禁止协议、以及避免对服务器资源的过度使用等。3) 爬 阅读全文
posted @ 2011-12-09 15:54 长颈鹿Giraffe 阅读(1780) 评论(0) 推荐(0) 编辑

2011年11月19日

摘要: 之前安装Eclipse,JDK,Python什么的就不说了。直接从安装PyDev开始(借用了几张别人的图):打开Eclipse,在Help菜单中,选择Install New Software···,选择Add按钮,Name:PyDev(这个随便起),Location:http://pydev.org/updates(PyDev的更新地址),OK选择PyDev下的PyDev for Eclipse,别的都不要选,否则依赖检查那关过不去。点下一步,下一步安装中间会问你是否信任Aptana、Pydev什么的,信任就可以了最后重启Eclipse配置PyDev插件在Wind 阅读全文
posted @ 2011-11-19 15:47 长颈鹿Giraffe 阅读(2012) 评论(1) 推荐(2) 编辑

2011年11月4日

摘要: 本文转载自http://www.mryang.org/2011/07/imgsearch/目前,Google已经提供了“相似图片搜索”的功能。你可以用一张图片,搜索互联网上所有与它相似的图片。点击搜索框中照相机的图标。你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。类似的”相似图片搜索引擎”还有不少,TinEye甚至可以找出照片的拍摄背景。这种技术的原理是什么?计算机怎么知道两张图片相似呢?根据Neal Krawetz博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。这里的关键技术叫做”感知哈希算法”(Perceptual hash algorit 阅读全文
posted @ 2011-11-04 21:48 长颈鹿Giraffe 阅读(324) 评论(0) 推荐(0) 编辑

2011年10月25日

摘要: 主题爬虫,又称聚焦爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,主题爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。聚焦爬虫的研究核心,集中在以下两点:(一)主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保存到网页库;不相关的,则抛弃不管。(二)主题相关度预测:主题相关度预测是针对待抓URL的。也就是我们在分析当前已下载网页时所分离出来的哪些URLS。我们要通过计算它们的主题预测值来决定接下来是否对该URL所对应的网页进行抓取。针对以上两 阅读全文
posted @ 2011-10-25 22:50 长颈鹿Giraffe 阅读(1592) 评论(0) 推荐(0) 编辑

2011年10月21日

摘要: lz的显卡是GeForce GTX460SE。而本人是一个灰常灰常的新手,结合网上的教程和自已屡试屡败的经验终于把显卡驱动安装成功了我安装总是出现下列错误:ERROR: The Nouveau kernel driver is currently in use by your system. Thisdriver is incompatible with the NVIDIA driver, and must be disabledbefore proceeding. Pleaseconsult the NVIDIA driver READMEand yourLinux distributio 阅读全文
posted @ 2011-10-21 22:48 长颈鹿Giraffe 阅读(2138) 评论(0) 推荐(0) 编辑