2010年11月8日
摘要: 现在是网络的时代,所有数据都可以在互联网上得到,所以能够自动抓取Web数据的网页爬虫程序(又叫网络机器人,Web Robot)就逐渐流行了起来。开发网页爬虫的过程,需要运用各种Heuristic(摸索体验)的作法:尝试你的想法,修正预期以外的错误(错误通常相当多),一再重复进行,直到网页爬虫可行为止。所以写网页爬虫程序时,是需要一点点耐心的。一般的状况下,网页爬虫程序会先取一个网页,从此网页取出所有“后续的链接”,然后继续取这些链接的网页。网页的组织方式如果是线性的(例如:每个 网页都有“前一笔资料”与“下一笔数据”的超级链接),那么超级链接就不会重复,所以就不需要判断这些链接有无重复。但组织 阅读全文
posted @ 2010-11-08 11:27 dartagnan 阅读(1284) 评论(0) 推荐(0) 编辑
摘要: 爬虫有好处也有坏处:威胁主要是流量方面,包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。对网站有好有坏,不好的地方会增加网站的访问负荷;好的地方也是增加了访问流量,如果搜索引擎收录了你的网站,你的网站的流量会增加,也就是有更多的用户访问量。你想让更多用户知道的话,就允许网络爬虫,如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。 正常情况下,在网站的目录下放一个robots.txt的文件,里面可以声明禁止爬虫来爬,做为一个有品的爬虫程序,就不去爬了,当然没品的不在此列。对于恶意爬虫,可以封掉它的ip 相当一部分爬虫真不是什么好东西:http://www.java 阅读全文
posted @ 2010-11-08 11:08 dartagnan 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 RBSE (Eichmann,1994)是第一个发布的爬虫。它有两个基础程序。第一个是“spider”,抓取队列中的内容到一个关系数据库中,第二个程序是“mite”,是一个修改后的www的ASCII浏览器,负责从网络上下载页面。  WebCrawler(Pinkerton,1994)是第一个公开可用的 用来建立全文索引的一个子程序,他使用库www来下 阅读全文
posted @ 2010-11-08 10:38 dartagnan 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 内容实在太多,记录下URL先,有空时再慢慢研究:wget: 中文详细说明(参数什么的很多很全):http://forum.ubuntu.org.cn/viewtopic.php?f=73&t=213029 这个也不错: http://os.51cto.com/art/201002/183100.htm 比如,下载整个网站以便底线阅读:http://forum.ubuntu.org.cn/viewtopic.php?f=73&t=150608&start=0 使用wget为Ubuntu更新加速:http://forum.ubuntu.org.cn/viewtopic.ph 阅读全文
posted @ 2010-11-08 10:15 dartagnan 阅读(440) 评论(0) 推荐(0) 编辑
  2010年11月7日
摘要: Ubuntu对应GNOME桌面:Windows --------- UbuntuInternet Explorer(及其衍生版) --------- Firefox(及其衍生版), Opera, Epiphany, Midori, W3M, Microsoft Office --------- OpenOffice.org, 永中office(EIOoffice),Google Docs, GOffice(中文不推荐)QQ--------- Pidgin,EVA, LinuxQQ, LumaQQWinamp -------- Xmms, AudaciousPhotoshop --------- 阅读全文
posted @ 2010-11-07 21:04 dartagnan 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 很多Linuxer说Linux的软件太少了,其实不然,除了一些很有专业性的软件外,常用的软件都可以找到windows下相应的替代软件,关键是你是否在寻找,是否能转换自己的观念,以下是我自己经常会用到的软件、以及推荐给Linuxer的软件,顺便自己留着做备忘使用。Free Software open source!虚拟机☆VirtualBox:超酷,高效能,我现在就用他。VMware:传说中的虚拟机老大哦!Xen:据说效能不错…KVM:Linus Torvarlds他老人家喜爱的,你要是也用这款,那你就和Linux鼻祖站在同一山峰上了哈~[icon_titter]Office办公系列●永中Off 阅读全文
posted @ 2010-11-07 21:03 dartagnan 阅读(417) 评论(0) 推荐(0) 编辑
  2010年11月4日
摘要: 从G1上市到现在,市面上已经出现了至少30款Android手机。为什么至今依然有一些用户在抱怨Android不好用,在相关的开发中,什么才是真正值得关注的,开发的核心是什么?为什么移动应用需要格外关注用户体验?本文将对这些问题尽可能的作出解答。 Android一词的本义指“机器人”,同时也是Google于2007年11月5日宣布的基于Linux的开源手机操作系统的名称,该平台由操作系统、中间件、用户界面和应用程序组成,是首个真正为移动终端打造的开放并且完整的移动平台。2008年9月22日,美国运营商T-Mobile USA在纽约正式发布第一款Google手机,即T-Mobile G1,从那个. 阅读全文
posted @ 2010-11-04 13:59 dartagnan 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 用户体验是凌驾于技术之上的,可以说,优秀的用户体验将可以起到事半功倍的效果,在一堆同类的软件中,下载量最大的,一定是让用户用着感觉最舒服的,哪怕它 的功能并不比其他的产品出色,甚至略差一些。我见过很多开发人员,他们视技术为己任,一心只钻研技术,认为技术出色的软件,会受到用户的好评,甚至在一个 手机游戏中,加入各种华丽炫目的3D效果。这些固然都不错,但是真正的用户却不会喜爱它们。在移动应用中,简洁明快才是用户希望看到的。试想一下,当用户在手机上玩一个RPG游戏,并被华丽的3D效果充斥了整个界面,那么他将完全无法着手进行下一个动作。诚然,华丽的画面是很容易吸引人,但是在这种华丽的背后,却会直接把. 阅读全文
posted @ 2010-11-04 13:58 dartagnan 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 在移动平台上,到目前为止,用户依然没有固定的操作习惯,而软件的开发人员要做的事情,就是把用户往一个简单、明快的操作体验上引导,使他们更快的学会使用软件,并且让他们习惯、擅长某一种或几种操作。从某种意义上来说,苹果的设计人员手册已经很好的解决了问题,iPad已经做到了中老年人也可以轻松上手,甚至连猫都会玩。但是至少目前为止,还没有见到适用于Android的设计手册,开发人员或是软件厂商也都各按自己的理解去进行软件的设计,用户也被迫在使用不同的软件时,适应不同的风格。 在未来为期不短的一段时间内,Android上应用程序的用户体验将成为一个主要的研究点,特别是游戏类应用。由于Android上的某. 阅读全文
posted @ 2010-11-04 13:56 dartagnan 阅读(200) 评论(0) 推荐(0) 编辑
  2010年10月30日
摘要: 一直坚信:他山之石,可以攻玉;对于初次安装双系统的朋友,可以多看几个帖子,过后再安装双系统,心里会更有底些;只要了解一些基本常识,上双系统,不再是一个设想;因为我是从硬盘安装的,所以其它的什么LIVECD,WUBI就不在讨论范围之内;先来个概览吧:http://forum.ubuntu.org.cn/viewtopic.php?t=95218很多值得学习的成功案例(有些步骤其实可以直接省了,不信?多看几个贴子就知道了)http://www.xtzj.com/viewthread.php?tid=428161&extra=page%3D&page=1 (很详细,但里面的图挂掉了, 阅读全文
posted @ 2010-10-30 10:33 dartagnan 阅读(334) 评论(0) 推荐(0) 编辑