摘要: 1.为处理方便,直接在$nutch目录下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。2.配置crawl-urlfilter.txt打开$nutch/conf/crawl-urlfilter.txt,找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则,改写为如下形式+^http://([a-z0-9] 阅读全文
posted @ 2013-09-18 14:18 风与叶子 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 用cygwin运行nutch 1.2爬取提示IOException:[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent 阅读全文
posted @ 2013-09-18 14:15 风与叶子 阅读(1643) 评论(0) 推荐(0) 编辑
摘要: Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch可以分为2个部分:抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。 搜索程序则对反向索引搜索回答用户的请求。Nutch的爬虫有两种方式爬行企业内部网(Intranet crawling)。针对少数网站进行,用crawl命令。爬行整个互联网。使用低层的inject,generate,fetch和updatedb命令,具有更强的可控制性。昨晚折腾了一晚上终于是大功告成了!这里要说的是基于Intranet(企业内部网)的环境配... 阅读全文
posted @ 2013-09-18 14:14 风与叶子 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件,通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以,用什么没关系,只要能够在合理的情况下采用合理的解决方案。那怎么搭建一个好的系统架构呢?这个话题太大,这里主要说一下数据分流的方式。比如我们的数据库服务器只能存储200个数据,突然要搞一个活动预估达到600个数据 阅读全文
posted @ 2013-09-18 14:13 风与叶子 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。基本的例子我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为 网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。······ 阅读全文
posted @ 2013-09-18 14:11 风与叶子 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境. 阅读全文
posted @ 2013-09-18 14:10 风与叶子 阅读(603) 评论(1) 推荐(0) 编辑
摘要: Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0 配置:http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.htmlNutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意 阅读全文
posted @ 2013-09-18 14:09 风与叶子 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 国家气象局提供的天气预报接口接口地址:http://www.weather.com.cn/data/sk/101010100.htmlhttp://www.weather.com.cn/data/cityinfo/101010100.htmlhttp://m.weather.com.cn/data/101010100.html对于第三个接口,返回信息比较全面,也是以json格式提供,格式如下{"weatherinfo": {//基本信息;"city":"北京","city_en":"beijing&quo 阅读全文
posted @ 2013-09-18 14:05 风与叶子 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 提示信息关闭 提示内容 阅读全文
posted @ 2013-09-05 17:05 风与叶子 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 点击下图,可以看具体内容!介绍 正则表达式,大家在开发中应该是经常用到,现在很多开发语言都有正则表达式的应用,比如javascript,java,.net,php等等,我今天就把我对正则表达式的理解跟大家唠唠,不当之处,请多多指教!需要知道的术语——下面的术语你知道多少?Δ定界符Δ字符域Δ修饰符Δ限定符Δ脱字符Δ通配符(正向预查,反向预查)Δ反向引用Δ惰性匹配Δ注释Δ零字符宽定位 我们什么时候使用正则表达式呢?不是所有的字符操作都用正则就好了,php在某些方面用正则反而影响效率。当我们遇到复杂文本数据的解析时候,用正则是比较好的选择。优点 正则表达式在处理复杂字符操作的时候,可以提高工作效率, 阅读全文
posted @ 2013-09-04 16:00 风与叶子 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 近日对MongoDB比较感兴趣,在linux下部署了一套LAMP,想把MongoDB加进来,下面进入正题:1.确保安装好LAMP环境,假设php安装目录:/usr/local/php52.下载https://github.com/mongodb/mongo-php-driver/downloads,我下载的是mongodb-mongo-php-driver-1.3.0beta2-112-g0878db0.tar.gz 传到服务器上3.到服务器上,解压mongodb-mongo-php-driver-1.3.0beta2-112-g0878db0.tar.gz,进入目录,执行命令:/usr/lo 阅读全文
posted @ 2013-09-03 14:47 风与叶子 阅读(761) 评论(0) 推荐(0) 编辑
摘要: (“mongodb://用户名:密码 @地址:端口/默认指定数据库”,参数)$conn= newMongo();//可以简写为//$conn=new Mongo(); #连接本地主机,默认端口.//$conn=new Mongo(“172.21.15.69″); #连接远程主机//$conn=new Mongo(“xiaocai.loc:10086″); #连接指定端口远程主机//$conn=new Mongo(“xiaocai.loc”,array(“replicaSet”=>true)); #负载均衡//$conn=new Mongo(“xiaocai.loc”,array(“per 阅读全文
posted @ 2013-09-03 14:31 风与叶子 阅读(456) 评论(0) 推荐(0) 编辑
摘要: ajax传递参数时,一般就是js向程序页面传递和程序向js文件传递两种情况,当出现中文汉字时,会出现乱码。因为存在上述两种情况,所以解决起来也要分开对待。这里是php系统中遇到的问题,所以以php为实例来解决ajax传递中文的问题。1.Ajax向程序页面里传递中文汉字时出现乱码的情况:Ajax中先用encodeURIComponent对要提交的中文进行编码PHP中用:PHP代码$s=iconv('UTF-8', 'gb2312//IGNORE' , $string);来转换编码2.程序页面向ajax传递中文的情况:在php顶部加入一句:XML/HTML代码hea 阅读全文
posted @ 2013-09-03 13:36 风与叶子 阅读(473) 评论(0) 推荐(0) 编辑
摘要: nl2br功能:化换行符为";$result = rtrim($str);echo strlen($result);/**结果1411*/strip_tags功能:清除字符串中html和php的标记Hello world";$result = strip_tags($str);echo $result;/**结果Hello world*/strtolowerstrtoupper功能:转换成大小写";$result = strtoupper($str);echo $result;/**结果hello world!HELLO WORLD!*/trim功能:去除首尾空格 阅读全文
posted @ 2013-09-02 13:38 风与叶子 阅读(248) 评论(0) 推荐(0) 编辑
摘要: jQuery选择器选择器 实例 选取* $("*") 所有元素#id $("#lastname") id="lastname"的元素.class $(".intro") 所有class="intro"的元素element $("p") 所有元素.class.class $(".intro.demo") 所有class="intro"且class="demo"的元素:first $("p:first" 阅读全文
posted @ 2013-09-02 13:33 风与叶子 阅读(905) 评论(0) 推荐(0) 编辑
摘要: 有时候一个网页可以有多个皮肤进行选择,也就是不同的背景,或是一整套新的css,能使整个页面变成另一种风格。这个功能可以用jQuery来实现。外加cookie插件。有了cookie,就可以长时间的保存选择后的背景样式,而不至于每次刷新界面都会转入默认的画面。效果如下:代码之div+css研读: 灰色 紫色 红色 天蓝色 橙色 淡绿色 时事新闻 娱乐新闻 ... 阅读全文
posted @ 2013-09-02 13:31 风与叶子 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 配置连接:Ok,连接成功齐活儿~下面来试一下,插入一个新的名为Message的Collection :然后插入个Document 阅读全文
posted @ 2013-09-02 13:29 风与叶子 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 用linux自己来访问web是可以的比如192.168.2.20就可以访问本机的相关页面用192.168.2.20/phpmyadmin就可以访问数据库相关内容可是,当别的局域网的电脑想访问时,却访问不了。什么原因呢?通过ping命令,发现是ping的通的,可是就是访问不了。后来发现,是服务器的防火墙的问题,解决方法,关掉防火墙,service iptables status 查看iptables状态service iptables restart iptables服务重启service iptables stop iptables服务禁用禁用了之后,发现可以访问了,不论是页面还是数据库,都可 阅读全文
posted @ 2013-09-02 13:28 风与叶子 阅读(966) 评论(0) 推荐(0) 编辑
摘要: PHPDataBase;$collection = $db->PHPCollection;/*----------------------------- * 删除 *-----------------------------$collection->remove(array("name" => "xixi111"));*//*------------------------------ * 插入 *------------------------------for($i = 0;$i "xixi".$i," 阅读全文
posted @ 2013-09-02 13:22 风与叶子 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 学习PHP脚本编程语言之前,必须先搭建并熟悉开发环境,开发环境有很多种,例如LAMP、WAMP、MAMP等。这里我介绍一下LAMP环境的搭建,即Linux、Apache、MySQL、PHP环境。一、首先安装操作系统操作系统:centos6.3IP地址:192.168.146.129网关:DNS:操作系统安装步骤,此处不在给出截图。备注:服务器系统采用最小化安装,安装一下GCC编译工具和一个桌面即可。如下图所示:二、LAMP安装前的准备1、获取软件包httpd-2.4.2.tar.gz http://httpd.apache.org/download.cgimysql-5.0.18.tar.gz 阅读全文
posted @ 2013-08-25 14:06 风与叶子 阅读(2868) 评论(4) 推荐(0) 编辑