09 2013 档案

摘要:很多人一直都有个想法,要是可以随心所欲的操作iframe就好了。这样静态页面也就有了相当于后台动态页面php,jsp,asp中include,require实现统一多页面布局的能力。通过Javascript的帮忙我们可以像后台一样动态加载操作iframe对象属性src指向的html页面的内容。这样的操作需要提供两个页面,一个页面是iframe所在页面(页面名称:iPage.html),另一个页面是iframe属性src指向页面(页面名称:srcPage.html)。iPage.html,里dom:srcPage.html,里dom:妹妹的一天早上吃早点,中午约会吃饭,下午K歌,晚上和哥哥瞎折腾 阅读全文
posted @ 2013-09-25 14:00 风与叶子 阅读(656) 评论(0) 推荐(0) 编辑
摘要:导航:mkdir(make directory)rmdir(remove directory)mv查看文档的指令有哪些?以及各自的特点?如何新建文档?umask的使用?如何设置文档的隐藏属性?如何查看隐藏属性?如何修改文档权限?如何搜索文档?小结:mkdir(make directory)功能:创建目录案例:mkdir test点评:将创建一个目录名为test的目录rmdir(remove directory)功能:删除目录案例:rmdir test点评:将删除目录testmv功能:移动目录范例一:mv mvtest test点评:将目录mvtest 移动到目录test下面范例二:mv mvt 阅读全文
posted @ 2013-09-18 17:12 风与叶子 阅读(288) 评论(0) 推荐(0) 编辑
摘要:Unix文件的类型1.普通文件2.目录3.符号链接4.面向块的设备文件5.面向字符的设备文件6.管道和命名管道7.套接字点评:不明觉厉打开文件进程只能访问“打开的”文件。为了打开一个文件,进程调用fd = open(path,flag,mode)path表示被打开的文件的路径。flag表示打开的方式,它也指定是否应当创建一个不存在的文件。mode指定新创建文件的访问权限。关闭文件当进程无需再访问文件的内容时,就调用系统调用:res = close(fd)更名及删除文件要重新命名或删除一个文件时,进程不需要打开它。这样的操作并没有对这个文件的内容起作用,而是对一个或多个目录的内容起作用。res 阅读全文
posted @ 2013-09-18 17:09 风与叶子 阅读(251) 评论(0) 推荐(0) 编辑
摘要:redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。Redis 是一个高性能的key-value数 阅读全文
posted @ 2013-09-18 17:04 风与叶子 阅读(221) 评论(0) 推荐(0) 编辑
摘要:plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它就是一个对parser这个接口的实现2:灵活性 因为每个人都可以根据自己的需求而写自己的plugin,这样plugin就会有一个很强大的资源库。这样对与应用nutch程序员来说,他可以在自己的搜索引擎上 阅读全文
posted @ 2013-09-18 14:19 风与叶子 阅读(328) 评论(0) 推荐(0) 编辑
摘要:1.为处理方便,直接在$nutch目录下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。2.配置crawl-urlfilter.txt打开$nutch/conf/crawl-urlfilter.txt,找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则,改写为如下形式+^http://([a-z0-9] 阅读全文
posted @ 2013-09-18 14:18 风与叶子 阅读(320) 评论(0) 推荐(0) 编辑
摘要:用cygwin运行nutch 1.2爬取提示IOException:[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent 阅读全文
posted @ 2013-09-18 14:15 风与叶子 阅读(1643) 评论(0) 推荐(0) 编辑
摘要:Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch可以分为2个部分:抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。 搜索程序则对反向索引搜索回答用户的请求。Nutch的爬虫有两种方式爬行企业内部网(Intranet crawling)。针对少数网站进行,用crawl命令。爬行整个互联网。使用低层的inject,generate,fetch和updatedb命令,具有更强的可控制性。昨晚折腾了一晚上终于是大功告成了!这里要说的是基于Intranet(企业内部网)的环境配... 阅读全文
posted @ 2013-09-18 14:14 风与叶子 阅读(380) 评论(0) 推荐(0) 编辑
摘要:互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件,通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以,用什么没关系,只要能够在合理的情况下采用合理的解决方案。那怎么搭建一个好的系统架构呢?这个话题太大,这里主要说一下数据分流的方式。比如我们的数据库服务器只能存储200个数据,突然要搞一个活动预估达到600个数据 阅读全文
posted @ 2013-09-18 14:13 风与叶子 阅读(195) 评论(0) 推荐(0) 编辑
摘要:随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。基本的例子我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为 网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。······ 阅读全文
posted @ 2013-09-18 14:11 风与叶子 阅读(279) 评论(0) 推荐(0) 编辑
摘要:就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境. 阅读全文
posted @ 2013-09-18 14:10 风与叶子 阅读(603) 评论(1) 推荐(0) 编辑
摘要:Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0 配置:http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.htmlNutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意 阅读全文
posted @ 2013-09-18 14:09 风与叶子 阅读(371) 评论(0) 推荐(0) 编辑
摘要:国家气象局提供的天气预报接口接口地址:http://www.weather.com.cn/data/sk/101010100.htmlhttp://www.weather.com.cn/data/cityinfo/101010100.htmlhttp://m.weather.com.cn/data/101010100.html对于第三个接口,返回信息比较全面,也是以json格式提供,格式如下{"weatherinfo": {//基本信息;"city":"北京","city_en":"beijing&quo 阅读全文
posted @ 2013-09-18 14:05 风与叶子 阅读(525) 评论(0) 推荐(0) 编辑
摘要:提示信息关闭 提示内容 阅读全文
posted @ 2013-09-05 17:05 风与叶子 阅读(620) 评论(0) 推荐(0) 编辑
摘要:点击下图,可以看具体内容!介绍 正则表达式,大家在开发中应该是经常用到,现在很多开发语言都有正则表达式的应用,比如javascript,java,.net,php等等,我今天就把我对正则表达式的理解跟大家唠唠,不当之处,请多多指教!需要知道的术语——下面的术语你知道多少?Δ定界符Δ字符域Δ修饰符Δ限定符Δ脱字符Δ通配符(正向预查,反向预查)Δ反向引用Δ惰性匹配Δ注释Δ零字符宽定位 我们什么时候使用正则表达式呢?不是所有的字符操作都用正则就好了,php在某些方面用正则反而影响效率。当我们遇到复杂文本数据的解析时候,用正则是比较好的选择。优点 正则表达式在处理复杂字符操作的时候,可以提高工作效率, 阅读全文
posted @ 2013-09-04 16:00 风与叶子 阅读(177) 评论(0) 推荐(0) 编辑
摘要:近日对MongoDB比较感兴趣,在linux下部署了一套LAMP,想把MongoDB加进来,下面进入正题:1.确保安装好LAMP环境,假设php安装目录:/usr/local/php52.下载https://github.com/mongodb/mongo-php-driver/downloads,我下载的是mongodb-mongo-php-driver-1.3.0beta2-112-g0878db0.tar.gz 传到服务器上3.到服务器上,解压mongodb-mongo-php-driver-1.3.0beta2-112-g0878db0.tar.gz,进入目录,执行命令:/usr/lo 阅读全文
posted @ 2013-09-03 14:47 风与叶子 阅读(761) 评论(0) 推荐(0) 编辑
摘要:(“mongodb://用户名:密码 @地址:端口/默认指定数据库”,参数)$conn= newMongo();//可以简写为//$conn=new Mongo(); #连接本地主机,默认端口.//$conn=new Mongo(“172.21.15.69″); #连接远程主机//$conn=new Mongo(“xiaocai.loc:10086″); #连接指定端口远程主机//$conn=new Mongo(“xiaocai.loc”,array(“replicaSet”=>true)); #负载均衡//$conn=new Mongo(“xiaocai.loc”,array(“per 阅读全文
posted @ 2013-09-03 14:31 风与叶子 阅读(456) 评论(0) 推荐(0) 编辑
摘要:ajax传递参数时,一般就是js向程序页面传递和程序向js文件传递两种情况,当出现中文汉字时,会出现乱码。因为存在上述两种情况,所以解决起来也要分开对待。这里是php系统中遇到的问题,所以以php为实例来解决ajax传递中文的问题。1.Ajax向程序页面里传递中文汉字时出现乱码的情况:Ajax中先用encodeURIComponent对要提交的中文进行编码PHP中用:PHP代码$s=iconv('UTF-8', 'gb2312//IGNORE' , $string);来转换编码2.程序页面向ajax传递中文的情况:在php顶部加入一句:XML/HTML代码hea 阅读全文
posted @ 2013-09-03 13:36 风与叶子 阅读(473) 评论(0) 推荐(0) 编辑
摘要:nl2br功能:化换行符为";$result = rtrim($str);echo strlen($result);/**结果1411*/strip_tags功能:清除字符串中html和php的标记Hello world";$result = strip_tags($str);echo $result;/**结果Hello world*/strtolowerstrtoupper功能:转换成大小写";$result = strtoupper($str);echo $result;/**结果hello world!HELLO WORLD!*/trim功能:去除首尾空格 阅读全文
posted @ 2013-09-02 13:38 风与叶子 阅读(248) 评论(0) 推荐(0) 编辑
摘要:jQuery选择器选择器 实例 选取* $("*") 所有元素#id $("#lastname") id="lastname"的元素.class $(".intro") 所有class="intro"的元素element $("p") 所有元素.class.class $(".intro.demo") 所有class="intro"且class="demo"的元素:first $("p:first" 阅读全文
posted @ 2013-09-02 13:33 风与叶子 阅读(905) 评论(0) 推荐(0) 编辑
摘要:有时候一个网页可以有多个皮肤进行选择,也就是不同的背景,或是一整套新的css,能使整个页面变成另一种风格。这个功能可以用jQuery来实现。外加cookie插件。有了cookie,就可以长时间的保存选择后的背景样式,而不至于每次刷新界面都会转入默认的画面。效果如下:代码之div+css研读: 灰色 紫色 红色 天蓝色 橙色 淡绿色 时事新闻 娱乐新闻 ... 阅读全文
posted @ 2013-09-02 13:31 风与叶子 阅读(278) 评论(0) 推荐(0) 编辑
摘要:配置连接:Ok,连接成功齐活儿~下面来试一下,插入一个新的名为Message的Collection :然后插入个Document 阅读全文
posted @ 2013-09-02 13:29 风与叶子 阅读(322) 评论(0) 推荐(0) 编辑
摘要:用linux自己来访问web是可以的比如192.168.2.20就可以访问本机的相关页面用192.168.2.20/phpmyadmin就可以访问数据库相关内容可是,当别的局域网的电脑想访问时,却访问不了。什么原因呢?通过ping命令,发现是ping的通的,可是就是访问不了。后来发现,是服务器的防火墙的问题,解决方法,关掉防火墙,service iptables status 查看iptables状态service iptables restart iptables服务重启service iptables stop iptables服务禁用禁用了之后,发现可以访问了,不论是页面还是数据库,都可 阅读全文
posted @ 2013-09-02 13:28 风与叶子 阅读(966) 评论(0) 推荐(0) 编辑
摘要:PHPDataBase;$collection = $db->PHPCollection;/*----------------------------- * 删除 *-----------------------------$collection->remove(array("name" => "xixi111"));*//*------------------------------ * 插入 *------------------------------for($i = 0;$i "xixi".$i," 阅读全文
posted @ 2013-09-02 13:22 风与叶子 阅读(212) 评论(0) 推荐(0) 编辑