上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页
摘要: 昨天纠结了一个晚上,终于搞定了,可以上网了。桥接上网注意以下几点:1、桥接成功之后,br0 有IP,然后eth0 没有IP,正常上网就可以了2、确保 cat /proc/sys/net/ipv4/ip_forward 这个的值是1。 如果发现不是1的话,可以执行命令echo “1”> /proc/sys/net/ipv4/ip_forward 即可3、执行brctl show命令后,要有br0 并且后面有eth0的信息我的配置文件(根据你们自己的网络信息修改):ifcfg-eth0:DEVICE=eth0ONBOOT=yesBRIDGE=br0ifcfg-br0:DEVICE=" 阅读全文
posted @ 2012-11-24 09:13 glose 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 通常情况下,Centos 挂载windows分区会出现mount: unknown filesystem type 'ntfs'。要想把NTFS格式的磁盘挂载到CentOS 6.3下面 需要安装第三方的插件ntfs-3g,这里我们采用编译安装插件。1、安装编译器,否则不能成功编译。 yum install gcc 根据提示按Y安装完成2、安装ntfs-3gcd/home #进入/home目录,把软件下载到此目录wget http://tuxera.com/opensource/ntfs-3g_ntfsprogs-2011.4.12.tgz #下载tar zxvf ntfs-3g 阅读全文
posted @ 2012-11-24 09:02 glose 阅读(356) 评论(0) 推荐(0) 编辑
摘要: 最近在运行hadoop程序,遇到两个问题:1、OutOfMemoryError in HadoopError: unable to create new native thread Error initializing attempt_201111090003_0013_r_000000_0: java.lang.OutOfMemoryError: unable to create new native thread at java.lang.Thread.start0(Native Method) at java.lang.Thread.start(Thread.java:614) at j 阅读全文
posted @ 2012-08-09 11:06 glose 阅读(2231) 评论(0) 推荐(0) 编辑
摘要: 今天学习了下c/c++相关的内存使用问题,大家都知道内存对于程序员来说是个非常神秘的空间,使用的恰当与否决定了一个程序的优劣。总之我感觉这个非常麻烦。下面是我在网上学习到的以及总结的一些东西。 一般来说,内存的分配方式有三种:1.从静态存储区域分配。内存在程序编译的时候就已经分配好,这块内存在程序的整个运行期间都存在。例如全局变量,static变量。2.在栈上创建。在执行函数时,函数内局部变量的存储单元都可以在栈上创建,函数执行结束时这些存储单元自动被释放。栈内存分配运算内置于处理器的指令集中,效率很高,但是分配的内存容量有限。3.从堆上分配,亦称动态内存分配。程序在运行的时候用mal... 阅读全文
posted @ 2012-06-21 11:05 glose 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 如果内容如下#start......内容......#end表达式可以为Pattern p=Pattern.compile( "#start.*?#end ",Pattern.DOTALL); 阅读全文
posted @ 2012-06-11 19:14 glose 阅读(951) 评论(0) 推荐(0) 编辑
摘要: #!/bin/shif [ $# -gt 1 ]; then 空格也要注意echo "Uage: $0[FileName]"exit 1elif [ $# -eq 1 ]; thenmyFileName=$1echo $myFileNameelsemyFileName=$0echo "/home/hadoop/"$myFileNamefiif [ ! -f"$file" ];then //!和-f 之间要有空格 echo "$myFileName does not exit!" exit 1fiMY_LINE_NO 阅读全文
posted @ 2012-06-05 10:33 glose 阅读(2496) 评论(0) 推荐(0) 编辑
摘要: 万物起始皆维基:http://en.wikipedia.org/wiki/Locality-sensitive_hashing上面给出了4类方法,我只看了其中的两个 bit sampling 和 p-Stable , 其他两个有空再加上---------------------------------------------------------------------------------------------------------------------------几个学术类的网址l2范数下的LSH 也就是所谓的P-Stable方法:http://www.mit.edu/~ando 阅读全文
posted @ 2012-05-29 18:45 glose 阅读(754) 评论(0) 推荐(0) 编辑
摘要: Detecting Near-Duplicates for Web Crawling(转载:http://blog.csdn.net/eaglex/article/details/6297684)问题背景:在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页 阅读全文
posted @ 2012-05-27 09:54 glose 阅读(672) 评论(0) 推荐(0) 编辑
摘要: 目前,随着全球信息产业在不断融合发展,网络资源与数据规模也在不断增长,尤其是在科学研究(天文学、生物学、高能物理)等、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势,并由此产生了许多机遇。 传统的数据分析技术已经越来越不适应当前密集型海量数据处理的需求。而近几年兴起的云计算(Cloud Computing),其实本质上是一种新的提供资源按需租用的服务模式,是一种新型的互联网数据中心(Internet Data Center,IDC)业务。可以根据需要访问的计算机和存储系统中的数据,把网络中的计算资源集中起来,虚拟为一个资源池,并且使用特定的软件实现自动化、智能化,使得各... 阅读全文
posted @ 2012-05-23 10:04 glose 阅读(2232) 评论(0) 推荐(0) 编辑
摘要: 这里我想讨论下5个解决网页去重的算法,转载自(http://blog.csdn.net/beta2/article/details/5014530)1. I-Match2. Shingliing3. SimHashing( locality sensitive hash)4. Random Projection5. SpotSig6. combinedI-Match算法 I-Match算法有一个基本的假设说:不经常出现的词和经常出现的词不会影响文档的语义,所以这些词是可以去掉的。 算法的基本思想是:将文档中有语义的单词用hash的办法表示成一个数字,数字的相似性既能表达文档的相似性 ... 阅读全文
posted @ 2012-05-15 13:37 glose 阅读(818) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页