03 2013 档案
摘要:<本文提供的设置仅仅是在高压力, 多CPU, 高内存环境下设置>最近对JVM的参数重新看了下, 把应用的JVM参数调整了下。 几个重要的参数-server -Xmx3g -Xms3g -XX:MaxPermSize=128m-XX:NewRatio=1 eden/old 的比例-XX:SurvivorRatio=8 s/e的比例-XX:+UseParallelGC-XX:ParallelGCThreads=8-XX:+UseParallelOldGC 这个是JAVA 6出现的参数选项-XX:LargePageSizeInBytes=128m 内存页的大小, 不可设置过大, 会影响P
阅读全文
摘要:5. Redis:一个开源的KV的内存数据库,具备很好的数据结构的特征和很高的存取性能。用于存储linkbase信息
6. Django:爬虫管理工具,用于模板配置,系统监控反馈。Django在这里主要是用来管理一个数据库,使用Admin功能。
7. Pagebase:页面库,主要是存储网页抓取的结果,以及页面抽取的结果,和dump交互,使用mysql实现。
8. Scrapy:一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。
阅读全文
摘要:一般情况下,我们使用下面的命令来运行一个hadoop任务:hadoop jar abc.jar arg0 arg1 ...这个命令实际上是转化成下面的命令来运行的javaorg.apache.hadoop.util.RunJarabc.jar arg0 arg1 ...在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取"Main-Class"作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。接下来,RunJar会在本地创建一个临时目录(下面称为workDir,类似/tmp/hadoop
阅读全文