2013 年 3月文章档案 - zhenjing

JVM 几个重要的参数

摘要：<本文提供的设置仅仅是在高压力，多CPU，高内存环境下设置>最近对JVM的参数重新看了下，把应用的JVM参数调整了下。几个重要的参数-server -Xmx3g -Xms3g -XX:MaxPermSize=128m-XX:NewRatio=1 eden/old 的比例-XX:SurvivorRatio=8 s/e的比例-XX:+UseParallelGC-XX:ParallelGCThreads=8-XX:+UseParallelOldGC 这个是JAVA 6出现的参数选项-XX:LargePageSizeInBytes=128m 内存页的大小，不可设置过大，会影响P 阅读全文

posted @ 2013-03-22 16:56 zhenjing 阅读(1180) 评论(0) 推荐(0)

快速构建实时抓取集群

摘要：5. Redis：一个开源的KV的内存数据库，具备很好的数据结构的特征和很高的存取性能。用于存储linkbase信息 6. Django：爬虫管理工具，用于模板配置，系统监控反馈。Django在这里主要是用来管理一个数据库，使用Admin功能。 7. Pagebase：页面库，主要是存储网页抓取的结果，以及页面抽取的结果，和dump交互，使用mysql实现。 8. Scrapy：一个开源的机遇twisted框架的python的单机爬虫，该爬虫实际上包含大多数网页抓取的工具包，用于爬虫下载端以及抽取端。阅读全文

posted @ 2013-03-20 13:25 zhenjing 阅读(1285) 评论(0) 推荐(0)

hadoop如何分发本地的jar文件

摘要：一般情况下，我们使用下面的命令来运行一个hadoop任务：hadoop jar abc.jar arg0 arg1 ...这个命令实际上是转化成下面的命令来运行的javaorg.apache.hadoop.util.RunJarabc.jar arg0 arg1 ...在RunJar中，会读取abc.jar文件，然后尝试从manifest中提取"Main-Class"作为mainClass，如果manifest中没有指定，则把abc.jar之后的下一个参数当成mainClass。接下来，RunJar会在本地创建一个临时目录（下面称为workDir，类似/tmp/hadoop 阅读全文

posted @ 2013-03-06 15:07 zhenjing 阅读(1126) 评论(0) 推荐(0)

zhenjing的博客以文会友

03 2013 档案

About

zhenjing的博客 以文会友

03 2013 档案

About

zhenjing的博客以文会友