赵国亮的博客

PHP JS LINUX 高性能网站开发

导航

基于larbin采集爬虫的辅助控制提取数据功能代码

/*  * 项目:基于larbin采集爬虫的辅助控制提取数据功能代码  * 时间:2013-4-27  * 作者:lovelover  * 操作:

  按照以下顺序执行    1、建立数据源的目标数据库,比如:sjy_englishsoft,导入sjy_model.sql。    2、更改/pa_control_single/ 目录下conn.php的数据库连接代码。    3、

    执行以下ssh代码

    cd /pa_control_single

    1、     screen -S getcode     ./shstart_getcode.sh #(提取网页标题和内容 入库)     ctrl+A+D 退出

    2、     screen -S daxiao     ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关)     ctrl+A+D 退出

    3、     screen -S jiance     ./shstart_jiance.sh #(打开检测save文件夹有新增文件没)     ctrl+A+D 退出

    4、     screen -S killallphp     ./shstart_killallphp #(定时杀死php保证鲜活度)       ctrl+A+D 退出

     关闭larbin进程用 killall larbin 结束

 限定某一单一网站提高效率:       1、将larbin.conf里面的waitDuration设置为1    2、将types.h里面的maxUrlsBySite修改为254;    3、main.cc 数字改成 30 15    4、larbin.conf #noExternalLinks

*/

 

dingshi_daxiao.sh

#!/bin/sh while [ 1 ] do echo "" echo "正在定时检测save大小 控制爬虫的开关。。。!" echo "" s=`du -sh -b /pa_main_single/save|awk '{print $1}'` echo "当前大小: $s。" echo "" if [ $s -gt 1000000000 ] then  echo "超过1000M了"  echo ""

 if test $( pgrep -f larbin | wc -l ) -eq 0     then         echo "爬虫关闭中,不做任何操作!"         echo ""     else         echo "发现爬虫运行中,立刻终止进程!"         echo ""   killall larbin     fi

else

 if [ $s -gt 200000000 ]  then   echo "大于200M了,不做任何操作!"   echo ""     else

  echo "小于200M了"    echo ""

  if test $( pgrep -f larbin | wc -l ) -eq 0   then    echo "爬虫关闭中,马上开启"    echo ""    cd /pa_main_single/    ./larbin -scratch &   else    echo "爬虫运行中..."    echo ""   fi 

 fi

fi

echo "" echo "---------------------------------------------------"

sleep 5 done

 

dingshi_jiance.sh

 

#!/bin/sh while [ 1 ] do echo "start dingshi_jiance!";

PHP="/usr/local/php/bin/php"

PROGRAM="/pa_control_single/aaa_jiance.php"

#start dameo

$PHP $PROGRAM &

sleep 60 done

 

 

 

 

posted on 2013-04-27 14:24  赵国亮的博客  阅读(271)  评论(0编辑  收藏  举报

123