赵国亮的博客

PHP JS LINUX 高性能网站开发

导航

定向采集某些网页的数据入库

---恢复内容开始---

/* * 功能:定向采集某些网页的数据入库 * 时间:2013-4-27 * 作者:lovelover * 操作: 按照以下顺序执行 1、建立数据源的目标数据库,导入sql。 2、 ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关) ./shstart_getcode.sh #(提取网页标题和内容 入库) ./shstart_jiance.sh #(打开检测save文件夹有新增文件没) ./shstart_killallphp #(定时杀死php保证鲜活度) 关闭larbin进程用 killall larbin 结束 限定某一单一网站提高效率: 1、将larbin.conf里面的waitDuration设置为1 2、将types.h里面的maxUrlsBySite修改为254; 3、main.cc 数字改成 30 15 4、larbin.conf #noExternalLinks */

 

---恢复内容结束---

posted on 2013-04-27 14:04  赵国亮的博客  阅读(302)  评论(0编辑  收藏  举报

123