赵国亮的博客

PHP JS LINUX 高性能网站开发

导航

2013年4月27日 #

基于larbin采集爬虫的辅助控制提取数据功能代码

摘要: /* * 项目:基于larbin采集爬虫的辅助控制提取数据功能代码 * 时间:2013-4-27 * 作者:lovelover * 操作:按照以下顺序执行 1、建立数据源的目标数据库,比如:sjy_englishsoft,导入sjy_model.sql。 2、更改/pa_control_single/ 目录下conn.php的数据库连接代码。 3、 执行以下ssh代码 cd /pa_control_single 1、 screen -S getcode ./shstart_getcode.sh #(提取网页标题和内容 入库) ctrl+A+D 退出 2、 screen -S da... 阅读全文

posted @ 2013-04-27 14:24 赵国亮的博客 阅读(271) 评论(0) 推荐(0) 编辑

定向采集某些网页的数据入库

摘要: ---恢复内容开始---/* * 功能:定向采集某些网页的数据入库 * 时间:2013-4-27 * 作者:lovelover * 操作: 按照以下顺序执行 1、建立数据源的目标数据库,导入sql。 2、 ./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关) ./shstart_getcode.sh #(提取网页标题和内容 入库) ./shstart_jiance.sh #(打开检测save文件夹有新增文件没) ./shstart_killallphp #(定时杀死php保证鲜活度) 关闭larbin进程用 killall larbin 结束 限 阅读全文

posted @ 2013-04-27 14:04 赵国亮的博客 阅读(302) 评论(0) 推荐(0) 编辑

123