赵国亮的博客

PHP JS LINUX 高性能网站开发

导航

2013年4月10日 #

基于larbin的搜索蜘蛛的扩展,自动匹配提取正文数据和入库,sphinx全文检索

摘要: 原理:提取爬虫采集回来的文件,提取正文内容。程序分2个文件夹: 为避免shell检测出错,起名为pa_main为爬虫主程序,pa_control为控制程序。 功能:larbin采集数据 检测文件大小 处理文件夹下网页文件提取入库 * 时间:2013-4-2 * 作者:lovelover * 操作: 按照以下顺序执行./shstart_daxiao.sh #(检测save文件夹大小 以便控制larbin的实时开关) ./shstart_getcode.sh #(提取网页标题和内容 入库) ./shstart_jiance.sh #(打开检测save文件夹有新增文件没)./killallphp.. 阅读全文

posted @ 2013-04-10 08:44 赵国亮的博客 阅读(1239) 评论(1) 推荐(3) 编辑

123