2013 年 4月 10 日随笔档案 - 赵国亮的博客

2013年4月10日 #

基于larbin的搜索蜘蛛的扩展，自动匹配提取正文数据和入库，sphinx全文检索

摘要：原理：提取爬虫采集回来的文件，提取正文内容。程序分2个文件夹：为避免shell检测出错，起名为pa_main为爬虫主程序，pa_control为控制程序。功能：larbin采集数据检测文件大小处理文件夹下网页文件提取入库 * 时间：2013-4-2 * 作者：lovelover * 操作：按照以下顺序执行./shstart_daxiao.sh #(检测save文件夹大小以便控制larbin的实时开关) ./shstart_getcode.sh #(提取网页标题和内容入库) ./shstart_jiance.sh #(打开检测save文件夹有新增文件没)./killallphp.. 阅读全文

posted @ 2013-04-10 08:44 赵国亮的博客阅读(1239) 评论(1) 推荐(3) 编辑

赵国亮的博客

导航

公告

基于larbin的搜索蜘蛛的扩展，自动匹配提取正文数据和入库，sphinx全文检索