似梦似醒

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

创建新任务大家都会。具体介绍一下数据筛选的流程

 

第一步,采集网址的规则

     (第一个)添加

      (第二个)添加

       测试网址采集

第二步  采集内容规则  

      标题,内容,作者,出处  双击就可以了,可以添加修改

      进去后就截取前后字符串。(*)很强大。能代替好一大串代码,然后在过滤一下网址必须包含的字符,还有不包含的字符。很容易就配上了。           然后数据处理一下。去掉html标签等等。

      在右下的   其他设置中可以设置采集的最大数量。

第三步  导入数据库

      先写个sql语句,然后保存为模块。就引用好了。

      配上服务器。

      就相当于直接用sql语句写入了数据库

      然后就OK了。

 

废了我2天才研究好。不过也很开心了。呵呵

 遇到的问题,发布txt文档的时候,没有发布应发布的内容,发布的是标签“[标签:作者]”,“[标签:作者]”。

 编码格式错误。不填或者选择正确的编码格式。

             

      

posted on 2012-11-06 17:56  人生如梦,梦如人生  阅读(331)  评论(0编辑  收藏  举报