sunshine

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2009年12月22日

摘要: 1:配置模块:采集目标:新闻,用户评论,博客,论坛等等采集源配置的集成开发环境,可视化。2:爬虫模块:网站内容组织结构(网站地图)的自动识别。支持cookie二次验证(如新华网),验证码登陆的支持编辑弹出验证3:初次过滤模块(过滤广告,导航等无用信息)概览页面选定区域内包含链接的规则识别、地址过滤和转换。细览页面选定区域内包含数据的精确识别、格式转换(内码转换,地址转换,时间转换等等)基于视觉的网... 阅读全文
posted @ 2009-12-22 13:33 jeremychen 阅读(1105) 评论(0) 推荐(0) 编辑

摘要: set destPath=d:\tempfor %%i in (%destPath%\source\*.*) do UtilEncryFile_d.exe %%ifor %%i in (%destPath%\mid\*.*) do UtilDecryFile_d.exe %%i 阅读全文
posted @ 2009-12-22 13:21 jeremychen 阅读(196) 评论(0) 推荐(0) 编辑