摘要:
1:配置模块:采集目标:新闻,用户评论,博客,论坛等等采集源配置的集成开发环境,可视化。2:爬虫模块:网站内容组织结构(网站地图)的自动识别。支持cookie二次验证(如新华网),验证码登陆的支持编辑弹出验证3:初次过滤模块(过滤广告,导航等无用信息)概览页面选定区域内包含链接的规则识别、地址过滤和转换。细览页面选定区域内包含数据的精确识别、格式转换(内码转换,地址转换,时间转换等等)基于视觉的网... 阅读全文
摘要:
1:配置模块:采集目标:新闻,用户评论,博客,论坛等等采集源配置的集成开发环境,可视化。2:爬虫模块:网站内容组织结构(网站地图)的自动识别。支持cookie二次验证(如新华网),验证码登陆的支持编辑弹出验证3:初次过滤模块(过滤广告,导航等无用信息)概览页面选定区域内包含链接的规则识别、地址过滤和转换。细览页面选定区域内包含数据的精确识别、格式转换(内码转换,地址转换,时间转换等等)基于视觉的网... 阅读全文
摘要:
set destPath=d:\tempfor %%i in (%destPath%\source\*.*) do UtilEncryFile_d.exe %%ifor %%i in (%destPath%\mid\*.*) do UtilDecryFile_d.exe %%i 阅读全文
|