2014 年 3月 9 日随笔档案 - 山顶的鱼

2014年3月9日

摘要：百度搜索网站登录口：http://www.baidu.com/search/url_submit.htmlGoogle网站登录口：http://www.google.com/addurl/?hl=zh-CN&continue=/addurlGoogle新闻网站内容http://www.google.com/support/news_pub/bin/request.py?contact_type=suggest_content&hl=cn搜狗网站收录提交入口:http://www.sogou.com/feedback/urlfeedback.phpSOSO搜搜网站收录提交入口:h 阅读全文

posted @ 2014-03-09 23:01 山顶的鱼阅读(143) 评论(0) 推荐(0) 编辑

浅淡暗网信息抓取

摘要：写在最前面：之前看过一些关于暗网信息抓取的Paper，觉得这一块是我们今后做好WebSpider的一个重要的努力方向。下面就对暗网信息的抓取做一个通俗简洁的介绍，达到使一般读者能够明白暗网信息抓取基本原理的目的。 1.什么是暗网广义地讲，任何不能通过一次（或多次）HTTP GET请求直接下载的Web页面，我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载这些Web页面的原因是多方面的，有可能是网络原因不能下载，比如说企业或学校的内部网站，只有通过代理服务器连通这些网络，才能下载其中的Web页面；也有可能是动态页面，需要用户身份认证，登录后才能下载等，还有其它一些原因... 阅读全文

posted @ 2014-03-09 19:59 山顶的鱼阅读(586) 评论(0) 推荐(0) 编辑

山顶的鱼

公告