2013 年 11月 13 日随笔档案 - 曹守鑫

2013年11月13日

摘要： 1.确定搜索的内容2.网络信息爬去 2.1 抓取网页（网络浏览器和网络爬虫） 2.2 多线程，从一个种子集合开始 2.3 robots.txt允许访问的文件，礼貌策略，访问时间限制 2.4 时新性，评估每一个页面的变化比率 2.5 垂直搜索，面向主题的信息采集，主题爬虫，判断一个网页和某个主题相关， 2.6 深层网络，（私人站点，表单结果，脚本页面（比较复杂,需要模拟js运行）） 2.7 网站地图（robots.txt含有一个对网站地图的引用，可以告诉爬虫爬取网页的相关信息，例如时薪，重要，主题 2.8 分布式网络爬虫，使用多个URL队列，使用散列函数，将URL分配给多个信息采... 阅读全文

posted @ 2013-11-13 16:52 曹守鑫阅读(252) 评论(0) 推荐(0) 编辑

曹守鑫

公告