网络抓取--简单随笔1
简单思路:
根据http协议
对某一url发出请求(设置关键的请求头);
得到反馈结果并保存成字符串(关键是charset避免乱码);
对字符串解析生成html对象集合(html解析);
针对每个网站做人工分析,设置解析参数(节点名/属性:属性值/位置/个数/...);
根据参数解析html对象得到所需结果(新闻/作者/日期/...);
js:
很多站点不能直接得到具体内容,而是通过js处理其他相关文件显示于页面中(或称为ajax)
此类站点关键是找到相关文件的url(具体内容均在这里)
如:sohu论坛 通过<script src="http://mirror7.***" />加载 (解析html可得到)
sina博客
博主:http://blog.sina.com.cn/s/blog_475b3d560100dnjy.html
评论:http://blog.sina.com.cn/s/comment_475b3d560100dnjy_4.html (通过httpwatch得到)
...
博客搬家工具:
猜想此类工具就是通过网页抓取原理实现的.
----网页抓取具有针对性,抓取特定内容需要人工分析网站代码.