会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
走向前
博客园
首页
新随笔
联系
订阅
管理
2009年9月4日
网络抓取--简单随笔1
摘要: 简单思路: 根据http协议 对某一url发出请求(设置关键的请求头); 得到反馈结果并保存成字符串(关键是charset避免乱码); 对字符串解析生成html对象集合(html解析); 针对每个网站做人工分析,设置解析参数(节点名/属性:属性值/位置/个数/...); 根据参数解析html对象得到所需结果(新闻/作者/日期/...);js: 很多站点不能直接得到具体内容,而是通过js处理其他相...
阅读全文
posted @ 2009-09-04 16:53 走向前
阅读(189)
评论(0)
推荐(0)
编辑