摘要: 背景:爽哥买了个域名heycoder.com,用做自己的个人技术blog.后加:特么服务器超级不稳定啊.艹,测试做好心里准备.写的主要内容是关于一些自己的技术知识的积累和分享。(绝对非广告,绝对背景,我去,特么也没写几篇啊)前段时间闲着没事儿,看到同事做的数据采集的代码.也想跟着学学.这不就有了想法儿,就想先用他的网站先试试手,毕竟废水不留外人田嘛.首先看了下网站的html.得亏代码结构不是很复杂,不然就搞不定呐.嘿嘿... 接下来看操作流程:读取列表,提取链接和文本,并保存根据链接和文本循环读取详细页抓取标题和内容病保存文章按网页目录,网页文件名保存我觉得,抓取网页内容最重要的就是根据需求获 阅读全文
posted @ 2013-03-02 23:32 mr3 阅读(322) 评论(1) 推荐(0) 编辑