摘要:
程序目的:
前段时间弄了个论坛(http://www.yyjun.net),懒于手动找贴发帖,特写个抓取指定url中帖子内容的小程序(完善中)
已经实现功能:
由于我们需要抓取页面特定DOM下的链接,如程序中,我们抓取
http://news.sina.com.cn/society/ 页面中大标题的链接,因此可以用函数getlink获取,返回list型结果,代码如下:
url="http://news.sina.com.cn/society/"
sinaurls=getlink(url, 'h1', {}),花括号为我们指定了附属条件,可以添加附加条件限制 阅读全文