摘要:
最近要把Google所搜的结果中,所以的站点地址导出。于是便使用Python中正则表达式来提取所搜得到的结果。这其中涉及几个需要解决的问题:1、获取搜索的结果文本为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果。获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2、分析如何提取站点信息 首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息。 我使用IE8自带的开发工具(按F12就会弹出来)中的探查器功能查看自己要关心的内容有什么特殊的格式 从上图可以看出我需要的站点在标签<cite></cite>中,所以我使用正
阅读全文