问题3:当碰到网站要翻页抓取网址的时候,在网页源代码找不到终止页面的时候,如何进行翻页而不报错。
解决方案:将翻页部分的代码放到一个死循环里,当翻页翻到终止页面的下一页时,由于抓取不到任何东西,此时网页报错,跳出当前循环(“except:break”),问题解决完毕。
问题3:用正则表达式将一段字符串匹配下来时,还想匹配该字符串的中间部分。
解决方案:此时可用re.complie方法,先设置根据该字符串设置一个pattern,再用re.complie,group()方法得到字符串的中间部分,问题解决完毕。
问题5:当把印度尼西亚语的日期截取下来时,如何将此日期转成所需格式(即如:如何将'Isnin, 11 Julai 2016'转成‘2016-07-11’?)
把'Isnin, 11 Julai 2016'抓取下来后,令pub_time= 'Isnin, 11 Julai 2016',代码如下:
mons = {…...,'Julai':'07',......}
pub_time = pub_time.strip(',')
pub_time = pub_time[1].strip(' ')
year = pub_time[2]
day = pub_time[0]
mon = mons(pub_time[1])
pub_time = year + '-' +mon + '-' + day
即可将外文日期格式转化成'%y- mon + '%m-%d'。