关于爬虫时间转化的具体实现
问题如下:
问题:爬取头条时候发现22分钟前指的是当前时间减去22分钟那就是帖子发表时间
这里需要用到time模块,re正则模块:
实现流程: 先正则匹配数字然后将数字转化为秒,例如‘一天前’就转化为1*60*60*24 秒 以此类推。。。,最后想相差值减去就知道了正确时间
time.time() 时间戳 1970纪元后经过的浮点秒数
time.localtime() 当地时间
time.localtime().tm_mon 当前月份
show code
def transform_time(t): if u'刚刚' in t: c = time.time() c = time.strftime('%Y年%m月%d日%H时%M分%S秒', time.localtime(c)) return c min = re.findall('\d+', t)[0] if u'分钟前' in t: c = time.time() - int(min) * 60 # 量化时间 elif u'小时前' in t: c = time.time() - int(min)*60*60 elif u'天前' in t: c = time.time() - int(min)*60*60*24 else: return None c = time.strftime('%Y年%m月%d日%H时%M分%S秒', time.localtime(c)) return c