Python中time日期、时间格式转换

在我们日常的数据采集中，时间time的重要性毋庸置疑的，因为它是衡量采集到的信息是否具有正确时效性的唯一因素。如果我们采集到的信息对于客户来说已经是过期的信息，这对于客户没有使用的价值，影响客户使用。

所以我们今天就来说说在日常采集中遇到的时间如何正确采集，保证信息的时效性。

1>.首先我们要获取当前的时间，才能有效的判断信息的时效性。

import datetime
#获取当前时间
gtime = datetime.datetime.now()
# #获取当前时间的年 月 日.day
year = datetime.datetime.now().year
month = datetime.datetime.now().month
day = datetime.datetime.now().day

2>.时间的格式化。在采集外文网站中常会遇到（Mar 09,2018\ Thu Jun 22 00:00:00 CST 2017），对照着进行匹配

    %a星期的简写。如 星期三为Web
    %A星期的全写。如 星期三为Wednesday
    %b月份的简写。如4月份为Apr
    %B月份的全写。如4月份为April
    %c: 日期时间的字符串表示。（如： 04/07/10 10:43:39）
    %d: 日在这个月中的天数（是这个月的第几天）
    %f: 微秒（范围[0,999999]）
    %H: 小时（24小时制，[0, 23]）
    %I: 小时（12小时制，[0, 11]）
    %j: 日在年中的天数 [001,366]（是当年的第几天）
    %m: 月份（[01,12]）
    %M: 分钟（[00,59]）
    %p: AM或者PM
    %S: 秒（范围为[00,61]，为什么不是[00, 59]，参考python手册~_~）
    %U: 周在当年的周数当年的第几周），星期天作为周的第一天
    %w: 今天在这周的天数，范围为[0, 6]，6表示星期天
    %W: 周在当年的周数（是当年的第几周），星期一作为周的第一天
    %x: 日期字符串（如：04/07/10）
    %X: 时间字符串（如：10:43:39）
    %y: 2个数字表示的年份
    %Y: 4个数字表示的年份
    %z: 与utc时间的间隔 （如果是本地时间，返回空字符串）
    %Z: 时区名称（如果是本地时间，返回空字符串）
    %%: %% => %

#Mar 09,2018\ Thu Jun 22 00:00:00 CST 2017
c_time = 'Mar 09,2018'
print(type(c_time))  #查看类型是--<str>
ctime = datetime.datetime.strptime(c_time,"%b %d,%Y")
print(ctime)
print(type(ctime))  #查看类型是--<class 'datetime.datetime'>

3>.借助正则来提升匹配率

ctime = data.xpath('''//span[@class="time"]''').regex('(\d+-\d+-\d+ \d+:\d+:\d+|\d+-\d+-\d+ \d+:\d+|\d+-\d+-\d+|\d+-\d+ \d+:\d+)').datetime()

4>.对于时间里面包含汉字（年、月、日）（刚刚、分钟前、小时前、天前）

　　4.1.时间里面包含年、月、日---2018年3月15日 12:25

    import htmlparser  #导包
    
    ctime = htmlparser.Parser(data.xpath('''//span[@class="time"]''').text().replace('年', '-').replace('月', '-').replace('日', '')).datetime()

　　4.2.时间里面包含刚刚、分钟前、小时前、天前

    ctime = data.xpath('''//span[@class="topic_time"]/text()''').text().strip()
    if "刚刚" in ctime:
        ctime = gtime - datetime.timedelta(minutes=1)
    elif "分钟前" in ctime:
        ctime = re.search(r'\d+', ctime).group()
        ctime = gtime - datetime.timedelta(minutes=int(ctime))
    elif "小时前" in ctime:
        ctime = re.search(r'\d+', ctime).group()
        ctime = gtime - datetime.timedelta(hours=int(ctime))
    elif "天前" in ctime:
        ctime = re.search(r'\d+', ctime).group()
        ctime = gtime - datetime.timedelta(days=int(ctime))
    else:
        # return None
        ctime = htmlparser.Parser(ctime).datetime()

5>.对于正文里面没有时间的，查看是否url里面含有时间的信息 http://www.shanxi.gov.cn/sq/dwjl/gjjmlw/201802/t20180208_396922.shtml

import re

post_url = 'http://www.shanxi.gov.cn/sq/dwjl/gjjmlw/201802/t20180208_396922.shtml'
c_time = re.search('''t(\d{8})_''', post_url).group(1)
ctime = datetime.datetime.strptime(c_time, "%Y%m%d") - datetime.timedelta(0, 3600 * 8)

6>.时间戳的转化（如果采集的内容里面没有时间，可以查找类似1548906627这样的一串数，打开http://tool.chinaz.com/Tools/unixtime.aspx，测试一下是否是时间戳格式的）
如果确定是时间戳格式的

    ===============时间戳格式转换==============
    c_time1 = '获取到的时间戳'
    ctime = datetime.datetime.utcfromtimestamp(int(c_time1))

最后，此内容为自己整理所得，如有不适合你的情况，请另行其它方法解决。

posted @ 2019-01-31 17:30 时间影像阅读(8760) 评论(0) 收藏举报

刷新页面返回顶部

时间影像

Python中time日期、时间格式转换

公告