微博爬虫 ----- 微博发布时间清洗

 

 

复制代码
from datetime import datetime
from datetime import timedelta

if "刚刚" in publish_time:
    publish_time = datetime.now().strftime('%Y-%m-%d %H:%M')

elif "分钟" in publish_time:
    minute = publish_time[:publish_time.find("分钟")]
    minute = timedelta(minutes=int(minute))
    publish_time = (
        datetime.now() - minute).strftime(
        "%Y-%m-%d %H:%M")
elif "今天" in publish_time:
    today = datetime.now().strftime("%Y-%m-%d")
    time = publish_time.replace('今天','')
    publish_time = today + " " + time

elif "" in publish_time:
    year = datetime.now().strftime("%Y")
    publish_time = str(publish_time)
    print publish_time

    publish_time = year + "-" +publish_time.replace('','-').replace('','')
else:
    publish_time = publish_time[:16]

print "微博发布时间: " + publish_time
复制代码

 

posted @   淋哥  阅读(1198)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
点击右上角即可分享
微信分享提示