自己编写一个wordpress导出的xml提取脚本

百度了一下,好像没有相关的脚本.而且.各大博客网站都不能直接导入QAQ.于是本着自给自足的原则自己写了一个.

使用的语言为python

只提取文章的标题和内容

会在脚本运行的目录下生成一个文件夹,文件夹名是当前时间的时间戳.生成的txt在该文件夹下,以标题名命名.

文件名以wordpress.xml为例


import xml.etree.ElementTree as ET
import time
nowTime = str(int(time.time()))
import os

def mkdir(path):
    folder = os.path.exists(path)
    if not folder:  # 判断是否存在文件夹如果不存在则创建为文件夹
        os.makedirs(path)  # makedirs 创建文件时如果路径不存在会创建这个路径

mkdir(nowTime)
tree = ET.parse('wordpress.xml')
rss = tree.getroot()
channel = rss.find('channel')
for item in channel.iter('item'):
    title = item.find('title').text
    content = item.find('{http://purl.org/rss/1.0/modules/content/}encoded').text
    try:
        if(content != None):
            f = open(nowTime + '/' + title + '.txt', 'w')
            f.write(title+'\n')
            f.write(content)
            f.close()
    except:
        print(title)
        print(content)
print('end')

转载请注明来自:LucyTime 原文地址:https://www.cnblogs.com/LucyTime/p/9392818.html

posted @ 2018-07-30 21:19  LucyTime  阅读(572)  评论(0编辑  收藏  举报