wanlifeipeng

  博客园 :: 首页 :: 博问 :: 闪存 :: :: 联系 :: 订阅 订阅 :: 管理 ::

2017年4月9日

摘要: 1.简介 Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。Python-goose可提取的信息包括: 阅读全文
posted @ 2017-04-09 16:45 wanlifeipeng 阅读(1922) 评论(0) 推荐(0) 编辑

摘要: 一. xml相关术语: 1.Document(文档): 对应一个xml文件 2.Declaration(声明): version指定了版本,encoding指定了文件编码 3.Comment(注释),同html中的注释 4.Element(元素):指的是从( 且包括) 开始标签直到( 且包括) 结束 阅读全文
posted @ 2017-04-09 14:26 wanlifeipeng 阅读(2229) 评论(0) 推荐(0) 编辑