XSLT问答：转换经验

原作：John E. Simpson 2002.05.29
翻译： onestab

问：可以将XSL格式化对象(XSL-FO)转换成HTML吗？

我有一个XSL-FO文件，它使用FOP显示PDF文件，我能用同一个XSL-FO文件显示到XHTML吗？如果可以，要使用什么工具？

答：先看第二个问题：我想可以从RenderX开发的 fo2html XSLT stylesheet着手。该样式表使用一个XSLT-FO文件将XSL格式化对象在某种程度上转换成相应的XHTML，使用CSS1进行格式化。不过要留意其局限性。

RenderX是XEP XSL-FO引擎的开发者，是Apache FOP的主要对手，这个样式表是该产品的一个“附加件(add-on)”。但是这个样式表应该对其它的XSL-FO输入同样适用。另外，尽管上述RenderX页面主要针对在能读懂XSLT的浏览器中直接使用样式表，我想没有理由不可以方便地用于任何XSLT引擎，包括Saxon, Cocoon或任何别的地方。

至于要把XSL-FO转换成XHTML要用到的技术，这不是三言两语能讲清的，容我慢慢道来。

XSL-FO是一个XML词汇表，其元素和属性描述了打印文档的结构。对这类输出格式的要求与主要用于Web浏览的输出格式(比如XHTML)的要求有着很大不同。一个网站的内容一般都是散落于多个分离的文件，而且在大多数情形下并不需要打印出来。

(页面作者)无法要求一个Web页面在指定尺寸的纸张上打印；
某个部分的标题可能会出现在页面底部，其相应内容却出现在下一页的顶端；
字体和字号以及页边距最终还是要受用户的控制；
用户可能有意关闭图片显示；
页眉和页脚浏览器有缺省设置，可被全部重置或忽略，并且这些页眉和页脚的外观完全不是页面设计者的所能控制的；
一些支持材料，比如脚注和索引，可以被重新构造 -- 但是结果可能很糟糕；
如果一个跨页面的表格被打印到下一页，其标题单元格不会重复...

这里列出的差别用一句话来形容，就是非常巨大。

尽管如此，相似之处还是有的。例如，fo:block格式化对象就相当于XHTML的div，fo:table对象很像XHTML的 table元素；XHTML中的 ul 和 li 元素与XSL-FO中的 fo:list-block和 fo:list-item相对应，等等。

将XSL格式化对象自动转化成相应的XHTML的一般过程取决于从一个XML词汇表(XSL-FO)到另一个词汇表(XHTML)的逐条转换。这正是XSLT的本职工作；RenderX的fo2html方案也不例外。事情变得棘手了，我们处理的这些打印页面特性在Web页面里的相应(对象)不很准确，或更糟糕 - 干脆没有。有些东西你会转而寻求CSS的帮助。即使用了CSS，但你始终不可能在XSL-FO(或其他功能齐备的页面描述语言)和XHTML之间建立完整的一一对应关系。

需要指出，有人也许会过分抱怨RenderX方案的不足：它所产生的CSS样式指令都是作为div元素的style属性出现的。为达到较强的控制能力和一致性，有人可能更愿意从一个XSL-FO元素能产生两个输出结果：一个XHTML文档和一个分离的、可选的CSS样式表。RenderX不这样做不是技术欠缺，而是因为：

他们对fo2html进行尝试的指导思想是在浏览器中直接察看XSL-FO文档，需要迅速转换成XHTML文档；以及
XSLT1.0样式表无论如何都不能一次产生一个以上的结果树(即“输出”文档)。（XSLT2.0正式发布时，可能允许创建多个“二级结果树”，所用的指令为 xsl:result-document。）

问：怎样用XSLT将一个“标签(tag)”放入一个属性内？

在我的XML文件中，有一个叫做 filmid的标签。这里是例子：

      <filmid>l</&filmid>

在XSLT样式表中，我想把它转换成 <img src> 标签内的文件名，就像这样：

      <img src="images/<xsl:value-of select="filmid"/>.gif" />

但却行不通。

答：我想你可能已不再考虑这些方法了，但这个问题并不是XSLT的局限性。问题是你对XSLT的理解有限。别不好意思；在这个问题面前你还有很多同志。

这里的关键是：XSLT并不会在输出文件中写入或创建一个标签；它在结果树中创建的是元素(以及属性、PI等等)。也就是说，样式表并不是由这样的一系列指令组成的：

写一个 img的起始标记
如果你(XSLT处理器)找到了一条XSLT指令(诸如 xsl:value-of之类)，不管还剩下什么，停下标签的写入，按照指令去做
写入 img的结束标记

相反，构成样式表的是一系列XSLT引擎指令：

创建一个 img 元素
为该元素创建一个 src 属性

注意这里没有提到“标签”这个词，也没有关于写入或创建元素的所谓“起始”或“结束”标签(或别的之类)。事实上，XSLT引擎依据这些指令所创建的东西与markup毫无关系。不难想象一个懂得XSLT的程序可以用这些样式表指令产生一个文档结构的树形图，可以是SVG文件，也可以是PostScript,TIF或PNG。

再者，要知道样式表被提交给XSLT引擎之前，它本身还要过XML解析器这一关。不管充满“指令”的样式表看起来如何顺眼，假如这个样式表本身连一个良构的(well-formed)XML都算不上，则这些指令本身是不是合法的XSLT，根本就无关紧要。

根据记录，对任何一个负责任的解析器来说，你所提供的XSLT代码片断根本就不符合它的接纳条件，肯定会出现一两个错误。首先，解析器试图把 src 属性的值理解为一个字符串，这个字符串在双引号内，而其中又包含双引号，解析器对此无法理解。为纠正这个错误，你应把"filmid"外面的双引号换成单引号，就像这样：

      <img src="images/<xsl:value-of select='filmid'/>.gif" />

或者，保留"filmid"外面的双引号，而把整个属性值外面的双引号改成单引号。

尽管如此，解析器还是会被噎住，因为属性值不可以包含特殊字符(unescaped)小于号(<)。但是让我们设想你用的解析器非常宽宏大量(而且不兼容)，马马虎虎接受了你指定的 src属性值，那么从你的样式表能得到什么样的结果？你得到了一个img元素，其属性值就是双引号内的所有文字。也就是说，XSLT引擎不知道你喂给它的是一条 xsl:value-of指令！它会简单地认为 src属性值的组成就是 i, 接着是 a，直到第一个斜杠，跟着是一个小于号，接下来是 x, s, 以及l和冒号，等等。

假如你把小于号用一个实体引用脱出，比如" XSLT的行为就跟上述一样。

解决这个问题有两种办法。最简单的（至少在这种情况下）就是忘掉 xsl:value-of元素，转而使用所谓的属性值模板(通常缩写为AVT)。一个AVT由一个包含在花括号({ } )内的XPath表达式组成。如果这个表达式是一个相对局部路径，它就是相对于当前点的上下文的。例如，

      <img src="images/{filmid}.gif" />

XSLT引擎一定会对花括号的存在做出这样的反应：“在该点插入当前上下文(context)节点集的filmid子元素的字符值”

另外一种可行的办法写起来比较长一些，但对于大多数的XSLT程序员来说非常明白，不是什么编程秘籍，（有时候由于某种原因不能使用AVT，这种方法依然可行）。这个办法就是用 xsl:attribute元素将一个属性添加到节点树中，这个元素的字符值，可能包含有xsl:value-of，就成为问题中的属性值。

      <img><xsl:attribute name="src">images/<xsl:value-of select='filmid' />.gif</xsl:attribute></img>

这样就为紧接其前面元素（这里是img元素）增加了一个属性，显然，属性的名称是由name属性指定的，并且你已看到，属性之可以由纯文本和XSLT指令组成。

不管你用的是AVT还是 xsl:attribute元素，结果中的相应部分不外乎下面两种之一：

      <img src="images/1.gif"/>
      <img src="images/1.gig"></img>

这两种结果都是结构完备的，而且都代表一个空的 img元素。

posted on 2013-01-22 17:51 chitti 阅读(302) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

chitti