铷铯

导航

 

2011年4月24日

摘要: Ligatures:http://en.wikipedia.org/wiki/Typographical_ligature通过查阅文档和测试发现,在正常情况下(使用最常用的字体),LaTeX会把下面5种字母组合合并,变成一个字符。虽然视觉上很好看,但是对搜索很不利。这并不是poppler解析不彻底的问题,因为连Adobe Reader都不会解析。字母组合UTF-16/32 (type "Unicode" in poppler)UTF-8ffFB00EF AC 80fiFB01EF AC 81flFB02EF AC 82ffiFB03EF AC 83fflFB04EF AC 阅读全文
posted @ 2011-04-24 10:53 se2012 阅读(316) 评论(0) 推荐(1) 编辑
 
摘要: 由于poppler代码量相当大,而且内容很复杂,至今没有完全写完,刚刚更新了PdfAnalyze接口,在我上一个summary里边。http://www.cnblogs.com/se2011/archive/2011/04/22/2024419.html写完实现之后,TODO1:想办法编译过,且调试。应该没啥大问题,但会耗一些时间。TODO2:生成出的文本仍含有一些诡异的unicode,比如ffi,是EF AC 80。我会试图做进一步的转化,主要针对于类似的在paper里出现频率相当高的字母组合,以便于搜索等。 阅读全文
posted @ 2011-04-24 02:15 se2012 阅读(166) 评论(0) 推荐(0) 编辑