一、缘起

一直关心网上一个名叫DIY Book Scanner的项目。这个项目由Daniel Reetz组织,项目的网址是http://diybookscanner.org/。这个项目的参与者中有不少设计师,程序员和各种业余爱好者,实际上是一个技术宅的社区,目的是为了能够设计出一份可以DIY的扫书机制作方案。或者说,就是希望做出一份设计,靠木材切割和拼装做出一个能够扫描图书的机器。我没有考证,光凭不靠谱的记忆记得这个项目大约在2007年左右开始,到2010-2011年左右进入一个发展高峰,人员纷纷参与,项目开始成型。慢慢的一切从无到有,无数份CAD设计稿和修改以后,终于在今年上半年达成了0.9 beta版,按照技术宅的标准,0.9 beta版就是完全可用但是需要自己解决各种小问题的正式版。毕竟技术宅对于最后完善项目,解决不同用户在不同情况下可能遇到的问题以及制作指导手册往往兴趣缺缺。不过当时0.9 beta版还是电子设计稿,需要导入到数控雕刻机上把木材切割成型再手动拼装。我也没有这么专业的工具,即使有,也没有相应的技能。于是再等了大约3-4个月,等到Daniel Reetz亲自出手售卖切割完毕的木材和完整的一套配件以后,算是终于可以下手了。

上个月某日,一个40磅的大包裹从加州寄到。正式开工。

二、主要原理、拼装流程和使用流程

扫书机主要原理说穿了很简单,就是下部一个V型的底盘和上部一个V型的玻璃,用铰链结构把放在底盘上摊开的书本向上推到玻璃上,让书页压平,然后通过两侧的相机透过玻璃拍下书页,最后把底盘归位,翻页,依此循环。全部书页拍摄完成以后用一些程序处理书页,最后生成电子书。

这台扫书机的特点大致有二:

1、无需破坏书籍,因为直接对书页拍摄,因此无需切割书脊也能够完整电子化书页内容。

2、扫描便携迅速。单纯拍摄的速度可以达到一小时1000页,就算我边聊天边扫描,一个小时400-500页也毫无问题,同时,通过后期处理以后,生成的电子书阅读体验佳,接近纸质书籍阅读体验。

下面两个章节将简单介绍具体的使用流程。考虑到我的读者们大多不是技术宅,我也不多涉及细节的技术内容,所谓之介绍,主要是展示。最末尾有我用这个扫书机制作的第一本电子书。对介绍没有兴趣的读者也可直接拉到末尾下载。

拼装的流程,说起来也很简单,大致而言就是三步

1、打钉,把需要通过钉子接合的木板钻孔,打钉。

2、拼接,把能通过榫卯结构拼接的木板用榔头敲实。

3、重新拆下拼装好的机器,把无需贴合的部分漆上黑色的油漆提高拍摄效果。

说简单,但是具体的实施却非常辛苦。因为是0.9 beta版,于是总有大大小小的问题,比方说设计稿中提供的钉子不合用,太长或者太短。已经预先钻好的孔对不齐,或者切割时候有数个毫米的误差导致不同的配件无法通过榫卯拼接在一起等等。在经历了无数返工,疯狂地用锉刀和砂纸修复切割失误的部分等等折腾以后,好不容易把整个机器拼装完毕。

图一是拼装完毕的扫书机(按照惯例,所有图片均可点击查看大图):

图二是重新拆开并且上漆的部件:

图三是最后拼装上漆完毕的扫书机成品

 

软件的使用流程说起来一样很容易,大致的步骤也是三步:

1、从照片中提取文本。

2、处理文本内容,优化效果。

3、识别文本内容,生成PDF。

但是实际遇到的问题非常多,归根结底可以说到一个缘故,就是扫描生成的书页文件数量非常巨大,不可能手动处理,但是目前的开源程序又不能够依赖。不能够一来的原因如上所述:这些开源程序大多数是各类技术宅业余时间完成,往往满足了自己的使用需求以后就没有测试各种情况下可能出现错误或者完善使用手册的动力。于是这样的软件也只能供有一定编程基础的技术宅使用。

具体的来说,特别棘手的有以下两个内容:

1、图片扭曲。因为镜头畸变的缘故,所以图片往往会有一些扭曲。同时,因为装帧的缘故 — 常常是平装版,软皮外壳,用的似乎都是无法摊平的胶订或者平订,加上纸张极薄的书页,所以经常出现页面歪斜或者页面鼓起不能完全用玻璃压平。上面种种问题导致需要后期用软件来矫正并且试着生成平坦,方正的图片。

2、非本文内容。因为照片不可能保证视野里完全都是书页,因此需要去除背景里非书页的内容,并且保留全部的文本内容。

所以最后我选定了用四款软件进行后期处理:

1、Book Scan Wizard

Book Scan Wizard的特点主要有两个。首先,Book Scan Wizard可以打印一张参考样纸。我可以在拍摄书页的时候不定期插入样纸一同拍摄。事后Book Scan Wizard可以用样纸来校对页面歪斜等情况。其次,Book Scan Wizarrd有丰富的参数自定义功能,可以定义比方说从第几页到第几页用某种方式修正,是十分好的初步处理工具。

下面是软件页面截图:

 

下面是处理前和处理后的样图。

处理前:

处理后:

2、Scan Tailor

Scan Tailor和Book Scan Wizard相比更加智能,也更加不智能。Scan Tailor没有那么多的参数选择,手动处理也十分直接,拖选一下选项框等即可完成,不像Book Scan Wizard,无论是自动还是手动处理都要输入或者手选参数。从这个角度说,Scan Tailor更加智能。但是也因为更加智能,所以无法处理各种各样的复杂的例外的,情况,只能经由Book Scan Wizard处理成大体一致的图片以后再送交Scan Tailor批量深加工。接下来使用Scan Tailor丰富的自动化功能继续纠正畸变、倾斜和页面鼓起,并且智能选取图片中的文字部分。

下面是程序截图:

以及同一张图片修正后的效果:

3、GIMP+Bitonal Converter

完成了所有图片修正以后,还需要清理图片,把灰度的,隐隐约约还能看到背面的图片清理成黑白两色,尽可能让所有非文字部分都变成白色而让所有文字部分都变成黑色。这一点在技术上非常难,特别是考虑到拍摄的环境和书页的质量都常有区别。Scan Tailor 提供了这一功能,但是太过智能,手动选择又极少,有时候并不好用。幸好有人写了一个脚本,自动调用图片编辑软件GIMP(一个开源的,免费的Photoshop的替代品,当然没有Photoshop好用或者功能丰富,不过凑合能用)的各个滤镜,让使用者在调试到合适的参数以后,批量处理一整个文件夹下的全部图片。

下面是程序截图:

以及同一张图片清理后的效果:

和Scan Tailor自带的功能相比,Bitonal Converter多了许多选项,但是因为是使用脚本调用GIMP的功能,所以速度也慢了许多。作为对比,下文附上Scan Tailor自带处理功能的效果:

4、Adobe Acrobat

在上述所有工作都完成以后,终于可以进行文字识别了。在经过很漫长的一番比较以后,我在各类文字识别程序之中选择了Acrobat,主要是因为Acrobat的ClearScan功能。具体的技术细节在此不加描述,可以参考这个网页:http://blogs.adobe.com/acrolaw/2009/05/better_pdf_ocr_clearscan_is_smal/。简单地说,就是Clearscan能够提供更加优化美观的阅读效果,同时大幅度降低文件大小。

下面是最终处理好的图片效果:

因为图片上传略有压缩,有兴趣查看完整样张的读者可点击链接下载样张:

Sample

三、成本和时间

下面介绍一下成本。因为这是一个技术宅专用的DIY项目,因此成本差距很大。对于有工具有技能的技术宅来说,成本低得吓人。而对于我这种业余技术宅,常常要依赖别人的成品,最多不过有能力自己修修补补,那么开销也就不小。下面首先给出最高成本,也就是我几乎全部购买成品自己拼装的价格。然后给出最低成本,是项目论坛上各DIY爱好者汇报的开销,我并没有相应的技能,也不可能进行验证。

最高成本:

1、切割完毕的木板及相关配件:500美金加运费
运送到西海岸的运费是45美金,运送到东海岸的运费是70美金,运送到欧盟地区的运费是120美金,以运送到我位于东海岸的小公寓为准,费用共计570美金。

2、相机:60美金
我在eBay用30美金左右的价格拍到了两台二手Canon Powershot A2200相机。有趣的是,送来的相机完全是全新的,连同保修卡也一同附赠,不过保修卡是加拿大的,或许就是这个缘故。

3、相机触发器:25美金
因为不可能每次都按快门,因此用一个触发器,连接到两个相机的USB接口上,一按就两侧同时拍摄。

4、玻璃:10美金

总价:665美金

最低成本:

1、手动切割:50美金
有DIY爱好者汇报,完全使用锯子和锉刀等工具也一样能够完成任务。人力机会成本以外的成本共计50美金。

2、相机:0美金
使用自有相机。

3、相机触发器:5-10美金
可以利用电子元件和线材自己制作,成本约为5-10美金。

4、有机玻璃:0美金。

使用便宜的有机玻璃,加上需要的面积十分小,价格几乎接近于零。

总价:55-60美金

和物料成本相比,时间成本必然是成本中的大头。如果一切使用成品,安装时间大概在10小时左右。如果一切从头开始,自己动手,根据DIY爱好者的汇报,大约是30小时左右。安装完成以后处理书籍也十分耗费时间。这个周末我第一次制作电子书,将近300页,总共花费4个小时。不少时间浪费在了处理各类软件大大小小的问题,以及效果调优上。未来慢慢熟练或许能够节约不少时间。当然,后期的校对,优化,美化是时间的无底洞,要求越高,时间越长。如果要求不那么高,大约按照上述的4个小时也能够生成一份好用的电子图书。

四、总结和样例

经历了上面一整套流程以后,终于算是制作完成了一册电子书。我这次选择的是一册平装版的英文写作书,名字叫做Style: The Art of Writing Well。介绍和下载附在文末。先总结一下最后结果:

1、效果:正文扫描清晰,识别程度亦高。脚注勉强可读,但识别程度很低。脚注的问题大约有两个因素,一是我的过时相机的分辨率低下,二是后期处理还不够到位,还有再调优的空间。但是整体而言,效果已经十分接近Google Books,好吧,或许没有那么接近,但是还是十分可读的。

2、页面排版:使用了无数矫正、排版的选项。最后排版大致美观,但是依然有遗憾。因本书装订的缘故,书页极难摊平,因此最后仍有不少书页有扭曲的迹象,幸好不影响阅读。

3、大小:将近300页的图书,最后大小为6M,十分满意。

之所以选择扫描上述的写作书,主要是因为前些日子看到一篇书评,赞扬这本书充满着灵气和艺术性,而非单纯古板的教条主义,是真正靠谱的写作教材,而不是语法教材或者干脆是劣质的条条框框,于是订购了一本。这则书评的原文地址如下:

http://www.newenglishreview.org/custpage.cfm/frm/117345/sec_id/117345

景页老师的翻译如下:

http://www.douban.com/note/226152063/

因为这本书既不出售电子版,也无人制作电子版,于是干脆自己动手。而且不知道为何,最近几年来养成了怪癖,总不舍得往干净的书页上写写画画。制作成电子版以后便于在iPad上做批注,算是满足了自己这场怪癖吧!

最后的最后,是下载地址。分别是海外和国内的网盘连接:

海外: https://rapidshare.com/files/2499465604/style.pdf

国内: http://kuai.xunlei.com/d/QKESALCQYGST

希望大家喜欢!

 

By http://www.r-d-x.org/archives/1932.html

Posted on 2012-09-10 15:50  定宇逻辑  阅读(1297)  评论(0编辑  收藏  举报