双层PDF大作战

  你有多久没好好读过一本实体书了?有没有整天拿着平板电脑和手机过日子?我们越来越贴近电子阅读的时代,手机里的TXT,笔记本上的DOC和HTML,还有iPad和电纸书上的EPUB以及最常用的PDF。在所有这些格式里,PDF有着最接近实体书的阅读体验,但也有实体书一样的问题—在电脑上不能方便地进行编辑。想必大部分同学毕业论文时都检索过不少PDF格式的期刊和论文,每当你想摘录这些珍贵文件的某些段落时,就会发现一般的PDF太不给力了,阅读软件自带的文字识别功能基本不堪大用,之后校对需要花的时间比重新输入一遍也差不了多少,真是让人内流满面。

  有没有什么方法让PDF既保留出色的阅读感,又让它能方便编辑呢?这就是咱们今天要说的双层PDF了。所谓双层PDF自然是指有两层文件的PDF了,其中一层是从普通纸质文件扫描出来的原始图像,也就是咱们看到的那些东西;另一层就有些门道了,这一层在内容上没有变化,但是它支持选择、复制、检索等编辑功能。使用这样的PDF文件时,我们看到的是与纸质书毫无区别的第一层,编辑的是与TXT、DOC等性质相似的第二层。美中不足的是这种阅读与编辑统统完美解决的好东西在国内资源并不丰富,本着一个Geek人吃不饱也要找事儿干的精神,今天咱就来跟大家研究研究一下怎样自己手动制作简易的双层PDF。

  俗语说得好:没有好工具,再好的创意也出不来。制作双层PDF不需要什么锯、刀、斧,只需要有一台能够正常运行的电脑就行。有了硬件,还要准备软件,Office和PDF阅读软件是不能缺少的,另外还要准备一个OCR(光学字符识别)软件。一切都准备妥当后,兄弟们就可以开始挽起袖子大干一场了。

  PartOne:OCR识别

  要制作双层PDF,首先得要有图层。也就是说,不管你是扫描也好,拍摄也好,或者直接在网上下载也好,反正首先要搞到你要做这本书的图片,然后我们才能对图层进行OCR识别。正如陈老师说的,摄影的境界,你们这些玩器材的永远都不懂,方块字的境界,外国佬也永远都不懂。所以我们放弃了臃肿不堪且不符合咱们天朝上邦国情的OCR界大佬ABBYYFineReader,而选择使用汉王PDFOCR和清华紫光OCR软件,这两个土货虽然简陋了些,但胜在够简单易用,特别对于方块字的识别,效果杠杠的。以汉王PDFOCR8.1版本为例,在这儿文字内容选用村上春树老师的《遇见百分之百女孩》。

  Step1

  先声明咱教的这个技术不是电脑基础操作,仅适合对电脑操作熟练的兄弟把玩。切回正题,先在OCR软件中打开扫描书后得到的图片文件,然后选择“识别”菜单内选择“版面分析”命令,软件开始对当前图片进行版面构成分析,也可以按快捷键“F5”;版面分析后就可以在编辑框内看到文章内容被划分区域、并按照阅读顺序排列并编号。如果发现区域切分不对,可拉动框边调整大小,改动编号等方式调整得与原文一致。如果原文的版面确实太复杂,就需要我们进行手动版面分析了。手动版面分析也不复杂,无论左右切分还是混合排版,只要移动光标箭头按照阅读顺序框选图像上的内容即可。遇到竖写文字或者表格和图像,使用“自定义”版面属性就可以解决。

  Step2

  版面分析过后,就要正儿八经地来用OCR提取文字了。选中要识别的图片页,使用“识别”菜单上的“开始识别”命令或者快捷键“F8”对所选图像进行版面识别,稍等片刻后识别出的文字会在上方识别窗口中出现。

  Step3

  即便是最牛哄哄的OCR软件也不能保证百分之百的识别正确率,这时候就要对识别出的内容进行校对了。识别窗口同时也是一个文字编辑区,可以对照下方的原始文档对其进行“剪切”“复制”“粘贴”以及文字修改增减等等各种常见的文字编辑。在这大家就要做一次文字校对,对着正文内容好好地找找茬吧!

  Step4

  校对完成后的图像文件可以保存成Word、WPS等软件直接处理的RTF文件(富文本格式),也可以保存成TXT、HTML以及XLS等几种常用文档格式。在此建议各位,保存一份RTF作为接来双层PDF制作用,另保存一份TXT文件备用。

  PartTwo:双层合体

  OCR识别结束后,只要将图像层和文字层合体就能生成双层PDF了。包括AdobeInDesign在内的很多制作PDF的软件都能够实现这个步骤。本着安装最少软件的“简单”的原则,在这里隆重向大家推荐使用Word实现图像层与文字层合体的方法。

  Step1

  将OCR扫描出来的图片的文件保存为TIF图片格式,只需要在“汉王PDFOCR”软件中选择“换名保存图像”就可以将扫描文件保存为TIF图片格式。怎么样,这个双层PDF制作用到的软件真的很省吧,很多操作都可以在一个软件中完成。

  Step2

  新建一个Word文档,把OCR软件识别出的文字内容复制到到其中。建议采用前面保存的RTF格式中的文字最佳,细心的童鞋还可以再次校对一下。

  Step3

  将TIF图片插入到文档,选择“设置图片格式”对话框的“版式”页面,文字环绕选择为“衬于文字下方”。OK,一层图片一层文字,双层PDF的雏形这就出现了。

  Step4

  下面就到了需要非常非常有耐心的处理,调整Word文件内文字的排版和图片大小,让文字和图片重合一致。如果你对Word文档操作相当熟练,那么这一步就不会显得太难。

  Step5

  保存文件,并将文件格式转换为PDF。如果你的Word没有直接另存为PDF的功能,建议安装AdobeAcrobatProfessional插件。有了它不光可以制作双层PDF,今后你手中不必编辑但需要长期存留的Word文档都可以用PDF的格式好好地保存起来,那是相当实用。

  经过这两大部分的制作步骤,双层PDF的制作就算大功告成了。赶紧共享到各种QQ群显摆显摆吧,这可不是人人都会的技能。当然,本文所介绍的只是最简单的双层PDF制作法,使用人脑多过使用电脑、而且只能逐页制作……网上有不少公司在宣传自己能够批量生成双层PDF文件的软件,但是你要付出Money。不过人民的力量是无穷的,相信民间高手早已经有了无需Money的解决方法,记得投稿跟大家分享哦!
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: