简易PDF电子书书签制作

    技术2024-07-28  65

    PDF书签制作

    平时经常使用pdf格式的工具书,一本想看的书可以找到已经是万幸,并不奢求它还能自带书签,但是至少动辄2,3百页的电子书没有书签属实吃不消,今天突发奇想是不是可以自己制作书签呢?答案确实是可以。本篇文章将介绍我看了一些文章之后总结下来的一套流程,包括,非扫描版和扫描版的流程。很感谢这些文章的作者,他们让我能看上有书签的电子书

    使用工具

    必要:

    PDFPatcherPdgCntEditor

    辅助:

    WordExcleAdobe Acrobat

    PS:辅助的意思是这些工具可以用其他同类型的代替,比如使用Acrobat只是使用它的OCR功能,你也可以用其他的OCR工具代替。

    非扫描版pdf书签制作----流程

    非扫描版一般是体积很小的pdf文件,里面的文字都是可以直接编辑的。这种处理起来非常省事,但是很难遇见。非扫描版的pdf电子书只需要用到PDFPatcher,它自动生成书签,直接搞定

    打开PDFPatcher 点击自带生成书签

    pdf信息文件哪里,随便新建一个txt文件给它放上去就行了。成功之后会生成一个和这个txt文件名字一样的XML文件 返回开始页面,点击修改pdf文件 打开后,将刚才的XML文件拖到下方列表内 拖入后 点击旁边保存,书签就做好了

    可以看到自动生成的书签标题有重复,乱七八糟的,有时候会出现这种情况。可以用浏览器打开刚才的XML文件,在里面将书签标题修改一下。

    扫描版pdf----流程

    扫描版是最经常碰见的情况,扫描版不能直接编辑,读不到文本信息,所以自动生成书签自然是不行的。

    制作扫描版pdf书签的主要是需要自己制作目录,然后把目录导入PDFPatcher中向上述那样完成书签制作

    我会以《数据结构》这本书为例进行介绍

    1 目录制作

    方法1

    在实体书电商网站上找到该本书,在下面的介绍页中一般都有这本书的目录,复制下来。下面是我经常用的网站。

    京东当当淘宝 在下面介绍找 这本书京东的目录全,所以就用京东了

    复制下来粘贴到Excel 现在要制作对应页号 可以使用

    手打大法(页数不多还是很快的)OCR书目录的页号(不建议整页ocr扫描,不容易将里面的页号复制,建议只截取只有页号的那一列然后再ocr)

    这里需要注意!!!

    pdf书中在内容之前会有封面,前言等页,这些是不算进目录中指的页中的,但是我们制作书签需要考虑全部的页数 例如 这里目录是第1页,但是确实pdf的第9页,我们制作书签的索引是按这个第9页为依据的,所以在写进Excel之前需要将目录里面的页号都加一个偏移量8

    结果 可以看到到第一页现在变为了9 这样目录就做完了,现在已经成功90%了!!!

    方法2

    如果在网站上都没有找到书的目录,那就自己OCR制作吧

    使用Acrobat

    将书中目录那几页导出成word在word中修饰最后还是像方法1那样制作到Excel中(在Excel里面在复制格式比较干净)

    这是word提取出来的,乍一看效果不错,但好多杂质,这还是Acrobat转换的,但Acrobat是我目前用过效果最好的了,毕竟pdf标准就是Adobe指定的。

    这两种方法各选其一就行了,千万别忘了最后要加一个偏移量

    2 将目录制作成书签

    复制上一步得到的Excel表中内容 只选中有信息的两列复制 将其粘贴到PdgCntEditor

    PdgCntEditor,主要作用是把目录的格式更加规范,它可以识别前面的标题号让目录变得有层级关系。

    全选,然后点击 选定区域自动缩进 点击后 现在已经有层级关系了 然后还需要全选中,点击自带切分页码 这样在PdgCntEditor中的处理就做完了,接下来需要将其全部选择复制到PDFPatcher中 复制之后将需要制作书签pdf导入 点击隔壁保存,完成

    最后成果

    有着很帮的还有层级的书签

    Processed: 0.011, SQL: 9