必要:
PDFPatcherPdgCntEditor辅助:
WordExcleAdobe AcrobatPS:辅助的意思是这些工具可以用其他同类型的代替,比如使用Acrobat只是使用它的OCR功能,你也可以用其他的OCR工具代替。
打开PDFPatcher 点击自带生成书签
pdf信息文件哪里,随便新建一个txt文件给它放上去就行了。成功之后会生成一个和这个txt文件名字一样的XML文件 返回开始页面,点击修改pdf文件 打开后,将刚才的XML文件拖到下方列表内 拖入后 点击旁边保存,书签就做好了
可以看到自动生成的书签标题有重复,乱七八糟的,有时候会出现这种情况。可以用浏览器打开刚才的XML文件,在里面将书签标题修改一下。扫描版是最经常碰见的情况,扫描版不能直接编辑,读不到文本信息,所以自动生成书签自然是不行的。
制作扫描版pdf书签的主要是需要自己制作目录,然后把目录导入PDFPatcher中向上述那样完成书签制作
我会以《数据结构》这本书为例进行介绍
在实体书电商网站上找到该本书,在下面的介绍页中一般都有这本书的目录,复制下来。下面是我经常用的网站。
京东当当淘宝 在下面介绍找 这本书京东的目录全,所以就用京东了复制下来粘贴到Excel 现在要制作对应页号 可以使用
手打大法(页数不多还是很快的)OCR书目录的页号(不建议整页ocr扫描,不容易将里面的页号复制,建议只截取只有页号的那一列然后再ocr)pdf书中在内容之前会有封面,前言等页,这些是不算进目录中指的页中的,但是我们制作书签需要考虑全部的页数 例如 这里目录是第1页,但是确实pdf的第9页,我们制作书签的索引是按这个第9页为依据的,所以在写进Excel之前需要将目录里面的页号都加一个偏移量8
结果 可以看到到第一页现在变为了9 这样目录就做完了,现在已经成功90%了!!!
如果在网站上都没有找到书的目录,那就自己OCR制作吧
使用Acrobat
将书中目录那几页导出成word在word中修饰最后还是像方法1那样制作到Excel中(在Excel里面在复制格式比较干净)这是word提取出来的,乍一看效果不错,但好多杂质,这还是Acrobat转换的,但Acrobat是我目前用过效果最好的了,毕竟pdf标准就是Adobe指定的。
这两种方法各选其一就行了,千万别忘了最后要加一个偏移量
复制上一步得到的Excel表中内容 只选中有信息的两列复制 将其粘贴到PdgCntEditor
PdgCntEditor,主要作用是把目录的格式更加规范,它可以识别前面的标题号让目录变得有层级关系。
全选,然后点击 选定区域自动缩进 点击后 现在已经有层级关系了 然后还需要全选中,点击自带切分页码 这样在PdgCntEditor中的处理就做完了,接下来需要将其全部选择复制到PDFPatcher中 复制之后将需要制作书签pdf导入 点击隔壁保存,完成
有着很帮的还有层级的书签