Linux下从PDF文件中提取图片

1. pdfimages

PDF 其实本质上是一个文件包,比如某些 PDF 文件中有插图,这些插图都包含在这个 PDF 文件包中。Linux 下可以使用 pdfimages 命令来从 PDF 文件中提取图片文件。如果你的 Linux 发行版上没有该命令,需要安装 poppler-utils 软件。pdfimages 命令的语法格式如下:

1
pdfimages -f <sn> -l <en> -png <PDF-sourcefile> <prefix>        # 指定范围页面从 PDF 文件中提取图片并输出为 png 格式

其中 <sn> 为起始页号,<en> 为终止页号,-png 指定输出图片格式,<PDF-sourcefile> 为指定的输入文件名,<prefix> 为输出文件名前缀,输出的所有图片文件名为该前缀加上数字序列号组成。