基于Python给出的PDF文档转Markdown文档的方法

注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在问题，若有错误，欢迎指出。本次笔记记录于24.1.21。（中途运行时，发现代码中存在bug从而对代码进行了更新，比如md文件的相对路径需要进行URL编码，否则可能会因空格等原因导致无法预览图片。）

一、使用需求

Markdown文档与PDF等文档，个人认为有以下优点，所以本人在某些时候更喜欢使用md文件：1.Markdown文档添加书签更加方便快捷。2.在github/gitee上打开仓库即可直接浏览。3.便于编辑。PDF很难继续编辑，想要添加内容非常麻烦，不如Markdown文档来的直接。

二、使用效果

注：图中PDF是本人去网上随便找的。

三、本次Python代码的思路

代码思路：
- 导入必要的库，包括os、fitz（PyMuPDF）和Image（Pillow）。
- 定义一个函数convert_pdf_to_images，该函数将PDF文档转换为图像列表。它使用PyMuPDF库获取PDF页面的图像数据，然后使用Pillow库创建图像对象，并将这些图像保存到指定目录。
- 定义另一个函数save_images_to_markdown，该函数将图像列表保存到Markdown文件中。它使用用户提供的相对路径，在Markdown文件中插入图像路径。
- 在__main__部分，替换相应的文件路径，并调用上述两个函数完成PDF到Markdown的转换。

四、本次笔记提供的Python代码

"""
1.代码用途：完成PDF文件到Markdown文件的转换
2.代码思路：
- 导入必要的库，包括os、fitz（PyMuPDF）和Image（Pillow）。
- 定义一个函数convert_pdf_to_images，该函数将PDF文档转换为图像列表。它使用PyMuPDF库获取PDF页面的图像数据，然后使用Pillow库创建图像对象，并将这些图像保存到指定目录。
- 定义另一个函数save_images_to_markdown，该函数将图像列表保存到Markdown文件中。它使用用户提供的相对路径，在Markdown文件中插入图像路径。
- 在__main__部分，替换相应的文件路径，并调用上述两个函数完成PDF到Markdown的转换。
3.使用方法：在__main__部分替换相应的文件路径，之后运行程序。
"""

import os  # 用于处理文件和目录路径的模块
import fitz  # PyMuPDF，用于处理PDF文件
from PIL import Image  # Pillow库，用于处理图像
from urllib.parse import quote  # 导入urllib库中的parse模块，用于URL编码

def convert_pdf_to_images(pdf_path, image_output_dir):
    """
    将PDF转换为图像列表。
    Parameters:        pdf_path (str): PDF文件路径。        image_output_dir (str): 图像输出目录。
    Returns:        list: 包含所有页面图像的列表。    """
    images = []  # 存储所有页面的图像
    pdf_document = fitz.open(pdf_path)  # 使用PyMuPDF打开PDF文档

    # 创建图像输出目录，如果目录不存在则创建
    os.makedirs(image_output_dir, exist_ok=True)

    # 遍历PDF的每一页
    for page_number in range(pdf_document.page_count):
        page = pdf_document[page_number]

        # 获取页面图像
        pixmap = page.get_pixmap()

        # 修复参数类型错误，将列表改为元组
        image = Image.frombytes("RGB", (pixmap.width, pixmap.height), pixmap.samples)

        images.append(image)

        # 保存图像到指定目录
        image_path = os.path.join(image_output_dir, f"image_{page_number + 1}.png")
        image.save(image_path)

    return images

def save_images_to_markdown(images, output_md_path, image_relative_path):
    """
    将图像列表保存到Markdown文件中。
    Parameters:        images (list): 包含图像的列表。        output_md_path (str): 输出Markdown文件路径。        image_relative_path (str): 用户自定义的图片相对路径，例如 "images".
    Returns:        None    """
    with open(output_md_path, "w", encoding="utf-8") as md_file:
        # 遍历图像列表
        for index, image in enumerate(images):
            # 用户自定义的图片相对路径
            image_path = os.path.join(image_relative_path, f'image_{index + 1}.png')

            # 将图片路径插入Markdown文件
            md_file.write(f"![Image {index + 1}]({image_path})
")

if __name__ == "__main__":
    # 替换为你的PDF文件路径
    pdf_path = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/1. Python初探.pdf"

    # 图像输出目录
    image_output_dir = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/图片/1. Python初探"

    # 根据”图像输出目录“自定义的图片相对路径  对应于md文档中”“
    image_relative_path = "图片/1. Python初探/"

    # 使用URL编码将空格替换为"%20"
    image_relative_path = quote(image_relative_path)

    # 输出Markdown文件路径
    output_md_path = "D:/Python入门的学习笔记/Python入门/补充-实用Python程序设计/pdf课件/1. Python初探.md"

    # 将PDF转换为图像列表，并保存到指定目录
    images = convert_pdf_to_images(pdf_path, image_output_dir)

    # 将图像列表保存到Markdown文件中，使用用户自定义的图片相对路径
    save_images_to_markdown(images, output_md_path, image_relative_path)