飞书文档导出本地markdown

前言

本文提供了两种方法:
第一种是先将飞书文档导出为pdf,随后利用开源的AI识别工具转成markdown格式,该方法有一定的错误率,并且需要一定的算力资源;
第二种是利用开源的飞书导出工具,企业用户需要有一定的权限,可以将文档迁移到个人版后导出,需要注意权限问题。

mineru教程(pdf2md)

将PDF转化为机器可读格式的工具(如markdown、json)的一个开源项目,仅需3行命令即可快速将pdf转成markdown文件。

pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 
mineru -p <input_path> -o <output_path>

飞书文档一键导出工具

主要基于上述的开源库

  • 下载软件,下载地址:(Releases)feishu-doc-export

  • 进入飞书开发者后台,创建企业自建应用,信息随意填写。进入应用的后台管理页

  • (重要)打开权限管理,开通需要的权限:云文档>开通以下权限(注意有分页)

    • 查看新版文档

    • 查看、评论和下载云空间中所有文件

    • 查看、评论和导出文档

    • 查看、评论、编辑和管理云空间中所有文件

    • 查看、评论、编辑和管理多维表格

    • 查看、编辑和管理知识库

    • 查看、评论、编辑和管理电子表格

    • 导出云文档

  • 打开添加应用能力,添加机器人

  • 版本管理与发布中创建一个版本,并申请发布上线

    • 等待企业管理员审核通过

    • 如果只是为了测试,可以选择测试企业和人员,创建测试企业,绑定应用,切换至测试版本

      • 进入测试企业创建知识库和文档
  • 为机器人添加知识库的访问权限,具体步骤如下:

    • 在飞书桌面客户端中创建一个新的群组或直接使用已有的群组

    • 为群组添加群机器人,选择上面步骤中自己创建的应用作为群机器人

    • 打开知识库,如果你是知识库管理员,则可以看见知识空间设置。打开知识空间设置>成员管理>添加管理员,选择刚刚建立的群组

  • 回到开发者平台,打开凭证与基础信息,获取 App IDApp Secret

具体使用方法

# 指定知识库导出
./feishu-doc-export.exe --appId=111111 --appSecret=2222222  --spaceId=333333 --exportPath=E:\temp\test
# 不指定知识库导出
./feishu-doc-export.exe --appId=111111 --appSecret=222222 --exportPath=E:\temp\test
# win 不指定知识库 将文档保存为markdown文档
./feishu-doc-export.exe --appId=xxx --appSecret=xxx --saveType=md --exportPath=E:\temp\test
# win 导出个人空间文档 将文档保存为markdown文档
./feishu-doc-export.exe --appId=xxx --appSecret=xxx --saveType=md --exportPath=E:\temp\test --type=cloudDoc --folderToken=xxx