前言
本文提供了两种方法:
第一种是先将飞书文档导出为pdf,随后利用开源的AI识别工具转成markdown格式,该方法有一定的错误率,并且需要一定的算力资源;
第二种是利用开源的飞书导出工具,企业用户需要有一定的权限,可以将文档迁移到个人版后导出,需要注意权限问题。
mineru教程(pdf2md)
将PDF转化为机器可读格式的工具(如markdown、json)的一个开源项目,仅需3行命令即可快速将pdf转成markdown文件。
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
mineru -p <input_path> -o <output_path>
飞书文档一键导出工具
主要基于上述的开源库
-
下载软件,下载地址:(Releases)feishu-doc-export
-
进入飞书开发者后台,创建企业自建应用,信息随意填写。进入应用的后台管理页
-
(重要)打开权限管理,开通需要的权限:云文档>开通以下权限(注意有分页)
-
查看新版文档
-
查看、评论和下载云空间中所有文件
-
查看、评论和导出文档
-
查看、评论、编辑和管理云空间中所有文件
-
查看、评论、编辑和管理多维表格
-
查看、编辑和管理知识库
-
查看、评论、编辑和管理电子表格
-
导出云文档
-
-
打开添加应用能力,添加机器人
-
版本管理与发布中创建一个版本,并申请发布上线
-
等待企业管理员审核通过
-
如果只是为了测试,可以选择测试企业和人员,创建测试企业,绑定应用,切换至测试版本
- 进入测试企业创建知识库和文档
-
-
为机器人添加知识库的访问权限,具体步骤如下:
-
在飞书桌面客户端中创建一个新的群组或直接使用已有的群组
-
为群组添加群机器人,选择上面步骤中自己创建的应用作为群机器人
-
打开知识库,如果你是知识库管理员,则可以看见知识空间设置。打开知识空间设置>成员管理>添加管理员,选择刚刚建立的群组
-
-
回到开发者平台,打开凭证与基础信息,获取
App ID和App Secret
具体使用方法
# 指定知识库导出
./feishu-doc-export.exe --appId=111111 --appSecret=2222222 --spaceId=333333 --exportPath=E:\temp\test
# 不指定知识库导出
./feishu-doc-export.exe --appId=111111 --appSecret=222222 --exportPath=E:\temp\test
# win 不指定知识库 将文档保存为markdown文档
./feishu-doc-export.exe --appId=xxx --appSecret=xxx --saveType=md --exportPath=E:\temp\test
# win 导出个人空间文档 将文档保存为markdown文档
./feishu-doc-export.exe --appId=xxx --appSecret=xxx --saveType=md --exportPath=E:\temp\test --type=cloudDoc --folderToken=xxx