文档工具
转换、处理并创建文档 — Word、Excel、PDF、PowerPoint、图像等
xiantong 提供内置工具用于处理常见文档格式。可以在对话中完成格式转换、提取文本、合并文件、创建报告以及处理图像等操作。
速查表#
| 工具 | 功能 | 格式 |
|---|---|---|
| markitdown | 将任意文档转换为 Markdown | .docx, .xlsx, .pptx, .pdf, .html, .ipynb 等 |
| pdf-tool | 提取文本、合并、拆分、获取信息 | |
| xlsx-tool | 读取、写入、导出电子表格 | .xlsx, .csv |
| docx-tool | 创建和编辑 Word 文档 | .docx |
| pptx-tool | 阅读和检查演示文稿 | .pptx |
| img-tool | 调整大小、转换、获取元数据 | .png, .jpg, .webp, .gif, .svg |
| doc-diff | 比较两个文档 | 任意两个文件 |
| ical-tool | 读取并解析日历文件 | .ics |
常见任务#
将文档转换为文本#
最常见的操作 — 从任意文档提取可读文本:
“阅读此 Word 文档并总结”
“这个 Excel 文件里有什么?”
“从这个 PDF 中提取文本”
Agent 使用 markitdown 作为通用转换器。它可以处理 Word 文档、Excel 电子表格、PowerPoint 演示文稿、PDF、HTML 文件和 Jupyter 笔记本 —— 将它们全部转换为可读的 Markdown。
处理 PDF#
“将这三个 PDF 合并成一个”
“从这份报告中提取第 5-10 页”
“这个 PDF 有多少页?”
pdf-tool 可以提取文本、合并多个 PDF、拆分页面,并获取文件信息(页数、元数据、文件大小)。
处理电子表格#
“读取这个 Excel 文件中的 Sales 表”
“将这些数据导出到一个新的 Excel 文件”
“将这个 CSV 转换成 Excel”
xlsx-tool 可读取和写入 Excel 文件,支持多个工作表,并可以将数据导出为 CSV。
创建 Word 文档#
“根据这份会议总结创建一个 Word 文档”
“将这段 Markdown 变成 .docx 文件”
docx-tool 可根据文本或 Markdown 内容创建 Word 文档,支持标题、章节和基本格式。
处理图像#
“将这张图像调整为宽度 800px”
“将这个 PNG 转换成 JPEG”
“这张图像的尺寸是多少?”
img-tool 可处理常见图像格式的调整大小、格式转换和元数据提取。
比较文档#
“这两个版本的合同有什么变化?”
“比较旧版和新版的规范文档”
doc-diff 工具比较两个文档并显示差异 —— 适用于审阅修订、合同变更或规范更新。
解析日历文件#
“这个 .ics 文件中有哪些事件?”
“读取我导出的日历”
ical-tool 解析 .ics 日历文件并提取事件详情(标题、日期、时间、地点、与会者)。
所有文档工具都支持 --help 获取详细用法。如果你想了解某个工具的功能,只需问:“pdf-tool 可以做什么?”
如果 Agent 无法直接读取文件怎么办?
如果 Agent 遇到无法原生读取的二进制文件(如 .docx 或 .pptx),它会自动回退到 markitdown,将文档转换为可读文本。你无需做任何操作 —— 只需让 Agent 读取该文件。
创建的文件会保存到哪里?
当 Agent 创建或转换文档时,输出文件会保存在当前工作目录(或你指定的路径)。创建完成后,Agent 会告诉你准确的文件路径。
可以串联操作吗?
当然可以。你可以请求多步骤工作流程,例如“阅读这个 PDF,提取财务数据,然后创建一个仅包含季度收入数字的 Excel 电子表格。”Agent 会依次使用多个工具完成。