使用 OCR 和 GPT-4o-mini 的自动化发票数据提取-白泽

适用人群

财务部门： 寻求减少手工录入进来的发票数据。 簿记员和会计师： 需要自动摄取供应商账单和收据。 n8n 用户： 希望在 n8n 工作流中集成外部 API（OCR）和复杂 LangChain AI 智能体的进阶示例。 自动化专家： 希望部署强大的、自托管的 n8n 模板来进行文档分析。

概览

手工处理发票既耗时又容易出错。这个专业的 n8n 工作流通过创建完全自动化的文档分析流程管道来解决这个问题。当有新发票放入被监控的谷歌云端硬盘文件夹时，此 n8n 触发器会立即启动流程。文件被安全下载、转换，然后发送给强大的外部 OCR API（Mistral）进行文本提取。

至关重要的是，这种 n8n 节点组合能够无缝处理多页文档，并汇总（聚合）生成的所有 Markdown 文本。最后，由 GPT-4o-mini 驱动的精密 AI 智能体会分析完整的文档文本，并根据预定义的数据结构生成干净、结构化的 JSON 数据，使数据即时准备好导入 ERP 系统或数据库。这个简化的 n8n 工作流是智能自动化的完美范例。

工作原理

这个全面的 n8n 工作流在几个不同的阶段运行：

AI 结构化： 汇总后的文本被传递给 AI 智能体 n8n 节点（结构化发票数据）。该智能体使用集成的 AI 引擎（GPT-4o-mini）和 JSON 解析器来分析原始文本，理解其作为发票的上下文，并提取关键字段（如供应商、日期、总金额、行项目）到一个严格格式化的 JSON 输出中。这完成了此 n8n 工作流执行的复杂数据提取任务。

启动： 流程始于谷歌云端硬盘触发器节点，它充当 n8n 触发器，持续监控特定文件夹中的新发票文件。

文件获取： 检测到文件后，谷歌云端硬盘节点会下载实际的文档。

OCR 准备工作： 工作流使用文件转换节点将原始发票文件内容转换为 Base64 编码字符串，这是外部 OCR API 所需的格式。

OCR 处理： 标记为“Mistral OCR API: 提取文本”的 HTTP 请求节点将 Base64 内容发送到指定的 Mistral 终端。该节点负责执行光学字符识别，通常以结构化的 Markdown 格式返回文档文本。

多页处理： 如果 OCR 响应包含多页数据，数据拆分器节点会将响应拆分为对应发票每页的独立项。随后的字段提取器 n8n 节点会从每一页中分离出核心文本/Markdown。

文本汇总： 数据聚合器节点随后高效地将从所有页面提取的文本合并成一个单一的、连贯的文本项。

文章版权归作者所有，未经允许请勿转载。

THE END