通过使用 Amazon Q Business 提高处理扫描 PDF 的生产力 机器学习博客

使用 Amazon Q Business 提升扫描 PDF 文档处理效率

关键要点

Amazon Q Business 是一款基于生成式 AI 的助理,能够直接从扫描的 PDF 文档中提取信息,无需先提取文本。支持多种文档类型的处理,便于在金融、保险、医疗等行业中获取洞察。通过 AWS 管理控制台和 API,轻松索引和查询文档信息。

Amazon Q Business 是一款支持生成式 AI 功能的助理,能够回答问题、提供摘要、生成内容,并直接从企业数据源中的数字和扫描 PDF 文档中提取见解,无需先提取文本。适用于各个行业的客户如金融、保险、医疗生命科学等需要从各种文档如收据、健康计划或税单中获取信息,这些文档通常以扫描 PDF 格式存在。由于这些文档类型通常以半结构化或非结构化格式存在,因此在进行索引之前需要进行文本提取。

Amazon Q Business 支持扫描 PDF 文档的推出将帮助用户无缝处理各种多模态文档类型,通过 AWS 管理控制台 和 API,在所有支持的 Amazon Q Business AWS 区域内进行操作。您可以通过支持的 连接器 从数据源中获取文档,包括扫描 PDF,将其索引,然后安全而准确地利用这些文档回答问题、提供摘要和生成内容。此功能消除了在 Amazon Q Business 之外提取扫描 PDF 文档文本的开发工作,提高了使用 Amazon Q Business 构建生成式人工智能助手的文档处理流程。

在本文中,我们将展示如何使用 Amazon Q Business 异步索引和实时查询扫描 PDF 文档。

解决方案概述

您可以通过控制台、AWS SDK 或 AWS 命令行界面AWS CLI使用 Amazon Q Business 处理扫描的 PDF 文档。

Amazon Q Business 提供了多种数据连接器,可以与多种企业数据源集成,使您能够在最小配置下开发生成式 AI 解决方案。要了解更多信息,请访问 现在可以使用的 Amazon Q Business,助力提高员工生产力。

应用 Amazon Q Business 后,您可以直接通过控制台或 API 将扫描的 PDF 上传到 Amazon Q Business 索引中。Amazon Q Business 提供多个数据源连接器,并能将数据从多个数据存储同步到一个索引中。在本文中,我们演示了两种使用文档的场景:一种是直接上传文档,另一种是使用 Amazon 简单存储服务 连接器。如果您需要从其他数据源中获取文档,请参阅 支持的连接器 以获取连接附加数据源的详细信息。

文档索引

在本文中,我们以三个扫描 PDF 文档为例:发票、健康计划摘要和就业验证表格,以及一些文本文档。

索引文档的第一步是完成以下步骤,通过 Amazon Q Business 的直接上传功能索引文档。对于本示例,我们上传扫描的 PDF。

打开 Amazon Q Business 控制台,选择导航窗格中的 应用程序 并打开您的应用程序。选择 添加数据源。选择 上传文件。上传扫描的 PDF 文件。

您可以在 数据源 选项卡上监控上传的文件。 上传状态 会从 已接收 更改为 处理中,最后变为 已索引 或 已更新,此时文件已成功索引到 Amazon Q Business 数据存储中。以下截图显示成功索引的 PDF。

以下步骤演示如何使用 Amazon S3 连接器与 Amazon Q Business 集成和同步文档。在本示例中,我们索引文本文档。

打开 Amazon Q Business 控制台,选择导航窗格中的 应用程序 并打开您的应用程序。选择 添加数据源。选择 Amazon S3 作为连接器。输入 名称、VPC 和安全组设置、IAM 角色 和 同步模式的信息。为了完成将数据源连接到 Amazon Q Business ,选择 添加数据源。在连接器详情页面的 数据源详细信息 部分,选择 立即同步,允许 Amazon Q Business 开始从您的数据源同步爬取和获取数据。

当同步作业完成后,您的数据源即已准备好使用。以下截图显示所有五个文档扫描和数字 PDF,以及文本文件已成功索引。

以下截图展示了两种数据源的综合视图:直接上传的文档和通过 Amazon S3 连接器获取的文档。

现在我们使用 Amazon Q Business 在数据源上运行一些查询。

在密集的非结构化扫描 PDF 文档上进行查询

您的文档可能是密集的、非结构化的扫描 PDF 文档。Amazon Q Business 能够识别并提取最重要的信息密集文本。在本示例中,我们使用之前索引的多页健康计划摘要 PDF。以下截图显示了示例页面。

在 Amazon Q Business 的 Web 界面中,我们询问:“健康计划摘要中提到的年度自付费用上限是多少”

Amazon Q Business 会搜索索引文档,检索相关信息,并生成同时引用信息来源的答案。以下截图显示示例输出。

在结构化的表格扫描 PDF 文档上进行查询

文档中可能包含结构化数据元素,以表格格式展示。Amazon Q Business 可以自动识别、提取和线性化扫描 PDF 中的结构化数据,以准确解决用户查询。在以下示例中,我们使用之前索引的发票 PDF。以下截图显示示例。

鲤鱼加速器官方

在 Amazon Q Business 的 Web 界面中,我们询问:“发票中耳机的费用是多少?”

Amazon Q Business 会搜索索引文档,并从发票中提取答案,引用源文档。以下截图显示 Amazon Q Business 成功提取了发票中的账单信息。

在半结构化表单上进行查询

您的文档中可能也包含半结构化数据元素,如键值对。Amazon Q Business 能够准确满足与这些数据元素相关的查询,通过提取特定字段或属性来回答问题。在这个示例中,我们使用 Employment Verification PDF,以下截图展示了示例。

在 Amazon Q Business 的 Web 界面中,我们询问:“就业验证表格中申请人的入职日期是什么?” Amazon Q Business 会搜索索引的就业验证文档,并检索与源文档相关的答案。

使用 AWS CLI 索引文档

在本节中,我们展示如何使用 AWS CLI 将存储在 S3 存储桶中的结构化和非结构化文档引入到 Amazon Q Business 索引中。您可以快速检索有关文档的详细信息,包括它们的状态以及在索引过程中发生的任何错误。如果您是现有 Amazon Q Business 用户并且已索引各种格式的文档如扫描的 PDF 和其他支持的类型,现在想要重新索引扫描的文档,请完成以下步骤:

检查每个文档的状态,以根据状态 DOCUMENTFAILEDTOINDEX 过滤失败的文档。您可以根据此错误消息过滤文档:

errorMessage Document cannot be indexed since it contains no text to index and search on Document must contain some text

如果您是新用户且尚未索引任何文档,可以跳过此步骤。

以下是使用 ListDocuments API 筛选具有特定状态及其错误消息的文档的示例:

bashaws qbusiness listdocuments region ltregiongt applicationid ltapplicationidgt indexid ltindexidgt query documentDetailList[status==DOCUMENTFAILEDTOINDEX]{DocumentIddocumentId ErrorMessageerrorerrorMessage}output json

以下截图显示了 AWS CLI 输出,其中包含带有错误消息的失败文档列表。

现在您可以批量处理文档。Amazon Q Business 支持将一个或多个文档添加到 Amazon Q Business 索引中。

使用 BatchPutDocument API 将存储在 S3 存储桶中的多个扫描文档引入索引:

bashaws qbusiness batchputdocument region ltregiongt documents [{ ids3//ltyourbucketpathgt/ltscannedpdfdocument1gtcontent{s3{bucketltyourbucketgtkeyltscannedpdfdocument1gt}}} { ids3//ltyourbucketpathgt/ltscannedpdfdocument2gtcontent{s3{bucketltyourbucketgtkeyltscannedpdfdocument2gt}}}] applicationid ltapplicationidgt indexid ltindexidgt endpointurl ltapplicationendpointurlgt rolearn ltrolearngt noverifyssl

以下截图显示 AWS CLI 输出,您应看到失败的文档显示为空列表。

通过使用 Amazon Q Business 提高处理扫描 PDF 的生产力 机器学习博客最后,再次使用 ListDocuments API 检查所有文档是否正确索引:

bashaws qbusiness listdocuments region ltregiongt applicationid ltapplicationidgt indexid ltindexidgt endpointurl ltapplicationendpointurlgt noverifyssl

以下截图显示文档在数据源中已成功索引。

清理

如果您创建了新的 Amazon Q Business 应用程序,并且不打算进一步使用,请取消订阅并从应用程序中删除已分配的用户,然后删除该应用程序,以免您的 AWS 账户产生费用。此外,如果您不再需要使用已索引的数据源,请参考 管理 Amazon Q Business 数据源 的说明删除已索引的数据源。

结论

本文演示了 Amazon Q Business 对扫描 PDF 文档类型的支持。我们强调了使用生成式 AI 同步、索引以及查询文档类型现已包括扫描 PDF 文档的步骤。还展示了使用 Amazon Q Business Web UI 和 AWS CLI 进行查询的示例,包括针对结构化、非结构化或半结构化多模态扫描文档的查询。

要了解更多关于此功能的信息,请参考 Amazon Q Business 的支持文档格式。今天就来试试 Amazon Q Business 控制台吧!更多信息,请访问 Amazon Q Business 和 Amazon Q Business 用户指南。您可以向 AWS rePost for Amazon Q 或通过您的常用 AWS 支持联系方式发送反馈。

作者简介

索纳莉萨胡 (Sonali Sahu) 为 AWS 的生成式 AI 专家解决方案架构团队的负责人。她是一位作家、思想领袖和热衷于技术的科技工作者,专注于 AI 和 ML,常常在全球各种 AI 和 ML 会议及聚会上发表演讲。她在技术和科技行业方面具有广泛的经验,行业专长包括医疗保健、金融和保险领域。

金玛耶拉尼 (Chinmayee Rane) 是 AWS 的生成式 AI 专家解决方案架构师,她热衷于应用数学和机器学习。她专注于为 AWS 客户设计智能文档处理和生成 AI 解决方案。工作之外,她喜欢萨尔萨和巴恰塔舞。

希梅什库马尔 (Himesh Kumar) 是一名资深软件工程师,目前在 AWS 的 Amazon Q Business 团队工作。他热衷于构建生成式 AI/ML 领域的分布式系统。他的专业涵盖开发可扩展和高效的系统,确保高可用性、性能和可靠性。除了技术技能外,他还致力于不断学习,始终站在 AI 和机器学习技术进步的最前沿。

领导珉 (Qing Wei) 是 AWS Amazon Q Business 团队的高级软件开发人员,热衷于使用 AWS 技术

  • 2026-01-27 14:57:09
  • 5