Amazon Q Negocios es un asistente generativo impulsado por inteligencia artificial que puede responder preguntas, proporcionar resúmenes, generar contenido y extraer información directamente del contenido en documentos PDF digitales y escaneados en sus fuentes de datos empresariales sin necesidad de extraer el texto primero.

Los clientes de sectores como finanzas, seguros, atención médica, ciencias biológicas y más necesitan obtener información de varios tipos de documentos, como recibos, planes de atención médica o declaraciones de impuestos, que con frecuencia se encuentran en formato PDF escaneado. Estos tipos de documentos suelen tener un formato semiestructurado o no estructurado, que requiere procesamiento para extraer el texto antes de indexarlo con Amazon Q Business.

El lanzamiento de la compatibilidad con documentos PDF escaneados con Amazon Q Business puede ayudarlo a procesar sin problemas una variedad de tipos de documentos multimodales a través de Consola de administración de AWS y API, en todas las regiones de AWS compatibles con Amazon Q Business. Puede ingerir documentos, incluidos archivos PDF escaneados, desde sus fuentes de datos mediante Conectoresindexarlos y luego utilizarlos para responder preguntas, proporcionar resúmenes y generar contenido de forma segura y precisa desde los sistemas de su empresa. Esta función elimina el esfuerzo de desarrollo necesario para extraer texto de documentos PDF escaneados fuera de Amazon Q Business y mejora el proceso de procesamiento de documentos para crear su asistente de inteligencia artificial (IA) generativa con Amazon Q Business.

En esta publicación, mostramos cómo indexar de forma asincrónica y ejecutar consultas en tiempo real con documentos PDF escaneados utilizando Amazon Q Business.

Descripción general de la solución

Puede utilizar Amazon Q Business para documentos PDF escaneados desde la consola, SDK de AWSo Interfaz de línea de comandos de AWS (Interfaz de línea de comandos de AWS).

Amazon Q Business ofrece un conjunto versátil de conectores de datos que pueden integrarse con una amplia gama de fuentes de datos empresariales, lo que le permite desarrollar soluciones de IA generativa con una configuración mínima. Para obtener más información, visite Amazon Q Business, ahora disponible de forma generalizada, ayuda a aumentar la productividad de la fuerza laboral con IA generativa.

Una vez que su aplicación Amazon Q Business esté lista para usar, puede cargar directamente los archivos PDF escaneados en un índice de Amazon Q Business mediante la consola o las API. Amazon Q Business ofrece múltiples conectores de fuentes de datos que pueden integrar y sincronizar datos de múltiples repositorios de datos en un solo índice. Para esta publicación, demostramos dos escenarios para usar documentos: uno con la opción de carga directa de documentos y otro con la opción de carga de documentos de Amazon Q Business. Servicio de almacenamiento simple de Amazon Conector (Amazon S3). Si necesita ingerir documentos de otras fuentes de datos, consulte Conectores compatibles para obtener detalles sobre cómo conectar fuentes de datos adicionales.

Indexar los documentos

En esta publicación, utilizamos tres documentos PDF escaneados como ejemplos: una factura, un resumen del plan de salud y un formulario de verificación de empleo, junto con algunos documentos de texto.

El primer paso es indexar estos documentos. Complete los siguientes pasos para indexar documentos mediante la función de carga directa de Amazon Q Business. En este ejemplo, cargamos los archivos PDF escaneados.

  1. En la consola de Amazon Q Business, seleccione Aplicaciones en el panel de navegación y abra su aplicación.
  2. Elegir Agregar fuente de datos.
  3. Elegir Subir archivos.
  4. Sube los archivos PDF escaneados.

Puede monitorear los archivos cargados en el Fuentes de datos pestaña. La Estado de carga cambios de Recibió a Procesando a Indexado o Actualizadomomento en el que el archivo se ha indexado correctamente en el almacén de datos de Amazon Q Business. La siguiente captura de pantalla muestra los archivos PDF indexados correctamente.

Los siguientes pasos demuestran cómo integrar y sincronizar documentos mediante un conector de Amazon S3 con Amazon Q Business. En este ejemplo, indexamos los documentos de texto.

  1. En la consola de Amazon Q Business, seleccione Aplicaciones en el panel de navegación y abra su aplicación.
  2. Elegir Agregar fuente de datos.
  3. Elegir Amazon S3 Para el conector.
  4. Introduzca la información para Nombre, VPC y configuración del grupo de seguridad, rol de IAM, y Modo de sincronización.
  5. Para terminar de conectar su fuente de datos a Amazon Q Business, elija Agregar fuente de datos.
  6. En el Detalles de la fuente de datos sección de la página de detalles de su conector, seleccione Sincronizar ahora para permitir que Amazon Q Business comience a sincronizar (rastrear e ingerir) datos desde su fuente de datos.

Cuando se complete el trabajo de sincronización, su fuente de datos estará lista para usarse. La siguiente captura de pantalla muestra que los cinco documentos (PDF escaneados y digitales y archivos de texto) se indexaron correctamente.

Conector de Amazon S3

La siguiente captura de pantalla muestra una vista completa de las dos fuentes de datos: los documentos cargados directamente y los documentos ingresados ​​a través del conector de Amazon S3.

Fuentes de datos de Amazon Q Business.

Ahora ejecutemos algunas consultas con Amazon Q Business en nuestras fuentes de datos.

Consultas sobre documentos PDF densos, no estructurados y escaneados

Es posible que sus documentos sean densos, no estructurados y escaneados en formato PDF. Amazon Q Business puede identificar y extraer de ellos el texto con mayor densidad de información. En este ejemplo, utilizamos el PDF de resumen del plan de salud de varias páginas que indexamos anteriormente. La siguiente captura de pantalla muestra una página de ejemplo.

Documento resumen del plan de salud.

Este es un ejemplo de un documento de resumen de un plan de salud.

En la interfaz web de Amazon Q Business, preguntamos “¿Cuál es el máximo total de desembolso personal anual mencionado en el resumen del plan de salud?”

Amazon Q Business busca el documento indexado, recupera la información relevante y genera una respuesta citando la fuente de la información. La siguiente captura de pantalla muestra el resultado de muestra.

Salida de Amazon Q Business

Consultas sobre documentos PDF estructurados, tabulares y escaneados

Los documentos también pueden contener elementos de datos estructurados en formato tabular. Amazon Q Business puede identificar, extraer y linealizar automáticamente datos estructurados de archivos PDF escaneados para resolver con precisión cualquier consulta del usuario. En el siguiente ejemplo, utilizamos el PDF de factura que indexamos anteriormente. La siguiente captura de pantalla muestra un ejemplo.

Factura

Este es un ejemplo de factura.

En la interfaz web de Amazon Q Business, preguntamos “¿Cuánto se cobraron los auriculares en la factura?”

Amazon Q Business busca el documento indexado y recupera la respuesta con referencia al documento de origen. La siguiente captura de pantalla muestra que Amazon Q Business puede extraer información de la factura.

Salida de Amazon Q Business

Consultas en formularios semiestructurados

Sus documentos también pueden contener elementos de datos semiestructurados en un formulario, como pares clave-valor. Amazon Q Business puede satisfacer con precisión las consultas relacionadas con estos elementos de datos extrayendo campos o atributos específicos que sean significativos para las consultas. En este ejemplo, utilizamos el PDF de verificación de empleo. La siguiente captura de pantalla muestra un ejemplo.

Ejemplo de verificación de empleo

Este es un ejemplo de un formulario de verificación de empleo.

En la interfaz de usuario web de Amazon Q Business, preguntamos “¿Cuál es la fecha de empleo del solicitante en el formulario de verificación de empleo?” Amazon Q Business busca el documento de verificación de empleo indexado y recupera la respuesta con referencia al documento fuente.

Salida de Amazon Q Business

Indexar documentos mediante AWS CLI

En esta sección, le mostramos cómo usar la CLI de AWS para incorporar documentos estructurados y no estructurados almacenados en un depósito de S3 en un índice de Amazon Q Business. Puede recuperar rápidamente información detallada sobre sus documentos, incluidos sus estados y los errores que se produjeron durante la indexación. Si es un usuario existente de Amazon Q Business y ha indexado documentos en varios formatos, como archivos PDF escaneados y otros tipos compatibles, y ahora desea volver a indexar los documentos escaneados, complete los siguientes pasos:

  1. Verifique el estado de cada documento para filtrar los documentos fallidos según el estado "DOCUMENT_FAILED_TO_INDEX"Puede filtrar los documentos en función de este mensaje de error:

"errorMessage": "Document cannot be indexed since it contains no text to index and search on. Document must contain some text."

Si es un usuario nuevo y no ha indexado ningún documento, puede omitir este paso.

A continuación se muestra un ejemplo del uso de la Lista de documentos API para filtrar documentos con un estado específico y sus mensajes de error:

aws qbusiness list-documents --region  \
--application-id  \
--index-id  \
--query "documentDetailList(?status=='DOCUMENT_FAILED_TO_INDEX').{DocumentId:documentId, ErrorMessage:error.errorMessage}"
--output json

La siguiente captura de pantalla muestra la salida de AWS CLI con una lista de documentos fallidos con mensajes de error.

Lista de documentos fallidos

Ahora puede procesar los documentos por lotes. Amazon Q Business permite agregar uno o más documentos a un índice de Amazon Q Business.

  1. Utilizar el Documento de lote API para ingerir en el índice múltiples documentos escaneados almacenados en un depósito S3:
    aws qbusiness batch-put-document —region  \
    --documents '({ "id":"s3:///","content":{"s3":{"bucket":" ","key":""}}}, { "id":"s3:///","content":{"s3":{"bucket":" ","key":""}}})' \
    --application-id  \
    --index-id  \
    --endpoint-url  \
    --role-arn  \
    --no-verify-ssl

La siguiente captura de pantalla muestra la salida de AWS CLI. Debería ver los documentos fallidos como una lista vacía.

Lista de documentos fallidos

  1. Por último, utilice el Lista de documentos API nuevamente para revisar si todos los documentos fueron indexados correctamente:
    aws qbusiness list-documents --region  \
    --application-id  \
    --index-id  \
    --endpoint-url  \
    --no-verify-ssl

La siguiente captura de pantalla muestra que los documentos están indexados en la fuente de datos.

Lista de documentos indexados

Limpiar

Si creó una nueva aplicación de Amazon Q Business y no planea seguir usándola, cancele la suscripción y elimine los usuarios asignados de la aplicación y elimínela para que su cuenta de AWS no acumule costos. Además, si no necesita seguir usando las fuentes de datos indexadas, consulte Gestión de fuentes de datos de Amazon Q Business para obtener instrucciones sobre cómo eliminar sus fuentes de datos indexadas.

Conclusión

En esta publicación, demostramos la compatibilidad con los tipos de documentos PDF escaneados con Amazon Q Business. Destacamos los pasos para sincronizar, indexar y consultar los tipos de documentos admitidos (que ahora incluyen documentos PDF escaneados) mediante IA generativa con Amazon Q Business. También mostramos ejemplos de consultas sobre documentos escaneados multimodales estructurados, no estructurados o semiestructurados mediante la interfaz de usuario web de Amazon Q Business y AWS CLI.

Para obtener más información sobre esta función, consulte Formatos de documentos admitidos en Amazon Q BusinessPruébelo en el Consola de Amazon Q Business ¡Hoy! Para obtener más información, visite Amazon Q Negocios y el Guía del usuario de Amazon Q BusinessPuedes enviar comentarios a AWS re:Post para Amazon Q o a través de sus contactos de soporte habituales de AWS.


Sobre los autores

Sonali Sahu Lidera el equipo de Arquitectura de soluciones de especialistas en IA generativa en AWS. Es autora, líder de opinión y apasionada de la tecnología. Su principal área de interés es la IA y el aprendizaje automático, y suele hablar en conferencias y reuniones sobre IA y aprendizaje automático en todo el mundo. Tiene una amplia y profunda experiencia en tecnología y en la industria tecnológica, con experiencia en la industria de la salud, el sector financiero y los seguros.

Rana Chinmayee es arquitecta de soluciones especializada en inteligencia artificial generativa en AWS. Le apasionan las matemáticas aplicadas y el aprendizaje automático. Se centra en el diseño de soluciones de inteligencia artificial generativa y procesamiento inteligente de documentos para clientes de AWS. Fuera del trabajo, disfruta de bailar salsa y bachata.

Himesh Kumar es un experimentado ingeniero de software sénior que actualmente trabaja en Amazon Q Business en AWS. Le apasiona crear sistemas distribuidos en el espacio de IA generativa y aprendizaje automático. Su experiencia se extiende al desarrollo de sistemas escalables y eficientes, asegurando alta disponibilidad, rendimiento y confiabilidad. Más allá de las habilidades técnicas, se dedica al aprendizaje continuo y a mantenerse a la vanguardia de los avances tecnológicos en IA y aprendizaje automático.

Qing Wei es un desarrollador de software sénior del equipo de Amazon Q Business en AWS y le apasiona crear aplicaciones modernas con tecnologías de AWS. Le encanta el aprendizaje impulsado por la comunidad y el intercambio de tecnología, especialmente para temas relacionados con el alojamiento y la inferencia de aprendizaje automático. Su enfoque principal en este momento es crear arquitecturas sin servidor y basadas en eventos para la ingesta de datos de RAG.

Fuente