Cómo funcionan los documentos adjuntos

Los modelos de lenguaje de gran escala (LLM) admiten la integración de documentos adjuntos, permitiendo a los usuarios proporcionar información extensa y detallada como contexto adicional. Esto mejora significativamente la precisión y relevancia de las respuestas generadas.

Proceso de adjuntar documentos

Cuando se adjunta un documento en un LLM, este pasa por varias etapas:

Conversión a texto: Si el documento es un archivo PDF, imagen o formato escaneado, se emplean herramientas de OCR (Reconocimiento Óptico de Caracteres) para extraer el texto.
Tokenización: El texto extraído se divide en fragmentos llamados tokens, que representan palabras o partes de palabras en el modelo.
Vectorización: Los tokens se convierten en representaciones numéricas (vectores) que el modelo puede procesar y analizar.
Incorporación al contexto: Los vectores generados se combinan con la consulta del usuario, permitiendo que el modelo entienda mejor el contenido del documento.

Representación vectorial y embeddings

Los LLM utilizan embeddings para representar palabras y frases en un espacio numérico multidimensional. Palabras con significados similares están ubicadas cerca unas de otras en este espacio vectorial, lo que ayuda al modelo a interpretar el contenido de los documentos adjuntos de manera más efectiva.

Además, el contenido del documento se "trocea" en un gran número de pedacitos, llamados vectores, los cuales sirven para que el modelo pueda encontrar información relacionada con los inputs del usuario. Esto se consigue mediante unos cálculos matemáticos de probabilidad.

Es decir, que los modelos no leen ni escanean la totalidad del contenido, tal y como hacemos los humanos, sino que preparan el texto para hacer consultas específicas sobre el contenido del documento.

Por eso no son capaces de hacer resúmenes o traducciones a otros idiomas de todo el documento al completo.

Esto es importante saberlo para conocer la verdadera capacidad de los modelos a la hora de adjuntarles documentos.

La verdadera utilidad de añadir documentos es ampliar la base de conocimiento del modelo con información muy específica que te interesa que sepa para ejecutar las instrucciones que vas a darle.

En realidad, el papel que juegan es dar más contexto al modelo, para que pueda consultarlo siempre que lo necesite para ejecutar su tarea.

Ventajas de adjuntar documentos en LLM

Mayor precisión: El modelo puede basar sus respuestas en información específica proporcionada por el usuario.
Mejor contexto: Se reducen malinterpretaciones al contar con referencias directas dentro del documento.
Personalización de la IA: Permite adaptar las respuestas del modelo a necesidades particulares.
Ampliación del conocimiento del modelo: Proporciona información adicional relevante sin necesidad de entrenamiento adicional.

Limitaciones y desafíos

A pesar de sus beneficios, adjuntar documentos en LLM presenta ciertos desafíos:

No comprensión del significado: Los modelos no interpretan el contenido como lo haría un humano, solo lo usan como referencia para consultas.
Funcionalidad limitada: No pueden generar resúmenes o traducciones completas de un documento entero, sino que responden a consultas específicas.
Restricción de tokens: Los modelos tienen un límite en la cantidad de tokens que pueden procesar en una sola consulta.
Formato del archivo: Algunos formatos requieren procesamiento adicional para extraer el texto correctamente.
Ambigüedad del contenido: Si el documento contiene información contradictoria o confusa, el modelo puede generar respuestas inconsistentes.

Conclusión

Adjuntar documentos en modelos de lenguaje mejora la precisión y utilidad de las respuestas generadas. Sin embargo, su implementación efectiva requiere considerar limitaciones como la cantidad de tokens disponibles y la necesidad de preprocesar el contenido adecuadamente.

A medida que la tecnología avanza, los LLM continuarán mejorando en la integración y procesamiento de documentos adjuntos, ofreciendo soluciones más sofisticadas y personalizadas para los usuarios.

Presentación con la explicación

Aquí te dejo un documento PDF con una explicación visual sobre cómo los modelos de lenguaje interpretan los archivos adjuntos.

>>> PRESENTACIÓN

¿Todavía tienes dudas?

Abre un ticket desde la sección de soporte y estaré encantado de ayudarte a resolver cualquier consulta.