Laboratorio RAG UAGro

Benchmark de 15 arquitecturas de recuperacion para documentos institucionales

Consulta institucional

Modelo generativo

Todos los modelos se ejecutan en CPU. Qwen 2.5 3B ofrece el mejor equilibrio velocidad/calidad.

Modelos de recuperacion (seleccione multiples)

BM25

Recuperacion estadistica por frecuencia de terminos. Linea base no neuronal.

TF-IDF

Ponderacion lexica clasica. Rapido, sin comprension semantica.

Doc2Vec

Embeddings neuronales clasicos. Linea base para comparar con transformers.

MiniLM

Destilado ultraligero. Excelente velocidad manteniendo calidad semantica.

DistilUSE

Universal Sentence Encoder ligero. Robusto para multiples idiomas.

mE5-Base

Equilibrio optimo: buena precision con consumo moderado de recursos.

BETO

BERT entrenado exclusivamente en corpus en espanol. Comprension nativa.

MarIA

RoBERTa entrenado con corpus institucional espanol. Vocabulario extenso.

RoBERTalex

Especializado en documentos legales iberoamericanos. Recomendado para UAGro.

mBERT

Referencia historica multilingue. Superado por arquitecturas modernas.

Sim-ES

Optimizado para similitud de oraciones en espanol.

SimCSE

Aprendizaje contrastivo. Agrupa estrictamente pares semanticos.

MPNet

Excelente para parafrasis. Entiende consultas reformuladas.

mE5-Large

Alta precision pero lento en CPU. Usar solo para pruebas puntuales.

Legal-XLM

Corpus legal multilingue. Demanda alta memoria. Recomendado con GPU.

Procesando consulta... Esto puede tomar 30-60 segundos por modelo en CPU.

Telemetria

Mas rapido

Mas lento

Promedio

Los fragmentos recuperados por multiples modelos aparecen aqui.