Benchmark de 15 arquitecturas de recuperacion para documentos institucionales
Todos los modelos se ejecutan en CPU. Qwen 2.5 3B ofrece el mejor equilibrio velocidad/calidad.
Recuperacion estadistica por frecuencia de terminos. Linea base no neuronal.
Ponderacion lexica clasica. Rapido, sin comprension semantica.
Embeddings neuronales clasicos. Linea base para comparar con transformers.
Destilado ultraligero. Excelente velocidad manteniendo calidad semantica.
Universal Sentence Encoder ligero. Robusto para multiples idiomas.
Equilibrio optimo: buena precision con consumo moderado de recursos.
BERT entrenado exclusivamente en corpus en espanol. Comprension nativa.
RoBERTa entrenado con corpus institucional espanol. Vocabulario extenso.
Especializado en documentos legales iberoamericanos. Recomendado para UAGro.
Referencia historica multilingue. Superado por arquitecturas modernas.
Optimizado para similitud de oraciones en espanol.
Aprendizaje contrastivo. Agrupa estrictamente pares semanticos.
Excelente para parafrasis. Entiende consultas reformuladas.
Alta precision pero lento en CPU. Usar solo para pruebas puntuales.
Corpus legal multilingue. Demanda alta memoria. Recomendado con GPU.
Procesando consulta... Esto puede tomar 30-60 segundos por modelo en CPU.
Mas rapido
-
Mas lento
Promedio
Los fragmentos recuperados por multiples modelos aparecen aqui.