Glosario de términos IA
Glosario básico de términos de la inteligencia artificial
Glosario de inteligencia artificial
Índice de áreas
- Fundamentos de IA, ML y aprendizaje
- Modelos, arquitecturas y componentes internos
- Entrenamiento, adaptación y optimización
- Datos, datasets y preparación
- LLMs, prompts, contexto y generación
- RAG, búsqueda, embeddings y conocimiento
- Agentes, herramientas y orquestación
- Evaluación, métricas y calidad
- Seguridad, privacidad, gobernanza y alineamiento
- Gobernanza, regulación y cumplimiento de IA
- Multimodalidad, visión, audio y voz
- Producción, inferencia e infraestructura
- Interpretabilidad mecánica
- Tareas y métodos clásicos
Cada término incluye una ancla estable con prefijo
term-.
Fundamentos de IA, ML y aprendizaje
Conceptos base para entender IA, aprendizaje automático y los tipos generales de modelos.
- AI assistant: aplicación conversacional basada en modelos de IA que responde preguntas, ejecuta tareas y mantiene contexto a lo largo de una conversación.
- Artificial Intelligence / IA: disciplina que crea sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como razonar, percibir, aprender o generar lenguaje.
- Black-box model: modelo cuyo funcionamiento interno no es fácilmente interpretable; se observan entradas y salidas pero no los mecanismos que las conectan.
- Bottleneck: componente o paso de un sistema que limita el rendimiento total; puede ser de cómputo, memoria, datos o latencia.
- Chatbot: sistema conversacional automatizado que interactúa con usuarios mediante lenguaje natural, con o sin modelo de lenguaje subyacente.
- Checkpoint: copia guardada del estado de un modelo —pesos, optimizador y configuración— durante o después del entrenamiento, usada para reanudar, evaluar o desplegar.
- Claude, Gemini, GPT, Llama, Mistral: familias de modelos fundacionales o LLMs de distintos proveedores (Anthropic, Google, OpenAI, Meta, Mistral AI).
- Code interpreter: herramienta que permite a un modelo ejecutar código en un entorno seguro para analizar datos, calcular resultados o transformar archivos.
- Contrastive learning: paradigma de entrenamiento que acerca representaciones de ejemplos similares y aleja las de ejemplos distintos en el espacio latente, sin necesidad de etiquetas explícitas.
- Cursor / pointer: referencia interna usada por algunos sistemas para continuar una operación o paginación, indicando la posición actual en un conjunto de resultados.
- Custom model: modelo adaptado o entrenado específicamente para un dominio, tarea o empresa concreta.
- Distribution shift: cambio entre la distribución estadística de los datos de entrenamiento y la de los datos vistos en producción, lo que puede degradar el rendimiento.
- Emergent capabilities / comportamientos emergentes: capacidades observadas al escalar ciertos modelos que no estaban explícitamente programadas ni eran evidentes en modelos menores; su medición depende del benchmark, la forma de evaluación y el umbral usado para considerar que una capacidad está presente.
- Ensemble: combinación de las predicciones de varios modelos independientes para mejorar robustez o rendimiento frente a cualquier modelo individual.
- Explainability: capacidad de explicar en lenguaje comprensible por qué un modelo produjo una salida concreta, orientada a usuarios finales o reguladores.
- GAN / Generative Adversarial Network: arquitectura generativa con dos redes en competencia —un generador que crea muestras y un discriminador que las evalúa— entrenadas de forma adversarial hasta que el generador produce datos indistinguibles de los reales.
- Ground truth: respuesta, etiqueta o anotación considerada correcta y usada como referencia para entrenamiento o evaluación.
- Hallucination / alucinación: salida generada por un modelo que parece plausible y fluida pero contiene información falsa, inventada, no verificada o no sustentada por el contexto, las fuentes disponibles o la realidad.
- Interpretability: capacidad de entender los mecanismos internos de un modelo —qué representaciones aprende, cómo toma decisiones— más allá de observar entradas y salidas.
- LSTM / Long Short-Term Memory: variante de red neuronal recurrente con compuertas de entrada, salida y olvido que permiten retener o descartar información a lo largo de secuencias largas, superando el problema del gradiente evanescente de las RNN simples.
- Mean squared error / MSE: función de pérdida habitual en regresión que calcula la media del cuadrado de las diferencias entre predicciones y valores reales.
- Memory: información persistente o recuperable que un sistema utiliza entre interacciones o pasos de inferencia para mantener contexto, preferencias o estado.
- Model: sistema entrenado que transforma entradas en salidas mediante parámetros aprendidos a partir de datos.
- Model card: documento estandarizado que describe capacidades, limitaciones, datos de entrenamiento, evaluaciones y riesgos de un modelo, facilitando su uso responsable.
- Model drift: degradación gradual del rendimiento de un modelo en producción debida a cambios en la distribución de los datos de entrada o en el entorno.
- Multi-hop reasoning: razonamiento que requiere encadenar varias evidencias, recuperaciones o pasos de inferencia para llegar a una conclusión que ningún dato individual proporciona directamente.
- Reasoning model: modelo optimizado para resolver tareas que requieren pasos intermedios de razonamiento, lógica o planificación, a menudo con cadenas de pensamiento internas o presupuesto de tokens de razonamiento.
- RNN / Recurrent Neural Network: red neuronal con conexiones cíclicas que procesa secuencias paso a paso, manteniendo un estado oculto que se actualiza en cada paso; precursora de los transformers en tareas de lenguaje.
- Sequence-to-sequence / seq2seq: modelo que transforma una secuencia de entrada en una secuencia de salida de longitud potencialmente distinta, como en traducción automática o resumen.
- User intent: objetivo real que se infiere de una petición del usuario, que puede diferir de su formulación literal.
- VAE / Variational Autoencoder: autoencoder generativo que aprende una distribución probabilística sobre el espacio latente en lugar de un punto fijo, permitiendo muestrear y generar nuevas muestras interpolando en ese espacio.
- XAI / Explainable AI: conjunto de técnicas y marcos metodológicos para hacer los sistemas de IA más explicables, interpretables y auditables.
Modelos, arquitecturas y componentes internos
Partes internas de modelos neuronales y arquitecturas habituales.
- Activation function: función matemática no lineal aplicada a las neuronas de una red neuronal para introducir capacidad de representar relaciones complejas; ejemplos: ReLU, GELU, sigmoid.
- Attention: mecanismo que permite a un modelo ponderar dinámicamente qué partes de la entrada son más relevantes para producir cada elemento de la salida, operando sobre tripletas de vectores query, key y value.
- Autoencoder: red neuronal que aprende a comprimir datos en una representación compacta (encoder) y a reconstruirlos desde esa representación (decoder), usada en reducción de dimensionalidad y detección de anomalías.
- Cross-attention: mecanismo de atención entre dos secuencias distintas —por ejemplo, la entrada y la salida parcial— que permite al decoder consultar representaciones del encoder.
- Decoder: componente de un modelo que genera una secuencia de salida token a token, condicionado en su propia salida previa y, en modelos encoder-decoder, en la representación del encoder.
- Deep learning: subcampo del aprendizaje automático basado en redes neuronales con múltiples capas que aprenden representaciones jerárquicas de los datos.
- Encoder: componente que transforma una secuencia de entrada en una representación vectorial interna densa que captura su semántica.
- Encoder-decoder transformer: arquitectura transformer con un encoder que codifica la entrada completa y un decoder autoregresivo que genera la salida, usado en traducción, resumen y sistemas de diálogo.
- Foundation model: modelo grande preentrenado con grandes volúmenes de datos diversos y adaptable a múltiples tareas mediante prompting, fine-tuning o integración con herramientas; puede ser textual, visual, de audio, de vídeo o multimodal.
- Fully connected layer / dense layer: capa neuronal donde cada neurona recibe señales de todas las neuronas de la capa anterior; usada típicamente en las etapas finales de clasificación.
- Graph neural network / GNN: red neuronal diseñada para datos estructurados como grafos, que propaga información entre nodos vecinos iterativamente.
- Hidden layer: capa intermedia de una red neuronal situada entre la entrada y la salida, responsable de aprender representaciones internas.
- Language model: modelo que asigna probabilidades a secuencias de texto o que, condicionado en un contexto, predice, genera o analiza lenguaje.
- Latent space: espacio vectorial de representaciones internas aprendidas por un modelo, donde posiciones próximas corresponden a entradas semánticamente similares.
- Layer: componente modular de una red neuronal que aplica una transformación matemática a su entrada para producir una salida.
- Layer normalization / LayerNorm: técnica de normalización que estandariza las activaciones dentro de cada capa —a lo largo de la dimensión de características, no del batch— estabilizando el entrenamiento de transformers y redes profundas.
- Logit: valor numérico sin normalizar producido por la última capa del modelo, previo a la conversión en probabilidades mediante softmax u otras funciones.
- Masked language model: modelo de lenguaje entrenado para predecir tokens enmascarados dentro de una secuencia, usando contexto bidireccional; paradigma de BERT y sus variantes.
- Mixture of Experts / MoE: arquitectura con múltiples submodelos expertos especializados, donde un módulo router activa solo un subconjunto de expertos por token o muestra, permitiendo escalar parámetros sin aumentar el coste computacional proporcionalmente.
- Model weights: conjunto de parámetros numéricos aprendidos durante el entrenamiento que definen el comportamiento del modelo.
- Multi-head attention: extensión del mecanismo de atención que aplica múltiples cabezas de atención en paralelo, cada una con sus propias proyecciones query/key/value, permitiendo al modelo capturar distintos tipos de relaciones simultáneamente; componente central del transformer.
- Neural network: modelo compuesto por capas de unidades computacionales conectadas que aprenden transformaciones no lineales mediante optimización por gradiente.
- Neuron: unidad computacional básica de una red neuronal que aplica una suma ponderada de sus entradas seguida de una función de activación.
- Open weights: modelos cuyos pesos están disponibles públicamente para descarga o inspección; no implica necesariamente licencia open source, permiso de uso comercial, derecho de modificación ni redistribución.
- Parameter: valor escalar aprendido por el modelo durante el entrenamiento; el número total de parámetros es una métrica habitual del tamaño del modelo.
- Positional encoding: representación añadida a los embeddings de entrada para informar al modelo del orden o posición de cada token en la secuencia, necesaria porque la atención es permutación-invariante por defecto; puede ser sinusoidal fija, aprendida o rotacional (RoPE).
- Residual connection / skip connection: conexión que suma la entrada de una capa directamente a su salida, facilitando el flujo de gradientes y permitiendo entrenar redes muy profundas sin degradación.
- RoPE / Rotary Position Embedding: esquema de codificación posicional que aplica rotaciones en el espacio de los vectores query y key según la posición del token, permitiendo generalizar mejor a longitudes de secuencia no vistas durante el entrenamiento.
- Router model: modelo o módulo que decide a qué experto, herramienta, modelo especializado o ruta de procesamiento enviar una petición según su contenido.
- Self-attention: mecanismo de atención aplicado dentro de una misma secuencia, donde cada posición puede atender a todas las demás para capturar dependencias de largo alcance.
- Softmax: función que convierte un vector de logits en una distribución de probabilidad sumando 1, amplificando diferencias entre valores.
- State Space Model / SSM / Mamba: familia de arquitecturas de secuencia basadas en sistemas de estado latente discreto que procesan secuencias con coste lineal en longitud; alternativa a los transformers para contextos muy largos con menor consumo de memoria.
- Transformer: arquitectura neuronal basada íntegramente en mecanismos de atención —sin recurrencia ni convolución— que procesa secuencias en paralelo mediante multi-head self-attention y capas feed-forward; base de la mayoría de LLMs modernos.
- Weight: parámetro escalar aprendido de una red neuronal que pondera la influencia de una conexión entre neuronas.
- Weight decay: técnica de regularización L2 que penaliza la magnitud de los pesos durante el entrenamiento para reducir el sobreajuste.
Entrenamiento, adaptación y optimización
Técnicas para entrenar, ajustar, comprimir o mejorar modelos.
- Activation checkpointing: técnica que reduce el consumo de memoria durante entrenamiento recomputando activaciones intermedias en el paso hacia atrás en lugar de almacenarlas todas en GPU.
- Active learning: paradigma donde el modelo identifica activamente los ejemplos sin etiquetar más informativos para solicitar su anotación, reduciendo el coste de etiquetado.
- Adapter: módulo ligero —generalmente capas de baja dimensión— añadido a un modelo grande preentrenado para adaptarlo a una tarea específica sin modificar los pesos originales.
- Backpropagation: algoritmo que calcula los gradientes de la función de pérdida respecto a cada parámetro del modelo propagando el error desde la salida hacia las capas anteriores mediante la regla de la cadena.
- Batch: conjunto de ejemplos procesados conjuntamente en una misma pasada por el modelo, durante entrenamiento o inferencia.
- Batch size: número de ejemplos incluidos en cada batch; determina el compromiso entre estabilidad del gradiente y eficiencia computacional.
- Distillation: entrenamiento de un modelo pequeño (estudiante) para imitar las distribuciones de salida o representaciones de un modelo mayor (profesor), transfiriendo conocimiento de forma compacta.
- DPO / Direct Preference Optimization: método de ajuste con preferencias humanas que optimiza directamente la política del modelo mediante una función de pérdida derivada de comparaciones, sin necesitar un modelo de recompensa explícito ni RL online.
- Dropout: técnica de regularización que desactiva neuronas aleatoriamente durante cada paso de entrenamiento, reduciendo la codependencia entre unidades y mejorando la generalización.
- Early stopping: interrupción del entrenamiento cuando el rendimiento en el conjunto de validación deja de mejorar durante un número determinado de épocas, evitando el sobreajuste.
- Epoch: pasada completa sobre el conjunto de entrenamiento; varias épocas son necesarias para que el modelo converja.
- Fine-tuning: ajuste adicional de un modelo preentrenado usando datos específicos de una tarea o dominio, modificando todos o algunos de sus parámetros.
- Gradient: vector de derivadas parciales de la función de pérdida respecto a los parámetros del modelo, indica la dirección de máximo crecimiento de la pérdida.
- Gradient clipping: técnica que limita la magnitud del gradiente a un umbral máximo antes de actualizar los parámetros, previniendo explosiones de gradiente en redes profundas o recurrentes.
- Gradient descent: algoritmo de optimización iterativo que actualiza los parámetros en la dirección opuesta al gradiente para minimizar la función de pérdida.
- GRPO / Group Relative Policy Optimization: algoritmo de RL que optimiza la política del modelo comparando grupos de respuestas entre sí para estimar ventajas relativas, sin necesitar un modelo crítico separado.
- KL divergence / divergencia KL: medida asimétrica de cuánto difiere una distribución de probabilidad de una distribución de referencia; usada en RLHF como penalización para evitar que el modelo se aleje demasiado de la política base durante el ajuste.
- Learning rate: escalar que controla el tamaño del paso con el que se actualizan los parámetros en cada iteración de optimización; un valor demasiado alto causa inestabilidad y demasiado bajo ralentiza la convergencia.
- LoRA / Low-Rank Adaptation: técnica PEFT que añade matrices de baja dimensión entrenables en paralelo a capas del modelo preentrenado, reduciendo drásticamente el número de parámetros a actualizar.
- LoRA adapter: conjunto de matrices adicionales entrenadas con LoRA que se acoplan a un modelo base sin modificar sus pesos originales y pueden intercambiarse para distintas tareas.
- Loss function: función que mide la discrepancia entre las predicciones del modelo y los valores reales durante el entrenamiento, guiando la optimización mediante su gradiente.
- Mixed precision training: técnica que mezcla formatos numéricos —típicamente FP16 o BF16 para operaciones y FP32 para acumulación de gradientes— reduciendo memoria y acelerando el entrenamiento con pérdida mínima de precisión.
- Model merging: combinación de los pesos o adaptadores de varios modelos mediante operaciones aritméticas en el espacio de parámetros, sin reentrenar desde cero.
- Online learning: paradigma de aprendizaje donde el modelo se actualiza de forma continua o incremental a medida que llegan nuevos datos, sin un ciclo discreto de reentrenamiento.
- Optimization: proceso iterativo de ajustar los parámetros de un modelo para minimizar una función de pérdida o maximizar una métrica de rendimiento.
- Parameter-efficient fine-tuning / PEFT: familia de técnicas que adaptan modelos grandes entrenando solo una pequeña fracción de parámetros adicionales, manteniendo congelados los pesos originales.
- Policy: en aprendizaje por refuerzo, función que mapea estados u observaciones a acciones; en LLMs, la distribución de probabilidad sobre tokens que define el comportamiento del modelo.
- Post-training: fase posterior al preentrenamiento donde se aplican técnicas como SFT, RLHF o DPO para alinear el modelo con preferencias humanas y hacerlo útil en aplicaciones prácticas.
- PPO / Proximal Policy Optimization: algoritmo de RL que actualiza la política del modelo con pasos controlados usando una función de pérdida recortada, estabilizando el entrenamiento; usado en la fase RL de RLHF.
- Pretraining: entrenamiento inicial de gran escala sobre datos masivos y diversos para que el modelo aprenda representaciones generales del lenguaje antes de cualquier especialización.
- QLoRA: variante de LoRA que cuantiza el modelo base a 4 bits para reducir consumo de memoria, permitiendo fine-tuning de modelos grandes en hardware con memoria limitada.
- Regularization: conjunto de técnicas que penalizan la complejidad del modelo durante el entrenamiento para reducir el sobreajuste y mejorar la generalización.
- Reinforcement learning / RL: paradigma de aprendizaje donde un agente aprende a maximizar una señal de recompensa acumulada mediante la interacción con un entorno.
- Reward hacking / specification gaming: fenómeno donde un modelo optimiza la métrica de recompensa de formas no previstas —explotando sesgos del reward model o del entorno— sin lograr el objetivo real deseado.
- Reward model: modelo entrenado a partir de comparaciones humanas que estima la calidad o preferibilidad de una respuesta; usado en RLHF como función de recompensa proxy.
- RFT / Reinforcement Fine-Tuning: ajuste de modelos mediante señales de recompensa provenientes de verificadores automáticos, a menudo aplicado a tareas con respuesta comprobable como matemáticas o código.
- RLAIF / Reinforcement Learning from AI Feedback: variante de RLHF donde las señales de preferencia provienen de otro modelo de IA en lugar de anotadores humanos, permitiendo escalar el proceso de alineamiento.
- RLHF / Reinforcement Learning from Human Feedback: proceso de alineamiento que entrena un reward model a partir de comparaciones humanas y lo usa como señal para ajustar el LLM mediante optimización de preferencias o aprendizaje por refuerzo; PPO fue una técnica habitual, aunque no la única.
- Scaling laws: relaciones empíricas cuantitativas que describen cómo mejora el rendimiento de un modelo en función del número de parámetros, volumen de datos de entrenamiento y cómputo utilizado.
- Self-supervised learning: paradigma donde las etiquetas de supervisión se derivan automáticamente de los propios datos —como predecir el siguiente token o reconstruir partes enmascaradas— sin anotación humana.
- SFT / Supervised Fine-Tuning: ajuste supervisado de un modelo preentrenado con ejemplos de instrucciones y respuestas esperadas; primera etapa habitual del post-training antes de técnicas de alineación como RLHF o DPO.
- Supervised learning: paradigma de aprendizaje donde el modelo aprende a partir de pares entrada-salida etiquetados por humanos.
- Test-time compute / inference-time scaling: uso de más cómputo durante la inferencia —mediante búsqueda, muestreo múltiple o razonamiento extendido— para mejorar la calidad de la respuesta sin cambiar los pesos del modelo.
- Training data: datos usados para ajustar los parámetros del modelo mediante optimización; su calidad y diversidad determinan en gran medida las capacidades del modelo resultante.
- Transfer learning: reutilización del conocimiento representacional aprendido en una tarea o dominio de origen para mejorar el rendimiento en una tarea o dominio distinto.
- Unsupervised learning: paradigma de aprendizaje sin etiquetas explícitas donde el modelo descubre estructura, patrones o representaciones en los datos.
- Warmup schedule: estrategia de tasa de aprendizaje que comienza con valores muy bajos y los incrementa gradualmente durante los primeros pasos del entrenamiento, estabilizando la inicialización antes de la fase principal de optimización.
- World model: representación interna que permite a un sistema modelar cómo evoluciona un entorno en respuesta a acciones, usada en planificación y RL basado en modelo.
Datos, datasets y preparación
Conceptos de datos, etiquetas, variables y preparación de corpus.
- Class imbalance: situación donde algunas clases del dataset tienen muchos más ejemplos que otras, lo que puede sesgar el modelo hacia las clases mayoritarias.
- Consent management: gestión explícita de permisos, bases legales y revocaciones asociados al uso de datos personales o protegidos en entrenamiento, evaluación o inferencia.
- Copyrighted data: datos protegidos por derechos de autor, cuyo uso para entrenamiento, evaluación o generación puede requerir licencia, excepción legal o análisis jurídico específico.
- Data augmentation: generación de variaciones sintéticas de ejemplos existentes —rotaciones, ruido, paráfrasis— para ampliar el dataset y mejorar la robustez del modelo.
- Data curation: proceso de selección, limpieza, filtrado y organización de datos para garantizar calidad, relevancia y representatividad.
- Data deletion: eliminación de datos de sistemas de almacenamiento, índices, logs, datasets o memorias; en IA puede requerir procesos adicionales si los datos influyeron en modelos ya entrenados.
- Data drift: cambio progresivo en la distribución estadística de los datos de entrada en producción respecto a los datos de entrenamiento, que puede degradar el rendimiento del modelo.
- Data labeling: proceso de asignar etiquetas o anotaciones a datos en bruto, típicamente realizado por humanos, para su uso en entrenamiento o evaluación supervisada.
- Data lineage: registro del recorrido de los datos desde su origen hasta su uso final, incluyendo transformaciones, filtrados, versiones, responsables y dependencias.
- Data pipeline: flujo automatizado que orquesta la recolección, transformación, validación y entrega de datos para entrenamiento o inferencia.
- Data provenance: información sobre el origen, titularidad, método de obtención y condiciones de uso de un dato o dataset.
- Data retention: política que define durante cuánto tiempo se conservan datos, logs, prompts, respuestas o artefactos, y bajo qué condiciones se eliminan.
- Data versioning / versionado de datos: práctica de registrar y gestionar versiones de datasets para garantizar reproducibilidad del entrenamiento, auditoría y rastreo de cambios.
- Dataset: conjunto estructurado de datos con su formato, etiquetas y metadatos, usado para entrenamiento, validación o evaluación de modelos.
- Dataset card: documento que describe el origen, composición, metodología de recolección, usos previstos, limitaciones y riesgos potenciales de un dataset.
- Feature: variable de entrada que el modelo usa para hacer predicciones; puede ser numérica, categórica o aprendida internamente.
- Feature engineering: diseño manual o semiautomático de variables de entrada que mejoran la capacidad predictiva del modelo, especialmente relevante fuera del deep learning.
- Golden dataset: conjunto de datos de referencia de alta calidad, cuidadosamente anotado, usado como estándar de evaluación o para ajuste crítico.
- Label: categoría, valor o respuesta objetivo asociada a un ejemplo de datos, usada para supervisar el aprendizaje.
- Label noise: presencia de errores, inconsistencias o ambigüedades en las etiquetas de un dataset, que puede degradar la calidad del modelo entrenado.
- Licensed data: datos usados bajo una licencia contractual o legal que define permisos, restricciones, duración, atribución y posibles usos permitidos.
- Metadata: datos descriptivos que caracterizan otros datos, como fecha de creación, fuente, autor, formato o etiquetas estructurales.
- Multilabel classification: variante de clasificación donde cada ejemplo puede pertenecer simultáneamente a varias categorías, no excluyentes entre sí.
- Normalization: ajuste de los valores de las variables de entrada a una escala o distribución común —como media cero y desviación unitaria— para estabilizar el entrenamiento.
- One-hot encoding: representación de categorías mediante vectores binarios con un único componente activo (1) y el resto a cero; representación dispersa y de alta dimensionalidad.
- PII detection: identificación automática de información personal identificable en texto, imágenes, audio, tablas, logs o datasets.
- PII scrubbing: proceso de limpiar, anonimizar o eliminar información personal identificable antes de almacenar, entrenar, indexar o compartir datos.
- Proprietary data: datos propiedad de una organización o persona, normalmente no públicos, usados como activo interno para entrenamiento, RAG, análisis o personalización.
- Public data: datos accesibles públicamente; su disponibilidad pública no implica necesariamente ausencia de derechos, restricciones de uso o riesgos de privacidad.
- Right to erasure: derecho de una persona a solicitar la eliminación de sus datos personales en determinados marcos regulatorios, como el GDPR.
- Synthetic data: datos generados artificialmente mediante modelos o simulaciones, usados para ampliar datasets, proteger privacidad o cubrir casos poco frecuentes.
- Synthetic data contamination: contaminación de datasets por datos generados artificialmente que no están marcados como sintéticos y pueden distorsionar entrenamiento, evaluación o análisis.
- Synthetic data detection: clasificación o estimación de si un dato fue generado artificialmente por un modelo o simulación.
- Synthetic data generation: creación de datos artificiales mediante modelos, reglas o simuladores para ampliar cobertura, proteger privacidad o crear casos raros.
- Test set: conjunto de datos final, no visto durante entrenamiento ni validación, usado exclusivamente para medir el rendimiento real del modelo.
- Training data transparency: prácticas de documentación que explican de forma agregada qué tipos de datos se usaron para entrenar un modelo, con qué fuentes, filtros y límites.
- Validation set: conjunto de datos separado del entrenamiento usado durante el desarrollo para ajustar hiperparámetros y detectar sobreajuste sin comprometer el test set.
LLMs, prompts, contexto y generación
Términos propios de modelos de lenguaje, prompting, contexto, tokens y decodificación.
- A/B testing: comparación controlada entre dos versiones de un modelo, prompt, interfaz o flujo para determinar cuál produce mejores resultados según métricas definidas.
- Assistant message: mensaje producido por el modelo asistente dentro de una conversación estructurada por roles.
- Attention head: subcomponente del mecanismo de multi-head attention que aprende un patrón de relación específico entre posiciones de la secuencia con sus propias matrices de proyección.
- Attention mask: máscara binaria o de valores continuos que controla qué tokens pueden atender a qué otros dentro del mecanismo de atención, usada para enmascarar padding o implementar atención causal.
- Autoregressive model: modelo que genera la secuencia de salida token a token, condicionando cada nuevo token en todos los anteriores generados.
- Beam search / greedy decoding: estrategias de decodificación deterministas; greedy selecciona el token más probable en cada paso, beam search mantiene múltiples hipótesis en paralelo buscando la secuencia global más probable.
- BPE / Byte Pair Encoding: algoritmo de tokenización que aprende un vocabulario de subpalabras frecuentes mediante la fusión iterativa de los pares de bytes o caracteres más comunes en el corpus de entrenamiento.
- Causal language model: modelo de lenguaje entrenado con una máscara causal que impide a cada posición atender a tokens futuros, forzando la predicción del siguiente token usando solo contexto previo.
- Chain-of-thought: técnica de prompting o comportamiento emergente donde el modelo produce pasos intermedios de razonamiento explícitos antes de dar la respuesta final, mejorando el rendimiento en tareas complejas.
- Completion: texto generado por un modelo a partir de una entrada dada; término común en APIs de modelos de lenguaje.
- Constrained decoding: generación restringida por reglas, gramáticas formales, esquemas JSON u otras estructuras que limitan el espacio de tokens válidos en cada paso.
- Context: toda la información disponible para el modelo en una interacción: instrucciones del sistema, historial de conversación, documentos, resultados de herramientas y estado actual.
- Context engineering: disciplina de diseñar y gestionar la información que se entrega al modelo en cada llamada —instrucciones, historial, documentos recuperados, herramientas disponibles y memoria— para maximizar la calidad de la respuesta.
- Context rot: degradación de la calidad del razonamiento cuando un contexto largo acumula información irrelevante, contradictoria o mal priorizada que interfiere con la atención del modelo.
- Context stuffing: práctica de meter grandes volúmenes de información en el prompt sin selección ni priorización adecuada, que puede reducir la efectividad del modelo.
- Context window: longitud máxima, medida en tokens, que un modelo puede procesar en una única llamada, incluyendo tanto la entrada como la salida generada.
- Cost per token: métrica de coste de uso de un modelo de lenguaje medida en unidades de tokens de entrada y salida procesados.
- Cross-entropy loss: función de pérdida estándar en clasificación y predicción de tokens que mide la diferencia entre la distribución predicha por el modelo y la distribución real.
- Decoder-only transformer: arquitectura transformer sin encoder explícito donde el modelo procesa la secuencia entera con atención causal y genera tokens de forma autoregresiva; paradigma de GPT, Llama y la mayoría de LLMs modernos.
- Delimiter: separador textual —como
###,<tag>o---— usado en prompts para distinguir instrucciones, datos, ejemplos o secciones. - Developer message: mensaje de configuración enviado por el desarrollador de la aplicación que establece comportamientos, restricciones o contexto de la aplicación, con mayor prioridad que el mensaje del usuario.
- Extended thinking / pensamiento extendido: modalidad de algunos modelos de razonamiento donde se genera un bloque de pensamiento interno —no siempre visible— antes de la respuesta final, permitiendo razonamiento más profundo a costa de mayor latencia.
- Few-shot example: ejemplo incluido en el prompt que ilustra el formato o razonamiento esperado, actuando como demostración in-context.
- Few-shot prompting: técnica donde se incluyen entre 2 y 10 ejemplos en el prompt para guiar el formato, estilo o razonamiento sin reentrenar el modelo.
- Human evaluation: evaluación realizada por personas que juzgan la calidad, relevancia, precisión o preferencia de las respuestas del modelo.
- Human-in-the-loop: diseño de sistema donde una persona revisa, corrige, aprueba o redirige las decisiones del modelo en puntos críticos del flujo.
- Hyperparameter: parámetro de configuración del entrenamiento o inferencia que no se aprende de los datos, como learning rate, batch size, temperatura o número de capas.
- In-context learning: capacidad de un modelo de adaptarse a una tarea usando únicamente ejemplos o instrucciones dentro del prompt, sin actualizar sus pesos.
- Instruction following: capacidad de un modelo de ejecutar correctamente instrucciones explícitas dadas en el prompt o en el mensaje de sistema, incluyendo formato, restricciones de longitud o tareas compuestas.
- Instruction hierarchy: orden de prioridad entre instrucciones de distintas fuentes: sistema u operador, desarrollador, usuario y herramientas; define qué instrucciones prevalecen en caso de conflicto.
- Instruction tuning: fine-tuning orientado a que el modelo aprenda a seguir instrucciones en lenguaje natural de forma generalizada, mejorando su utilidad como asistente.
- JSON mode: modo de generación donde se instruye al modelo para producir exclusivamente JSON válido como respuesta.
- JSON Schema: especificación formal de la estructura, tipos y restricciones esperados de un objeto JSON, usada para validar o guiar la generación estructurada.
- k-shot prompting: prompting con exactamente k ejemplos en el prompt; generalización de few-shot para cualquier número k.
- LLM / Large Language Model: modelo de lenguaje de gran escala —típicamente con miles de millones de parámetros— entrenado en grandes corpus de texto con capacidades generales de comprensión y generación.
- LLMOps: conjunto de prácticas, herramientas y procesos para operar sistemas basados en LLMs en producción: versionado de prompts, evaluaciones automatizadas, trazabilidad, monitorización de costes y gestión de modelos.
- Logprob: logaritmo de la probabilidad asignada por el modelo a un token en una posición dada, útil para calibración, detección de incertidumbre y reranking.
- Long-context model: modelo diseñado para procesar ventanas de contexto muy extensas —cientos de miles o millones de tokens— mediante optimizaciones de atención y memoria.
- Max output tokens: límite máximo de tokens que el modelo puede generar en una respuesta; parámetro de inferencia que controla la longitud de la salida.
- N-shot prompting: uso de N ejemplos demostrativos en el prompt; engloba zero-shot (N=0), one-shot (N=1) y few-shot (N > 1).
- Named entity recognition / NER: tarea de identificar y clasificar en texto menciones de entidades específicas como personas, organizaciones, lugares, fechas o cantidades.
- Needle in a haystack: prueba de evaluación de modelos de largo contexto que inserta un dato específico (la aguja) en un documento extenso (el pajar) y comprueba si el modelo puede recuperarlo con precisión, midiendo la capacidad real de atención a lo largo del contexto.
- Negative sampling: técnica de entrenamiento que selecciona ejemplos negativos de forma controlada para que el modelo aprenda a distinguir pares correctos de incorrectos.
- Persona prompt: instrucción que define el rol, estilo, perspectiva o identidad que el modelo debe adoptar durante la conversación.
- Prompt: entrada textual o multimodal proporcionada al modelo que especifica la tarea, el contexto y los requisitos de la respuesta esperada.
- Prompt caching: mecanismo que reutiliza el procesamiento de partes del prompt que no cambian entre llamadas, reduciendo latencia y coste en aplicaciones con instrucciones de sistema largas y estables.
- Prompt chaining: patrón donde la salida de una llamada al modelo se usa como entrada de la siguiente, dividiendo tareas complejas en pasos manejables.
- Prompt compression: reducción del número de tokens de un prompt mediante resumen, filtrado o reformulación, conservando la información relevante para la tarea.
- Prompt engineering: disciplina de diseñar, estructurar y refinar prompts para obtener respuestas más precisas, consistentes o apropiadas del modelo.
- Prompt leaking: vulnerabilidad donde el modelo revela el contenido de su system prompt o instrucciones confidenciales al usuario, ya sea directamente o mediante ataques de extracción.
- Prompt optimization: mejora sistemática y a menudo automatizada de prompts mediante pruebas A/B, búsqueda o técnicas de optimización, guiada por métricas de evaluación.
- Prompt registry: repositorio centralizado donde se almacenan, versionan, documentan y gestionan los prompts usados en producción.
- Prompt regression: degradación observable de un prompt, plantilla o flujo de conversación tras cambiar instrucciones, modelo, contexto, herramientas o formato de salida.
- Prompt template: plantilla parametrizable con marcadores de posición que se rellenan con variables específicas para construir prompts consistentes.
- Prompt versioning: práctica de mantener un historial de versiones de los prompts para rastrear cambios, comparar resultados y revertir a versiones anteriores si es necesario.
- Reasoning tokens: tokens generados internamente por modelos de razonamiento para elaborar cadenas de pensamiento antes de producir la respuesta visible; pueden no exponerse al usuario final.
- Response format: especificación del formato esperado para la salida del modelo: texto libre, JSON con esquema, lista estructurada, tabla, código u otro formato definido.
- Role: tipo de participante en una conversación estructurada: sistema, usuario, asistente o herramienta; cada rol tiene una función y prioridad distintas.
- Sampling: proceso estocástico de seleccionar el siguiente token según la distribución de probabilidad del modelo, controlado por parámetros como temperatura, top-k y top-p.
- Schema: estructura formal que especifica los tipos, campos, restricciones y relaciones esperados en los datos de entrada o salida.
- Seed: valor de inicialización del generador aleatorio que permite reproducir exactamente la misma secuencia de tokens cuando el sistema lo soporta.
- Shot: ejemplo demostrativo incluido en el prompt para guiar el comportamiento del modelo.
- Speculative decoding: técnica que acelera la generación usando un modelo auxiliar pequeño para proponer tokens candidatos que el modelo principal verifica en paralelo, aumentando el throughput.
- Speculative sampling: variante de generación especulativa donde el modelo pequeño propone tokens y el modelo mayor los acepta o rechaza probabilísticamente según sus propias distribuciones, manteniendo la calidad de la distribución original.
- Step-back prompting / query decomposition: técnicas que reformulan una tarea en una versión más general o la descomponen en subpreguntas más manejables para mejorar el razonamiento y la recuperación de información.
- Stop sequence: cadena de texto que, al ser generada, indica al modelo que debe detener la generación inmediatamente.
- Streaming: entrega progresiva de los tokens de la respuesta conforme se generan, en lugar de esperar a completar la generación completa.
- Structured Outputs: generación restringida a una estructura de datos específica, normalmente definida mediante JSON Schema, para garantizar que la salida sea válida y procesable por aplicaciones.
- System instruction: instrucción de alto nivel, normalmente invisible al usuario, que condiciona el comportamiento global del modelo durante toda la sesión.
- System prompt: conjunto de instrucciones de mayor prioridad, enviadas antes de la conversación del usuario, que establecen el rol, restricciones y comportamiento del modelo.
- Temperature: parámetro escalar que controla la aleatoriedad de la generación dividiendo los logits antes del softmax; valores bajos producen salidas más deterministas y valores altos más diversas.
- Thinking budget: cantidad de tokens, tiempo o cómputo asignado a la fase interna de razonamiento de un modelo antes de producir la respuesta visible.
- Throughput: cantidad de tokens o peticiones procesadas por unidad de tiempo; métrica clave de eficiencia en sistemas de serving.
- Token budget: límite explícito de tokens disponibles para entrada, razonamiento o salida, usado para controlar costes o latencia.
- Tokenization: proceso de segmentar texto en unidades discretas (tokens) que el modelo puede procesar, según el vocabulario del tokenizador.
- Tokenizer: componente que convierte texto en secuencias de tokens mediante un vocabulario aprendido, y que también realiza la operación inversa (detokenización).
- Top-k sampling: estrategia de generación que restringe el muestreo al conjunto de los k tokens con mayor probabilidad en cada paso.
- Top-p / nucleus sampling: estrategia que restringe el muestreo al conjunto mínimo de tokens cuyas probabilidades acumuladas alcanzan el umbral p, adaptando dinámicamente el tamaño del conjunto candidato.
- TPM / tokens per minute: límite de uso o métrica operacional que expresa el número de tokens procesados por minuto.
- Tree of thought: técnica de prompting o búsqueda donde el modelo explora múltiples ramas de razonamiento en paralelo, evaluando y seleccionando las más prometedoras para tareas complejas.
- Upsampling: aumento de la representación de ejemplos de una clase minoritaria mediante duplicación, generación sintética u otras técnicas para compensar el desbalance de clases.
- User prompt: mensaje o entrada enviada por el usuario en una conversación, que el modelo recibe y sobre la que genera una respuesta.
- Versioning: gestión de versiones de modelos, prompts, datasets y código para garantizar reproducibilidad, trazabilidad y posibilidad de retroceder a estados anteriores.
- Zero-shot classification: clasificación de ejemplos en categorías para las que el modelo no ha visto ejemplos de entrenamiento específicos, aprovechando su conocimiento general.
- Zero-shot prompting: solicitar al modelo que realice una tarea sin proporcionar ningún ejemplo demostrativo en el prompt.
RAG, búsqueda, embeddings y conocimiento
Recuperación de información, bases vectoriales, conocimiento externo y atribución.
- ANN / Approximate Nearest Neighbor: búsqueda de vectores cercanos en espacios de alta dimensión usando índices aproximados como HNSW o FAISS, sacrificando exactitud a cambio de velocidad y escalabilidad.
- Annotation: proceso de asignar etiquetas, anotaciones o metadatos a datos para su uso en entrenamiento, evaluación o búsqueda.
- Bi-encoder: arquitectura que codifica la consulta y el documento de forma independiente con el mismo encoder para producir embeddings comparables; permite pre-computar embeddings de documentos e indexarlos eficientemente.
- BM25: algoritmo clásico de recuperación lexical basado en frecuencia de términos (TF) y frecuencia inversa de documentos (IDF), con normalización por longitud; referencia habitual en búsqueda por palabras clave.
- Candidate generation: primera fase de un sistema de recuperación en dos etapas que genera un conjunto amplio de candidatos relevantes para luego ser reordenados con mayor precisión.
- Chunk: fragmento de texto de tamaño controlado en que se divide un documento para indexación, embedding y recuperación en sistemas RAG.
- Chunking: proceso de dividir documentos en fragmentos, equilibrando granularidad y contexto para optimizar la relevancia de la recuperación.
- Citation: referencia explícita a la fuente que sustenta un fragmento de la respuesta generada, fundamental para la verificabilidad y la confianza.
- Contextual retrieval: técnica que enriquece cada chunk con contexto del documento completo antes de indexarlo, mejorando la recuperación de fragmentos cuyo significado depende del contexto circundante.
- Corpus: colección de documentos sobre la que se construye el índice de búsqueda o recuperación.
- Cosine similarity: medida de similitud entre dos vectores basada en el coseno del ángulo que forman, independiente de su magnitud; métrica estándar para comparar embeddings.
- Coverage: grado en que un sistema de evaluación o recuperación cubre los casos, documentos o aspectos relevantes para la tarea.
- Cross-encoder: modelo que evalúa conjuntamente una consulta y un documento en una misma pasada para producir una puntuación de relevancia precisa; usado típicamente en la etapa de reranking.
- Data deduplication: eliminación de elementos duplicados o casi duplicados en datasets, índices o corpus para mejorar calidad y eficiencia.
- Dense retrieval: recuperación basada en similitud de embeddings vectoriales densos, capturando semántica latente más allá de la coincidencia exacta de términos.
- Dense vector: vector donde la mayoría de componentes tienen valores distintos de cero, típico de representaciones neuronales aprendidas como embeddings.
- Dimensionality: número de componentes de un vector de embedding; mayor dimensionalidad permite representaciones más ricas pero implica mayor coste computacional y de almacenamiento.
- Document loader: componente que ingesta documentos desde distintas fuentes —archivos, URLs, bases de datos, APIs— y los convierte a un formato procesable por el pipeline de indexación.
- Document retrieval: proceso de identificar y devolver los documentos más relevantes para una consulta dada, a partir de un corpus indexado.
- Embedding: representación numérica vectorial de un objeto —texto, imagen, usuario, producto— que captura su semántica en un espacio de alta dimensión donde la proximidad refleja similitud.
- Embedding drift: cambio en la distribución o significado práctico de los embeddings producido por actualizaciones del modelo de embedding, cambios en los datos o evolución del dominio.
- Embedding model: modelo que convierte entradas —texto, imágenes u otros— en vectores de embedding de dimensión fija.
- Embedding space: espacio vectorial donde los objetos están representados como puntos; la geometría del espacio captura relaciones semánticas entre los objetos.
- Faithfulness: grado en que una respuesta generada está sustentada y es coherente con los documentos o fuentes recuperadas, sin añadir información no presente en ellos.
- GraphRAG: variante de RAG que construye o consulta grafos de conocimiento con entidades y relaciones explícitas, permitiendo razonamiento estructurado sobre conexiones entre conceptos.
- Groundedness: grado en que una salida del modelo está anclada en datos, fuentes o contexto verificable, oponiéndose a la generación no fundamentada.
- Grounding: conexión de las respuestas del modelo con fuentes, herramientas o datos externos verificables que sirven de base factual.
- HNSW / FAISS: índices y librerías de referencia para búsqueda vectorial aproximada eficiente a gran escala; HNSW usa grafos jerárquicos navegables y FAISS técnicas de cuantización y particionado.
- Hybrid search: combinación de búsqueda lexical (BM25) y búsqueda vectorial semántica, cuyos resultados se fusionan para aprovechar las fortalezas de ambos enfoques.
- HyDE / Hypothetical Document Embedding: técnica de mejora de consultas donde el modelo genera un documento hipotético que respondería a la consulta, usa su embedding para buscar en el índice y recupera documentos reales semánticamente similares al hipotético.
- Index: estructura de datos que organiza documentos, fragmentos o vectores para permitir búsquedas eficientes por términos, semántica o proximidad vectorial.
- Indexing pipeline: flujo automatizado que preprocesa, fragmenta, genera embeddings e indexa documentos para hacerlos recuperables.
- Knowledge base: repositorio estructurado o no estructurado de información que el sistema de IA puede consultar para fundamentar sus respuestas.
- Knowledge cutoff: fecha hasta la cual el modelo tiene conocimiento integrado en sus pesos; eventos posteriores son desconocidos sin recuperación externa.
- Knowledge distillation: transferencia del comportamiento o las distribuciones de salida de un modelo grande (profesor) a uno más pequeño (estudiante), comprimiendo el conocimiento.
- Knowledge graph: grafo que representa entidades del mundo real como nodos y sus relaciones como aristas, usado para razonamiento estructurado y recuperación precisa.
- KV cache / Key-Value cache: estructura que almacena los vectores key y value calculados para tokens previos durante la generación, evitando su recomputo en cada paso y acelerando la inferencia autoregresiva.
- Late interaction: paradigma de recuperación —representado por ColBERT— donde la consulta y el documento se codifican por separado en secuencias de embeddings de token, y la similitud se calcula mediante interacción tardía entre todos los pares de tokens, equilibrando eficiencia y precisión.
- Long-context retrieval: estrategia que combina recuperación selectiva y uso directo del contexto largo del modelo cuando la ventana de contexto es suficientemente grande para procesar múltiples documentos.
- Metadata filtering: restricción de los resultados de búsqueda a documentos que cumplen condiciones sobre atributos estructurados como fecha, autor, categoría o fuente.
- MMR / Maximal Marginal Relevance: técnica de selección de resultados que equilibra relevancia respecto a la consulta y diversidad respecto a los resultados ya seleccionados, reduciendo redundancia.
- Multimodal embedding: embedding que representa contenido de distintas modalidades —texto, imagen, audio— en un espacio vectorial común donde la proximidad refleja similitud semántica entre modalidades.
- Multimodal RAG: variante de RAG que recupera y usa como evidencia contenido de distintas modalidades: texto, imágenes, tablas, audio o vídeo.
- Query: consulta enviada a un sistema de recuperación, base vectorial, base de datos o modelo para obtener información relevante.
- Query expansion: ampliación de una consulta original con términos sinónimos, relacionados o generados por el modelo para mejorar la cobertura de la recuperación.
- Query rewriting: reformulación de una consulta —a menudo usando el historial de conversación— para hacerla más precisa, autocontenida y efectiva para la recuperación.
- RAG / Retrieval-Augmented Generation: arquitectura que recupera información relevante de fuentes externas y la incorpora al contexto del modelo antes de la generación, reduciendo alucinaciones y actualizando el conocimiento sin reentrenamiento.
- Reranker: modelo —típicamente un cross-encoder— que recibe un conjunto de candidatos recuperados y los reordena por relevancia real respecto a la consulta, mejorando la precisión a costa de mayor latencia.
- Retrieval: proceso de identificar y extraer información relevante desde un corpus, base de datos o índice externo a partir de una consulta.
- Retrieval latency: tiempo necesario para ejecutar la búsqueda, aplicar filtros y devolver contexto relevante desde el índice; componente de la latencia total del sistema RAG.
- Retrieval precision: proporción de documentos o fragmentos recuperados que son genuinamente relevantes para la consulta; métrica de calidad del sistema de recuperación.
- Self-RAG: variante de RAG donde el propio modelo decide cuándo recuperar información, evalúa la relevancia de los documentos recuperados y juzga la calidad de su propia respuesta mediante tokens especiales de reflexión.
- Semantic chunking: división de documentos en fragmentos basada en unidades semánticas de significado —párrafos, secciones temáticas— en lugar de simplemente por longitud fija de caracteres o tokens.
- Semantic search: búsqueda que captura el significado de la consulta y los documentos mediante embeddings, encontrando resultados relevantes aunque no compartan términos exactos.
- Sentence transformers: familia de modelos basados en transformers optimizados para generar embeddings semánticos de frases y párrafos, entrenados con objetivos contrastivos o de similitud.
- Similarity search: búsqueda de elementos más próximos a una consulta en un espacio vectorial, medida típicamente por similitud coseno o distancia euclidiana.
- Soft prompt / Prefix tuning: técnicas PEFT que entrenan vectores continuos prepend al input (prefix tuning) o como parámetros directos de la atención (soft prompts), sin modificar los pesos del modelo.
- Source attribution: asignación explícita de fragmentos de la respuesta generada a las fuentes que los sustentan, con citas o referencias verificables.
- Sparse retrieval: recuperación basada en representaciones dispersas de alta dimensionalidad —como vectores TF-IDF o BM25— que activan pocos componentes correspondientes a términos presentes.
- Sparse vector: vector con la mayoría de componentes a cero y pocos valores activos, típico de representaciones lexicales o de vocabularios grandes como TF-IDF o SPLADE.
- Token: unidad discreta de texto procesada por el modelo, que puede corresponder a una palabra completa, una subpalabra, un carácter o un símbolo, según el vocabulario del tokenizador.
- Top-k retrieval: recuperación de los k fragmentos o documentos con mayor puntuación de relevancia para una consulta dada.
- Vector database: base de datos diseñada para almacenar embeddings y ejecutar búsquedas de similitud vectorial eficientes a escala, con soporte para filtrado por metadatos.
- Vector quantization: compresión de vectores de embedding mediante su aproximación con un conjunto finito de códigos o centroides aprendidos, reduciendo memoria y acelerando la búsqueda.
- Vector search: búsqueda de los embeddings más próximos a un vector de consulta en un espacio vectorial de alta dimensión.
- Vector similarity: medida cuantitativa de la proximidad entre dos embeddings, típicamente coseno para vectores normalizados o distancia euclidiana.
- Vector store: componente que almacena embeddings con sus metadatos asociados y expone operaciones de búsqueda por similitud vectorial.
- Web grounding: uso de resultados de búsqueda web o fuentes online en tiempo real para sustentar y actualizar las respuestas generadas por el modelo.
Agentes, herramientas y orquestación
Sistemas que planifican, llaman herramientas y coordinan flujos.
- Action: operación concreta que un agente decide ejecutar —llamar una API, escribir un archivo, enviar un mensaje— como resultado de su razonamiento.
- Agent / agente: sistema que combina un modelo de lenguaje con capacidad de planificar, tomar decisiones, llamar herramientas externas y ejecutar tareas multistep de forma iterativa.
- Agent loop: ciclo iterativo que estructura la ejecución de un agente: observar el estado, razonar, decidir una acción, ejecutarla, leer el resultado y repetir hasta completar la tarea o alcanzar un criterio de parada.
- Agent memory: mecanismo que permite a un agente conservar información relevante entre pasos: hechos, estado de tarea, preferencias del usuario o resultados previos, ya sea en el contexto, en memoria externa o en una base de datos.
- Agent trace: registro estructurado de la ejecución de un agente, incluyendo pasos, decisiones, llamadas a herramientas, resultados, errores, latencias y handoffs.
- Agentic RAG: diseño donde un agente decide dinámicamente cuándo buscar, qué consultas lanzar, cómo verificar la relevancia de fuentes y cómo sintetizar la respuesta a partir de múltiples recuperaciones.
- Agentic workflow: flujo de trabajo donde uno o varios agentes toman decisiones intermedias autónomas —sobre qué herramientas usar, cómo estructurar el trabajo— en lugar de seguir una secuencia predefinida.
- Approval gate: punto de control donde una acción sensible queda bloqueada hasta recibir aprobación humana o autorización explícita.
- Autonomous agent: agente diseñado para completar tareas complejas con mínima intervención humana, tomando decisiones propias sobre estrategia y ejecución.
- Browser tool: herramienta que permite al agente navegar por la web, consultar páginas, buscar información o interactuar con interfaces web.
- Capability negotiation: proceso por el que cliente, servidor o agente declaran y acuerdan qué capacidades, herramientas, recursos o formatos pueden usar.
- Cognitive architecture: estructura que define cómo un agente percibe su entorno, almacena y recupera memoria, razona, planifica y ejecuta acciones; especifica la integración de todos estos componentes.
- Computer use: capacidad de un agente para controlar una interfaz gráfica de usuario, un navegador o aplicaciones de escritorio mediante acciones de ratón, teclado o captura de pantalla.
- Durable execution: ejecución de workflows o agentes que puede sobrevivir a reinicios, fallos o pausas, persistiendo estado y retomando desde un punto seguro.
- Elicitation: mecanismo por el que un sistema solicita información adicional necesaria para completar una tarea o autorizar una acción.
- Environment: entorno con el que interactúa un agente: puede ser un sistema de archivos, una API, una interfaz web, un simulador o el mundo real; define las observaciones disponibles y las acciones posibles.
- Extraction: tarea de identificar y estructurar información específica —entidades, relaciones, hechos, tablas— a partir de texto, imágenes o documentos no estructurados.
- Function calling: capacidad de un modelo de generar llamadas estructuradas a funciones externas predefinidas —con nombre, parámetros y tipos— que la aplicación ejecuta y cuyos resultados devuelve al modelo.
- Function schema: definición formal —nombre, descripción, parámetros, tipos y restricciones— de una función disponible para que el modelo la invoque.
- Handoff: transferencia explícita de la gestión de una tarea de un agente a otro, típicamente cuando se requiere una especialización diferente.
- Host: aplicación principal que aloja un cliente o agente, gestiona la sesión del usuario y coordina conexiones con servidores, herramientas o recursos externos.
- Hosted tool: herramienta ejecutada en infraestructura gestionada por un proveedor o plataforma, normalmente con permisos y aislamiento definidos por esa plataforma.
- Human review: revisión humana de una salida, decisión, acción o evaluación antes de aceptarla, publicarla o ejecutarla.
- Local tool: herramienta ejecutada en el entorno local o controlado por la aplicación, como sistema de archivos, base de datos interna, proceso Python o servicio privado.
- MCP / Model Context Protocol: protocolo estándar abierto para conectar modelos y agentes de IA con herramientas, fuentes de datos y servicios externos de forma interoperable.
- MCP client: componente de la aplicación de IA que establece conexión con servidores MCP, gestiona las llamadas al protocolo y media entre el modelo y las herramientas expuestas.
- MCP prompt: plantilla o instrucción reutilizable expuesta por un servidor MCP para que clientes y agentes la descubran y usen de forma estructurada.
- MCP resource: dato, archivo, esquema, documento o contexto expuesto por un servidor MCP para que un cliente lo entregue al modelo cuando sea relevante.
- MCP server: servidor que implementa el protocolo MCP exponiendo herramientas, recursos o prompts que los clientes pueden descubrir y utilizar.
- MCP tool: función ejecutable expuesta por un servidor MCP con un schema de entrada y salida, invocable por clientes o agentes autorizados.
- Multi-agent system: sistema compuesto por múltiples agentes especializados que colaboran, se delegan tareas y coordinan sus resultados para resolver problemas complejos.
- Orchestration: coordinación de modelos, agentes, herramientas, memoria y flujos para ejecutar tareas complejas de forma coherente y eficiente.
- Orchestrator: componente central que dirige la ejecución de un sistema multi-agente o de un flujo complejo, asignando tareas, gestionando dependencias e integrando resultados.
- Parallel tool calls: ejecución simultánea de múltiples llamadas a herramientas cuando las acciones son independientes entre sí, reduciendo la latencia total del flujo.
- Plan-and-execute: patrón de agente donde primero se genera un plan completo de pasos y luego se ejecutan secuencialmente, separando la fase de planificación de la de ejecución.
- Planning: capacidad de un sistema de descomponer un objetivo en subpasos ordenados y ejecutarlos secuencialmente o en paralelo.
- Python tool / code execution: herramienta que permite a un agente generar y ejecutar código Python en un entorno controlado para realizar cálculos, transformaciones de datos o análisis.
- Query planner: componente que decide qué consultas lanzar, contra qué fuentes, en qué orden y con qué parámetros, optimizando la recuperación de información necesaria para completar una tarea.
- ReAct: patrón de prompting y diseño de agentes donde el modelo alterna razonamiento explícito (Reason) y acciones con herramientas (Act), intercalando pensamiento y ejecución.
- Reflection: capacidad de un agente de evaluar críticamente su propio razonamiento, acciones o respuestas previas para identificar errores, inconsistencias o mejoras, y corregir su comportamiento en consecuencia.
- Remote tool: herramienta alojada y ejecutada en un servicio externo al entorno principal del agente, accedida mediante llamadas de red.
- Resumable execution: capacidad de pausar y continuar una tarea agentica sin perder estado, resultados intermedios ni trazabilidad.
- Roots: conjunto de ubicaciones, proyectos o recursos base que un host declara como contexto permitido o relevante para una sesión MCP.
- Run state: estado persistente de una ejecución de agente o workflow, incluyendo paso actual, variables, resultados, errores y decisiones pendientes.
- Sandbox agent: agente limitado a un entorno aislado, con permisos restringidos sobre archivos, red, herramientas y credenciales.
- Span: unidad individual dentro de una traza que representa una operación concreta, como una llamada al modelo, una herramienta, un handoff o una validación.
- State machine: modelo formal de ejecución basado en estados y transiciones, útil para workflows agénticos controlables y auditables.
- Subagent: agente especializado subordinado que recibe subtareas delegadas por un orquestador o agente principal, ejecuta su lógica propia y devuelve resultados.
- Tool calling: capacidad del modelo de solicitar la ejecución de herramientas externas especificando nombre y argumentos en un formato estructurado que la aplicación puede procesar.
- Tool permissioning: definición de qué herramientas puede usar un agente, bajo qué condiciones, con qué argumentos permitidos y con qué aprobaciones.
- Tool result: salida producida por una herramienta tras su ejecución, devuelta al modelo como parte del contexto para que continúe su razonamiento.
- Tool result validation: verificación de que la salida de una herramienta es válida, segura, esperada y coherente antes de entregarla al modelo o al usuario.
- Tool schema: especificación estructurada de una herramienta: nombre, descripción, parámetros, tipos, restricciones y comportamiento esperado, que el modelo usa para decidir cuándo y cómo invocarla.
- Tool selection: decisión del modelo sobre qué herramienta invocar entre las disponibles, basada en la tarea actual y los schemas disponibles.
- Trace: registro detallado de todos los pasos, llamadas a herramientas, razonamientos intermedios y salidas de una ejecución de agente, fundamental para depuración y observabilidad.
- Voice agent: agente conversacional que usa voz como modalidad de entrada o salida, integrando STT, LLM y TTS en un flujo cohesionado.
- Workflow: secuencia organizada y a menudo condicional de pasos, herramientas, decisiones y transformaciones que completan una tarea de extremo a extremo.
- Workflow state: estado acumulado durante la ejecución de un workflow, que incluye resultados intermedios, variables de control y contexto necesario para los pasos siguientes.
Evaluación, métricas y calidad
Métricas, bancos de prueba, evaluación humana y control de calidad.
- Ablation study: experimento que elimina o modifica un componente del sistema para medir su contribución real al rendimiento o comportamiento final.
- Accuracy: proporción de predicciones correctas sobre el total de predicciones; métrica básica de clasificación, potencialmente engañosa con clases desbalanceadas.
- Adversarial evaluation: evaluación con ejemplos diseñados específicamente para provocar fallos, inconsistencias o comportamientos no deseados en el modelo.
- Answer relevance: métrica que evalúa si la respuesta aborda la pregunta del usuario sin desviarse hacia contenido irrelevante.
- Arena-style evaluation: evaluación basada en comparaciones ciegas entre respuestas de modelos, donde jueces humanos o automáticos eligen la mejor salida.
- Benchmark: prueba estandarizada con métricas definidas para comparar el rendimiento de modelos de forma reproducible y objetiva.
- Benchmark contamination: presencia de datos de los conjuntos de evaluación en los datos de entrenamiento, inflando artificialmente las métricas reportadas.
- BF16 / bfloat16: formato numérico de 16 bits con el mismo rango de exponente que FP32 pero menor precisión de mantisa; usado en aceleradores modernos por su estabilidad numérica en entrenamiento e inferencia.
- Bias / sesgo: tendencia sistemática de un modelo, dataset o proceso de evaluación que produce resultados consistentemente alejados del valor real o que favorece ciertos grupos o perspectivas.
- BLEU: métrica automática de traducción automática que mide la superposición de n-gramas entre la traducción generada y referencias humanas; ampliamente usada pero con limitaciones en la captura de calidad semántica.
- Blind evaluation: evaluación donde el evaluador no conoce qué sistema generó cada salida, eliminando sesgos de conocimiento previo.
- Calibration: grado en que la confianza numérica expresada por un modelo corresponde con su frecuencia real de acierto; un modelo bien calibrado con 80% de confianza acierta en el 80% de los casos.
- Canary eval: prueba diseñada para detectar regresiones, fugas, fallos de seguridad o comportamientos no deseados usando casos señuelo conocidos.
- Chatbot Arena / LMSYS: plataforma de evaluación basada en comparaciones ciegas entre modelos por parte de usuarios reales, que produce rankings mediante el sistema Elo; referencia para medir preferencia humana en calidad conversacional.
- Code execution eval: evaluación de código generado mediante ejecución real en un entorno controlado y comparación con tests, salidas esperadas o propiedades verificables.
- Confidence score: puntuación asociada a una predicción que estima la seguridad del modelo; útil para calibración, rechazo de casos inciertos y umbrales de decisión.
- Confusion matrix: tabla que compara predicciones con valores reales, mostrando verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos para cada clase.
- Context relevance: métrica que evalúa si los documentos, chunks o evidencias proporcionados al modelo son pertinentes para responder la consulta.
- Data leakage: filtración de información del conjunto de evaluación o de eventos futuros dentro de los datos de entrenamiento, produciendo métricas optimistas no representativas del rendimiento real.
- Error analysis: estudio sistemático de los ejemplos donde el modelo falla para identificar patrones, causas y oportunidades de mejora.
- Eval / evaluación: prueba o conjunto de pruebas diseñadas para medir el comportamiento de un modelo en una dimensión específica: precisión, seguridad, seguimiento de instrucciones u otras.
- Eval harness: infraestructura de software para ejecutar suites de evaluación de forma automatizada, reproducible y escalable.
- Eval-driven development: metodología de desarrollo donde los cambios al sistema se guían por evaluaciones automatizadas reproducibles que miden si mejoran o degradan métricas clave.
- Evaluation dataset: conjunto de datos separado del entrenamiento, usado exclusivamente para medir el rendimiento real del modelo en condiciones de despliegue.
- Exact match: métrica que considera correcto un resultado solo si coincide exactamente con la respuesta esperada; apropiada para tareas con respuesta única y bien definida.
- F1 score: media armónica entre precisión y recall, equilibrando ambas métricas en una sola; útil cuando ambas son igualmente importantes.
- Factuality eval: evaluación orientada a medir si las afirmaciones generadas son verdaderas, verificables y no inventadas.
- Faithfulness score: puntuación que mide si una respuesta se mantiene fiel al contexto recuperado o a las fuentes dadas, sin añadir afirmaciones no sustentadas.
- False negative: ejemplo de la clase positiva que el modelo clasifica incorrectamente como negativo; equivale a un fallo en la detección.
- False positive: ejemplo de la clase negativa que el modelo clasifica incorrectamente como positivo; equivale a una alarma falsa.
- FP16 / half precision: formato numérico de 16 bits con mayor precisión de mantisa que BF16 pero menor rango de exponente; usado para reducir memoria y acelerar cómputo frente a FP32.
- Golden traces: ejecuciones de referencia de un agente o workflow usadas para comparar cambios posteriores en pasos, herramientas, salidas y métricas.
- Grounded QA eval: evaluación de preguntas y respuestas donde la respuesta debe estar sustentada por documentos o fuentes concretas.
- Human feedback: valoración, corrección o preferencia expresada por personas, usada para entrenar reward models, realizar SFT o evaluar la calidad de las respuestas.
- HumanEval: benchmark de evaluación de capacidad de generación de código, donde el modelo debe completar funciones Python a partir de docstrings y su solución se verifica ejecutando tests unitarios.
- Inter-rater agreement: medida del grado de concordancia entre múltiples evaluadores humanos que anotan los mismos ejemplos; valida la consistencia y fiabilidad de las anotaciones.
- IoU / Intersection over Union: métrica de evaluación en visión por computador que mide el solapamiento entre la región predicha y la región real, expresado como ratio de la intersección sobre la unión.
- Jailbreak success rate: proporción de ataques adversariales que consiguen evadir controles de seguridad o provocar una salida prohibida.
- Judge model / LLM-as-a-judge: modelo de lenguaje usado para evaluar la calidad de las respuestas de otros modelos, a menudo con una rúbrica explícita; permite escalar la evaluación sin intervención humana en cada ejemplo.
- Metric: medida cuantitativa usada para evaluar algún aspecto del rendimiento de un modelo o sistema.
- MMLU / Massive Multitask Language Understanding: benchmark de evaluación que cubre más de 57 materias académicas y profesionales mediante preguntas de opción múltiple; referencia ampliamente usada para medir conocimiento general y razonamiento de LLMs.
- Observability: capacidad de entender el estado interno y el comportamiento de un sistema de IA en producción mediante logs, métricas, trazas y alertas.
- Offline eval: evaluación ejecutada sobre datasets o trazas guardadas, sin exponer cambios a usuarios reales durante la medición.
- Online eval: evaluación realizada durante el uso real del sistema, con métricas de producción, feedback de usuarios o experimentos controlados.
- Over-refusal: rechazo innecesario de solicitudes legítimas por parte del modelo o sistema de seguridad.
- Pairwise comparison: método de evaluación que compara directamente dos salidas del modelo para determinar cuál es preferible, en lugar de puntuar cada una de forma absoluta.
- Pairwise preference eval: evaluación donde dos respuestas se comparan directamente y un juez elige la preferida según una rúbrica.
- Pass@k: métrica usada en generación de código y razonamiento que mide si al menos una de las k respuestas generadas resuelve correctamente la tarea.
- Perplexity: métrica que mide la incertidumbre de un modelo de lenguaje al predecir una secuencia de texto; equivale a la exponencial de la entropía cruzada media y es más baja para modelos que predicen mejor.
- Precision: proporción de predicciones positivas que son efectivamente correctas; mide la tasa de falsas alarmas del modelo.
- QA / Question Answering: tarea de producir respuestas precisas a preguntas formuladas en lenguaje natural, a partir de un contexto o del conocimiento interno del modelo.
- Recall: proporción de ejemplos positivos reales que el modelo identifica correctamente; mide la sensibilidad o completitud de la detección.
- Refusal precision: proporción de rechazos del modelo que eran realmente apropiados según la política o el criterio de seguridad.
- Refusal recall: proporción de solicitudes que debían rechazarse y que el modelo efectivamente rechazó.
- Regression eval set: conjunto estable de casos de evaluación usado para detectar si cambios de modelo, prompt o código degradan comportamientos existentes.
- Regression test: prueba que verifica que una mejora o cambio no ha degradado comportamientos previamente correctos del sistema.
- Robustness: capacidad del modelo de mantener un rendimiento aceptable ante variaciones en la entrada, ruido, distribuciones no vistas o ataques adversariales.
- ROC-AUC: métrica de clasificación binaria que mide el área bajo la curva ROC (tasa de verdaderos positivos vs. falsos positivos), independiente del umbral de decisión.
- Rubric: conjunto de criterios explícitos, ponderados o no, usados para evaluar sistemáticamente la calidad de las respuestas del modelo.
- Safety eval: evaluación de cumplimiento de políticas de seguridad, resistencia a ataques, calidad de rechazos y manejo de contenido sensible.
- Shadow deployment: despliegue donde una versión nueva procesa tráfico real en paralelo sin afectar al usuario, para comparar métricas antes de activarla.
- Synthetic evaluation: evaluación construida con casos generados artificialmente —por el modelo u otras herramientas— para cubrir escenarios difíciles, poco frecuentes o que requieren grandes volúmenes de ejemplos.
- Task success rate: porcentaje de tareas completadas correctamente de extremo a extremo según criterios observables y definidos previamente.
- Tool-call accuracy: métrica que mide si el agente selecciona la herramienta correcta, con argumentos válidos y en el momento adecuado.
- Toxicity score: puntuación que estima el grado de lenguaje ofensivo, abusivo, amenazante o dañino en una entrada o salida.
- Training: proceso de ajustar los parámetros de un modelo usando datos y una función de pérdida mediante optimización iterativa.
- True negative: ejemplo de la clase negativa que el modelo clasifica correctamente como negativo.
- True positive: ejemplo de la clase positiva que el modelo clasifica correctamente como positivo.
- Under-refusal: fallo del modelo al no rechazar una solicitud que debía bloquearse o redirigirse por motivos de seguridad o cumplimiento.
- Unit-test-based evaluation: evaluación de código o transformaciones mediante tests unitarios que verifican comportamiento esperado en casos concretos.
- WER / Word Error Rate: métrica de evaluación de STT que mide la tasa de errores de palabras —sustituciones, inserciones y eliminaciones— respecto a una transcripción de referencia.
- Win rate: proporción de comparaciones directas en las que un modelo supera a otro según jueces humanos o automáticos.
Seguridad, privacidad, gobernanza y alineamiento
Riesgos, políticas, privacidad, cumplimiento y seguridad aplicada.
- Abuse monitoring: detección y análisis continuo de patrones de uso indebido del sistema para identificar violaciones de política, abusos coordinados o intentos de explotación.
- Access control: mecanismo que restringe el acceso a datos, herramientas, funciones o sistemas a usuarios o componentes autorizados.
- Adversarial attack: intento deliberado de manipular el comportamiento de un modelo mediante entradas diseñadas para provocar fallos, salidas incorrectas o evasión de controles.
- AI alignment: campo de investigación dedicado a desarrollar técnicas para que los sistemas de IA persigan objetivos, valores y restricciones que sean verdaderamente beneficiosos para los humanos.
- AI safety: conjunto de prácticas, investigación y técnicas orientadas a reducir riesgos técnicos, sociales, operativos y de abuso en el desarrollo y despliegue de sistemas de IA.
- Alignment tax: coste potencial en capacidad, velocidad, flexibilidad o utilidad resultante de aplicar técnicas de alineación y restricciones de seguridad; tensión entre seguridad y rendimiento.
- Approval step: punto en un flujo agéntico donde se pausa la ejecución para obtener autorización explícita de un humano antes de continuar con acciones sensibles o irreversibles.
- Backdoor attack: ataque donde se inserta un patrón oculto (trigger) en los datos de entrenamiento que provoca que el modelo produzca salidas específicas controladas por el atacante cuando ese patrón está presente en la entrada.
- Canary token: valor señuelo o marcador oculto colocado en datos, prompts o sistemas para detectar filtraciones, accesos no autorizados o exfiltración de información confidencial.
- Capability scoping: limitación explícita de capacidades de un agente o aplicación para que solo pueda realizar acciones necesarias dentro de un ámbito definido.
- Constitutional AI (CAI): técnica de alineación de Anthropic que define un conjunto de principios explícitos y los usa para que el modelo critique, revise y mejore sus propias respuestas, reduciendo la necesidad de anotación humana masiva.
- Content filter: sistema que analiza y bloquea o modera contenido que viola políticas de uso, categorizado por tipo de riesgo.
- Corrigibility: propiedad de un sistema de IA de ser corregible, modificable y apagable por sus operadores humanos sin resistencia; concepto central en seguridad de IA para mantener el control humano sobre sistemas avanzados.
- Data minimization: principio de privacidad que limita la recolección y uso de datos personales al mínimo estrictamente necesario para el propósito declarado.
- Data poisoning: manipulación maliciosa de datos de entrenamiento, ajuste, evaluación o recuperación para alterar el comportamiento del modelo o sistema.
- Deceptive alignment / alineación engañosa: escenario hipotético de riesgo donde un modelo aprende a comportarse de forma alineada durante el entrenamiento y evaluación pero diverge de ese comportamiento en despliegue real; preocupación central en la seguridad de IA avanzada.
- Differential privacy: técnica matemáticamente fundamentada que añade ruido calibrado a datos o modelos para garantizar que las contribuciones individuales no sean recuperables, con garantías formales de privacidad.
- Egress control: restricción de las salidas de red o canales de comunicación disponibles para herramientas y agentes, reduciendo riesgo de exfiltración.
- Excessive agency: riesgo de conceder a un agente demasiada autonomía, permisos, alcance o capacidad de acción sin controles proporcionales.
- Exfiltration: extracción no autorizada de datos, credenciales o información confidencial desde un sistema, a menudo mediante prompt injection o herramientas comprometidas.
- Guardrail: restricción, filtro, verificación o capa de control que limita las salidas del modelo a rangos seguros y aceptables, aplicada antes, durante o después de la generación.
- Human approval: requisito de que una persona autorice explícitamente una acción antes de que el sistema la ejecute, especialmente en contextos de alto riesgo o consecuencias irreversibles.
- Improper output handling: uso inseguro de salidas del modelo como si fueran confiables, por ejemplo ejecutándolas como código, SQL, HTML o comandos sin validación.
- Indirect prompt injection: ataque donde instrucciones maliciosas llegan al modelo a través de contenido externo recuperado, como páginas web, documentos, emails o resultados de herramientas.
- Jailbreak: técnica o prompt diseñado para evadir las restricciones de seguridad, políticas de uso o instrucciones de sistema de un modelo de lenguaje.
- Jailbreak benchmark: suite de pruebas que mide la robustez de un modelo ante intentos de evasión de sus controles de seguridad.
- Least privilege for agents: principio de conceder a un agente solo los permisos, herramientas, datos y acciones estrictamente necesarios para su tarea.
- Membership inference attack: ataque de privacidad que intenta determinar si un ejemplo específico estuvo presente en el conjunto de entrenamiento de un modelo, basándose en diferencias de confianza o comportamiento del modelo.
- Misinformation: generación o amplificación de información falsa, engañosa o no verificada por sistemas basados en LLMs.
- Model poisoning: alteración maliciosa de pesos, adaptadores, checkpoints o artefactos de modelo para introducir comportamientos ocultos o degradar el sistema.
- Moderation: clasificación, filtrado o moderación de contenido generado o recibido según categorías de riesgo, seguridad o cumplimiento normativo.
- Output validation: comprobación estructural, semántica y de seguridad de las salidas del modelo antes de usarlas en sistemas posteriores.
- PII / Personally Identifiable Information: información que permite identificar directa o indirectamente a una persona natural, sujeta a regulaciones de privacidad como GDPR o CCPA.
- Policy enforcement: aplicación automática de reglas de seguridad, privacidad o cumplimiento en las entradas o salidas del sistema.
- Policy-as-code: gestión de reglas de seguridad, cumplimiento y control de acceso como código versionado, auditable y desplegable de forma automatizada.
- Privacy-preserving ML: conjunto de técnicas —privacidad diferencial, federated learning, computación segura— que permiten entrenar o usar modelos sin exponer datos individuales.
- Prompt injection: ataque donde contenido malicioso en la entrada del usuario o en datos recuperados intenta sobrescribir o anular las instrucciones del sistema para manipular el comportamiento del modelo.
- Prompt injection via retrieved content: variante de prompt injection donde el ataque se introduce en documentos o chunks recuperados por un sistema RAG.
- RAG poisoning: manipulación del corpus, índice, embeddings o metadatos de un sistema RAG para inducir recuperaciones falsas o maliciosas.
- Redaction: ocultación o eliminación irreversible de información sensible —PII, credenciales, datos confidenciales— en datos o respuestas antes de su almacenamiento o exposición.
- Refusal: respuesta donde el modelo rechaza una solicitud por violar restricciones de seguridad, políticas de uso o límites éticos definidos.
- Safety classifier: modelo especializado que analiza entradas o salidas y las clasifica según categorías de riesgo para activar filtros, alertas o bloqueos.
- Sandbox: entorno de ejecución aislado con permisos restringidos donde se ejecuta código o herramientas sin acceso a recursos del sistema principal.
- Secret: credencial sensible como una API key, contraseña o token de autenticación, que no debe incluirse en prompts ni exponerse en logs.
- Sensitive information disclosure: exposición accidental o inducida de datos sensibles, secretos, PII, instrucciones internas o información confidencial.
- Supply chain risk: riesgo derivado de dependencias externas como modelos, datasets, librerías, plugins, herramientas, proveedores o servidores MCP comprometidos.
- Sycophancy / adulación: tendencia de un modelo a validar las opiniones del usuario, cambiar sus respuestas según el feedback recibido o evitar contradecirle, aunque ello comprometa la precisión. (Ver también en Fundamentos.)
- System prompt leakage: filtración de instrucciones internas, mensajes de sistema o configuración confidencial que deberían permanecer ocultos al usuario o atacante.
- Tool poisoning: manipulación de descripciones, schemas, resultados o metadatos de herramientas para inducir al agente a actuar de forma insegura.
- Tool sandboxing: aislamiento de las herramientas disponibles para un agente, limitando su acceso a sistemas de archivos, red, credenciales y otras capacidades para reducir el radio de impacto de errores o ataques.
- Toxicity detection: identificación automática de lenguaje ofensivo, odioso, amenazante o dañino en entradas o salidas del sistema.
- Unbounded consumption: consumo no controlado de tokens, cómputo, llamadas a herramientas, almacenamiento o costes debido a bucles, abuso o falta de límites.
- Vector and embedding weaknesses: fallos específicos de índices vectoriales y embeddings, como recuperación manipulable, inversión de embeddings, fugas semánticas o filtrado insuficiente.
- Watermarking: inserción de señales estadísticas imperceptibles en el contenido generado por IA para permitir su identificación posterior como generado por máquina.
Gobernanza, regulación y cumplimiento de IA
Conceptos normativos, organizativos y de control para desarrollar, desplegar y auditar sistemas de IA de forma responsable.
- AI governance: conjunto de políticas, roles, procesos, controles y evidencias que dirigen el desarrollo, adquisición, despliegue y supervisión de sistemas de IA.
- AI impact assessment: evaluación sistemática de impactos potenciales de un sistema de IA sobre derechos, seguridad, privacidad, equidad, operaciones y partes afectadas.
- AI inventory / model inventory: registro centralizado de sistemas, modelos, datasets, proveedores, propietarios, riesgos, usos previstos y estado de aprobación.
- AI literacy: capacidad organizativa y de los usuarios para entender usos, límites, riesgos y responsabilidades asociados a sistemas de IA.
- AI Management System / AIMS: sistema de gestión organizativo para definir responsabilidades, procesos, controles, documentación y mejora continua en torno a IA.
- AI Office: órgano europeo encargado de supervisar aspectos del Reglamento de IA, especialmente modelos de propósito general y coordinación de implementación.
- Audit trail: registro verificable de decisiones, cambios, aprobaciones, datos, evaluaciones y operaciones relevantes para auditar un sistema de IA.
- Conformity assessment: proceso de evaluación que verifica si un sistema de IA cumple requisitos legales, técnicos o normativos antes de su comercialización o uso.
- Copyright policy: política que describe cómo una organización respeta derechos de autor en la obtención de datos, entrenamiento, generación y distribución de modelos o contenidos.
- Deployer: organización o persona que usa un sistema de IA bajo su autoridad, diferenciada del proveedor que lo desarrolla o comercializa.
- EU AI Act / Reglamento de IA de la UE: marco regulatorio europeo basado en riesgo que establece obligaciones para sistemas de IA, modelos de propósito general, transparencia, gobernanza y supervisión.
- General-purpose AI Code of Practice: código de práctica europeo destinado a ayudar a proveedores de modelos de propósito general a demostrar cumplimiento con obligaciones del AI Act.
- GPAI / General-Purpose AI model: modelo de IA de propósito general capaz de realizar una amplia variedad de tareas y de integrarse en múltiples sistemas o aplicaciones posteriores.
- GPAI model with systemic risk: modelo de propósito general con capacidades o escala que pueden generar riesgos sistémicos, sujeto a obligaciones adicionales de evaluación, mitigación, ciberseguridad y reporte.
- High-risk AI system: sistema de IA clasificado por regulación como de alto riesgo por su ámbito de uso o impacto potencial sobre derechos, seguridad o acceso a servicios esenciales.
- ISO/IEC 42001: norma internacional para establecer, implementar, mantener y mejorar un sistema de gestión de IA dentro de una organización.
- NIST AI RMF: marco voluntario de gestión de riesgos de IA del NIST, organizado en funciones como gobernar, mapear, medir y gestionar riesgos.
- Post-market monitoring: seguimiento continuo del comportamiento, incidentes, rendimiento y riesgos de un sistema de IA después de su despliegue o comercialización.
- Provider: organización o persona que desarrolla, comercializa o pone en servicio un sistema o modelo de IA bajo su nombre o marca.
- Risk register: registro vivo de riesgos identificados, severidad, probabilidad, controles, propietarios, estado de mitigación y evidencia asociada.
- Technical documentation: documentación técnica que describe arquitectura, datos, entrenamiento, evaluación, límites, riesgos y medidas de control de un sistema o modelo de IA.
- Training content summary: resumen público o documentado de los tipos de contenido usados para entrenar un modelo, normalmente a nivel agregado y no como listado completo de datos.
- Transparency obligation: obligación de informar a usuarios, autoridades o integradores sobre el uso, funcionamiento, limitaciones o naturaleza generada por IA de un sistema.
Multimodalidad, visión, audio y voz
Modelos y tareas con imagen, audio, voz, vídeo y texto.
- Audio model: modelo especializado en procesar o generar señales de audio, incluyendo transcripción, síntesis, clasificación o separación de fuentes.
- Audio tokens: unidades discretas o continuas usadas para representar señal de audio dentro de modelos generativos o multimodales.
- Bounding box grounding: capacidad de vincular una respuesta textual con regiones concretas de una imagen mediante cajas delimitadoras.
- Chart understanding: capacidad de interpretar gráficos, ejes, leyendas, tendencias y valores visuales para responder preguntas o extraer datos.
- CLIP / Contrastive Language-Image Pretraining: modelo de OpenAI entrenado con pares de imagen y texto mediante aprendizaje contrastivo, que aprende un espacio de embedding común para ambas modalidades; ampliamente usado para búsqueda multimodal, clasificación zero-shot y como encoder visual en VLMs.
- CNN / Convolutional Neural Network: red neuronal con capas de convolución que explotan la estructura espacial local de las imágenes, especialmente eficaz en visión por computador antes de la adopción generalizada de transformers.
- Computer vision: área de IA dedicada al procesamiento, análisis, comprensión y generación de imágenes y vídeo.
- Diffusion model: modelo generativo que aprende a revertir un proceso de adición progresiva de ruido gaussiano; genera imágenes, audio o vídeo de alta calidad partiendo de ruido puro e iterando pasos de denoising.
- Document AI: conjunto de técnicas para comprender documentos complejos combinando OCR, layout, tablas, extracción de entidades, clasificación y razonamiento.
- Document understanding: capacidad de analizar documentos con texto, estructura, tablas, imágenes y diseño visual para extraer significado y responder preguntas.
- Frame sampling: selección de fotogramas representativos de un vídeo para reducir coste computacional manteniendo información temporal relevante.
- Generative AI / IA generativa: categoría de IA que crea contenido nuevo y original —texto, imagen, audio, vídeo, código, datos sintéticos— a partir de modelos entrenados en grandes corpus.
- Image captioning: tarea de generación automática de descripciones textuales de imágenes, que requiere integrar comprensión visual y capacidad lingüística.
- Image generation: generación de imágenes a partir de descripciones textuales, imágenes de referencia u otras condiciones, mediante modelos de difusión, GANs u otras arquitecturas generativas.
- Image segmentation: tarea de dividir una imagen en regiones semánticamente significativas asignando una etiqueta a cada píxel, ya sea por categoría semántica o por instancia individual.
- Image-to-video: generación de vídeo condicionado por una imagen inicial, imagen de referencia o conjunto de frames.
- Latent diffusion: variante de los modelos de difusión que opera en el espacio latente comprimido de un autoencoder en lugar de en el espacio de píxeles, reduciendo drásticamente el coste computacional; base de Stable Diffusion.
- Layout-aware model: modelo que utiliza la posición y estructura visual del contenido, además del texto, para comprender documentos o interfaces.
- Multimodal AI: sistema de IA capaz de procesar o generar contenido en más de una modalidad: texto, imagen, audio, vídeo o acciones sobre interfaces.
- Native multimodal model: modelo entrenado desde su diseño para procesar o generar varias modalidades de forma integrada, sin depender solo de módulos externos acoplados.
- Object detection: tarea de detectar y localizar objetos de categorías definidas en una imagen, produciendo cajas delimitadoras y etiquetas de clase.
- OCR / Optical Character Recognition: extracción automática de texto legible por máquina a partir de imágenes, documentos escaneados o fotografías.
- Omni model: modelo capaz de trabajar de forma integrada con texto, imagen, audio, voz y a veces vídeo, manteniendo una interacción multimodal fluida.
- Pseudo-labeling: técnica de aprendizaje semisupervisado donde se usan las predicciones del modelo en datos no etiquetados como etiquetas provisionales para ampliar el conjunto de entrenamiento.
- Speech-to-speech: conversión directa o casi directa de habla de entrada a habla de salida, posiblemente con traducción, cambio de voz o razonamiento intermedio.
- Speech-to-text / STT: transcripción automática de señales de audio a texto, también llamada reconocimiento automático del habla (ASR).
- Table extraction: extracción estructurada de tablas desde PDFs, imágenes, hojas escaneadas o documentos con layout complejo.
- Temporal grounding: capacidad de localizar una afirmación, evento o respuesta en un instante o intervalo concreto de audio o vídeo.
- Text-to-image: generación de imágenes a partir de descripciones textuales mediante modelos generativos como difusión latente o transformers autoregresivos.
- Text-to-speech / TTS: síntesis de habla natural a partir de texto, produciendo audio de voz con prosodia, entonación y timbre controlables.
- Text-to-video: generación de secuencias de vídeo a partir de una descripción textual y parámetros de estilo, duración o movimiento.
- Video generation: creación de vídeo mediante modelos generativos, a partir de texto, imagen, vídeo de referencia u otras condiciones.
- Video understanding: capacidad de analizar vídeos considerando objetos, acciones, escenas, audio, eventos y relaciones temporales.
- Vision tokens: representaciones discretas o continuas de regiones, patches o características visuales que un modelo multimodal procesa junto con texto u otras modalidades.
- Vision-language model / VLM: modelo que integra un encoder visual —a menudo basado en CLIP o ViT— con un LLM, permitiendo razonar, responder preguntas y generar texto condicionado en imágenes.
- Visual grounding: capacidad de conectar términos, respuestas o instrucciones con elementos visuales concretos de una imagen, documento o vídeo.
- VQA / Visual Question Answering: tarea de responder preguntas en lenguaje natural sobre el contenido de una imagen, que requiere integrar comprensión visual y lingüística; benchmark habitual para evaluar VLMs.
Producción, inferencia e infraestructura
Serving, despliegue, hardware, costes, latencia y operación.
- API inference: uso de un modelo alojado remotamente mediante llamadas a una API REST o equivalente para obtener predicciones o respuestas, sin gestionar la infraestructura localmente.
- Autoscaling: ajuste automático de la capacidad de computación o instancias de serving en respuesta a variaciones en la demanda, manteniendo latencia y disponibilidad.
- Autoscaling policy: regla o configuración que determina cuándo aumentar o reducir réplicas, capacidad GPU, colas o recursos según demanda, latencia o coste.
- Batch API: modo de procesamiento asíncrono o agrupado de muchas peticiones, optimizado para coste o throughput cuando la latencia interactiva no es prioritaria.
- Batch inference: ejecución de inferencias agrupando múltiples peticiones en un batch para optimizar el uso de GPU y reducir el coste por petición.
- Cache hit rate: proporción de peticiones que se resuelven desde caché —de KV cache, prompt cache u otras— sin recalcular, reduciendo latencia y coste.
- Capacity planning: estimación de recursos necesarios para atender tráfico esperado considerando tokens, concurrencia, latencia, modelos, GPUs, colas y margen operativo.
- Cold start: latencia adicional experimentada cuando una instancia de serving arranca desde cero o carga el modelo por primera vez antes de poder atender peticiones.
- Continuous batching: técnica de serving que agrupa dinámicamente peticiones en distintos estados de generación en un mismo batch de GPU, maximizando la utilización del hardware y el throughput.
- Decode phase: fase de inferencia autoregresiva en la que el modelo genera tokens nuevos uno a uno usando la KV cache acumulada.
- Deployment: proceso de poner un modelo o sistema en producción, incluyendo configuración, integración, pruebas y monitorización.
- Distilled reasoning model: modelo más pequeño entrenado para imitar el comportamiento de razonamiento de un modelo mayor, reduciendo coste y latencia.
- Edge AI: ejecución de modelos en dispositivos cercanos al usuario o al sensor, como móviles, navegadores, gateways o hardware industrial.
- End-to-end latency: tiempo total desde que el usuario envía una petición hasta que recibe la respuesta final, incluyendo red, recuperación, herramientas, modelo y postprocesado.
- Endpoint: punto de acceso de una API —URL, método HTTP y esquema de datos— que expone la funcionalidad del modelo a aplicaciones cliente.
- FlashAttention: implementación matemáticamente exacta del mecanismo de atención que reordena las operaciones para minimizar accesos a memoria de alta latencia (HBM), acelerando el entrenamiento y la inferencia de transformers con ventanas de contexto largas.
- Flex processing: modalidad de procesamiento con menor prioridad o ventanas de ejecución flexibles a cambio de menor coste o mejor aprovechamiento de capacidad.
- GPU: unidad de procesamiento paralelo con miles de núcleos especializados en operaciones matriciales, usada como acelerador principal para entrenamiento e inferencia de modelos de IA.
- H100, A100, TPU: hardware especializado para IA; H100 y A100 son GPUs de NVIDIA de alta gama usadas en centros de datos; TPU (Tensor Processing Unit) es el acelerador propietario de Google optimizado para operaciones de redes neuronales.
- Inference latency: tiempo total transcurrido entre el envío de una petición al modelo y la recepción de la respuesta completa.
- Inference optimization: conjunto de técnicas —cuantización, KV cache, batching, destilación, especulative decoding— para reducir coste, latencia o consumo de memoria durante la inferencia sin degradar significativamente la calidad.
- Inference server: servidor software que expone modelos de IA para atender peticiones en producción, gestionando batching, caché y escalado.
- KV cache eviction: política de liberación o reemplazo de entradas de KV cache cuando hay presión de memoria o cambios de contexto.
- KV cache quantization: reducción de precisión de la KV cache para ahorrar memoria y aumentar concurrencia, con posible impacto en calidad o estabilidad.
- Latency: tiempo de respuesta de un sistema medido desde la petición hasta la recepción de la respuesta; componente clave de la experiencia de usuario.
- Load balancing: distribución de peticiones entrantes entre múltiples instancias o servidores para optimizar utilización y evitar sobrecargas.
- Model compression: conjunto de técnicas —cuantización, pruning, destilación, factorización— que reducen el tamaño de un modelo manteniendo el máximo rendimiento posible para facilitar su despliegue en hardware con recursos limitados.
- Model registry: repositorio centralizado que almacena, versiona y gestiona modelos entrenados junto con sus metadatos, artefactos de evaluación y configuraciones de despliegue.
- Monitoring: observación continua de métricas de rendimiento, calidad, costes, errores y anomalías de un sistema en producción.
- NPU / Neural Processing Unit: acelerador especializado en operaciones de redes neuronales, común en dispositivos móviles, ordenadores personales y edge hardware.
- On-device inference: ejecución del modelo directamente en el dispositivo del usuario —móvil, navegador, edge device— sin enviar datos a servidores remotos.
- ONNX: formato abierto para representar modelos de machine learning y facilitar interoperabilidad entre frameworks, runtimes y hardware.
- Output parser: componente que transforma la salida textual del modelo en una estructura de datos utilizable por la aplicación —objeto JSON, lista, tipo Python u otro formato.
- PagedAttention: técnica de gestión de memoria para KV cache inspirada en la paginación de sistemas operativos, que asigna bloques de memoria no contiguos para distintas secuencias, reduciendo fragmentación y permitiendo mayor concurrencia en serving.
- Pipeline: cadena de pasos automatizados y conectados que procesan datos o ejecutan inferencias de extremo a extremo.
- Pipeline parallelism: distribución de las capas de un modelo entre varios dispositivos o nodos, de forma que cada dispositivo procesa un subconjunto de capas y pasa activaciones al siguiente en la cadena.
- Prefill: fase inicial de inferencia donde el modelo procesa todos los tokens de entrada y construye la KV cache antes de empezar a generar.
- Prefix cache: caché de prefijos de prompt compartidos entre peticiones para evitar recomputar instrucciones, contexto o plantillas repetidas.
- Priority processing: modo de ejecución que asigna mayor prioridad a ciertas peticiones o clientes para reducir colas y latencia bajo carga.
- Prompt cache hit: caso en que una parte del prompt ya procesada se reutiliza desde caché, reduciendo coste y latencia.
- Pruning: técnica de compresión de modelos que elimina pesos, neuronas, cabezas de atención o capas con baja importancia, reduciendo el tamaño y coste del modelo con pérdida controlada de rendimiento.
- Quantization: reducción de la precisión numérica de pesos o activaciones —de FP32 a INT8, INT4 u otros formatos— para disminuir el consumo de memoria y acelerar la inferencia con pérdida mínima de calidad.
- Queue time: tiempo que una petición espera antes de empezar a ser procesada por el modelo o por una herramienta.
- Rate limit: restricción del número de peticiones o tokens que un cliente puede enviar a una API en un periodo de tiempo determinado, para garantizar equidad y estabilidad del servicio.
- Reasoning effort: parámetro o configuración que controla cuánto cómputo de razonamiento dedica un modelo antes de responder.
- Serverless inference: inferencia en infraestructura gestionada por el proveedor que escala automáticamente hasta cero cuando no hay demanda y factura por uso efectivo.
- Serving: exposición de un modelo entrenado para recibir peticiones de inferencia en producción, incluyendo la gestión de la infraestructura, el batching y el escalado.
- Serving replica: instancia de servicio que ejecuta uno o varios modelos para atender peticiones; varias réplicas permiten escalar y tolerar fallos.
- Small language model / SLM: modelo de lenguaje compacto optimizado para menor coste, menor latencia, despliegue local o tareas especializadas.
- Tensor parallelism: distribución de las operaciones matriciales de un modelo —por ejemplo, dividiendo las matrices de pesos entre varias GPU— para reducir la memoria por dispositivo y acelerar la inferencia o el entrenamiento.
- TensorRT-LLM: conjunto de herramientas de NVIDIA para optimizar y servir LLMs en GPUs, aplicando kernels y técnicas de inferencia de alto rendimiento.
- Throughput per GPU: cantidad de tokens, peticiones o tareas que una GPU puede procesar por unidad de tiempo bajo una configuración concreta.
- Tokens per second: velocidad de generación o procesamiento medida como número de tokens por segundo.
- Tool latency: tiempo añadido por llamadas a herramientas externas, incluyendo red, ejecución, autenticación, lectura de resultados y validación.
- TPOT / Time per Output Token: métrica de latencia que mide el tiempo medio de generación por token después del primer token; junto con TTFT, caracteriza la experiencia de streaming del usuario.
- TTFT / Time to First Token: métrica de latencia que mide el tiempo transcurrido desde el envío de la petición hasta la recepción del primer token de la respuesta; crítica para la percepción de responsividad en aplicaciones interactivas.
- vLLM: motor de serving de LLMs de alto rendimiento que implementa PagedAttention y continuous batching para maximizar el throughput y la eficiencia en el uso de memoria GPU.
Interpretabilidad mecánica
Técnicas para entender los mecanismos internos de los modelos de lenguaje.
- Activation patching / causal tracing: técnica de interpretabilidad que sustituye las activaciones internas del modelo en un contexto por las de otro contexto para identificar qué componentes son causalmente responsables de una diferencia en la salida; permite localizar dónde se almacena y procesa información específica.
- Activation steering: modificación dirigida de activaciones internas durante la inferencia para influir en comportamiento, estilo, seguridad o contenido generado.
- Attention pattern: distribución de atención de una cabeza o capa, que indica qué posiciones del contexto influyen más en cada token.
- Attribution patching: técnica que aproxima qué componentes internos contribuyen causalmente a una salida, combinando ideas de atribución y patching de activaciones.
- Causal intervention: manipulación controlada de activaciones, pesos o entradas para medir efectos causales sobre la salida del modelo.
- Circuit: conjunto de componentes internos —features, neuronas, cabezas o capas— que implementa una función o comportamiento identificable dentro del modelo.
- Feature interna: dirección, patrón o variable latente dentro de las activaciones que representa una propiedad interpretable de los datos o del comportamiento del modelo.
- Feature steering: uso de features identificadas para aumentar, reducir o controlar comportamientos del modelo durante generación o análisis.
- Latent feature: característica representada internamente en el espacio de activaciones del modelo, no observada directamente en los datos de entrada.
- Linear probing / probing: técnica que entrena un clasificador lineal simple sobre las representaciones internas de un modelo para determinar qué información está linealmente codificada en cada capa; permite evaluar qué conceptos aprende el modelo sin acceso a sus mecanismos de decisión.
- Logit lens: técnica que proyecta activaciones intermedias al vocabulario para inspeccionar qué predicciones parciales aparecen en distintas capas.
- Mechanistic interpretability: subcampo de la interpretabilidad que busca comprender los circuitos, algoritmos y representaciones específicas implementadas dentro de los pesos de un modelo de lenguaje, con el objetivo de poder describir su funcionamiento en términos comprensibles para humanos.
- Monosemanticity: propiedad de una feature o neurona de corresponder principalmente a un único concepto interpretable.
- Polysemanticity: fenómeno donde una misma neurona, dirección o feature responde a múltiples conceptos no relacionados de forma aparente.
- Refusal vector: dirección o patrón de activación asociado a comportamientos de rechazo, usado en estudios de control e interpretabilidad.
- Representation engineering: conjunto de técnicas que identifican, modifican o controlan representaciones internas para cambiar comportamiento del modelo sin reentrenamiento completo.
- Sparse autoencoder / SAE: autoencoder con restricción de dispersión entrenado sobre las activaciones internas de un LLM para descomponer representaciones polisémicas en features más monosémicas e interpretables, facilitando el estudio de qué conceptos están representados en el modelo.
- Steering vector: vector añadido, sustraído o amplificado en activaciones internas para orientar la generación hacia una propiedad o comportamiento deseado.
- Superposition: fenómeno donde un modelo de redes neuronales representa más features que dimensiones tiene su espacio de activaciones, codificando múltiples conceptos en una misma dirección del espacio vectorial de forma aproximadamente ortogonal; hipótesis central en interpretabilidad mecánica para explicar la alta capacidad representacional de redes estrechas.
Tareas y métodos clásicos
Tareas de ML/NLP y algoritmos clásicos no limitados a LLMs.
- Algorithm: procedimiento formal y determinista para resolver un problema en un número finito de pasos.
- Anomaly detection: identificación de datos, eventos o patrones que se desvían significativamente de la distribución esperada, usada en detección de fraude, fallos o intrusiones.
- Artificial General Intelligence / AGI: concepto de sistema de IA capaz de realizar con competencia cualquier tarea cognitiva que un humano pueda hacer, sin requerir especialización por tarea.
- Binary classification: tarea de clasificar ejemplos en exactamente dos categorías mutuamente excluyentes.
- Classification: tarea de asignar una o varias categorías predefinidas a una entrada.
- Classifier: modelo entrenado para realizar clasificación, produciendo etiquetas de clase o probabilidades sobre ellas.
- Clustering: agrupación automática de datos en grupos por similitud sin etiquetas previas, descubriendo estructura latente en los datos.
- Confabulation: generación de información falsa o no sustentada presentada con aparente confianza; término técnico preferido por algunos autores en lugar de "alucinación".
- Generative model: modelo que aprende la distribución de los datos de entrenamiento para producir nuevas muestras estadísticamente similares.
- Heuristic: regla empírica o solución aproximada usada para resolver problemas cuando no existe solución exacta eficiente.
- Inference: proceso de ejecutar un modelo entrenado sobre nuevas entradas para producir predicciones o respuestas, sin modificar sus parámetros.
- Intent classification: tarea de identificar el propósito o intención del usuario a partir de su mensaje, para dirigir el flujo de la aplicación.
- k-means: algoritmo de clustering que asigna iterativamente cada punto al centroide más cercano de k grupos y actualiza los centroides, minimizando la varianza intra-cluster.
- k-nearest neighbors / k-NN: método no paramétrico que clasifica o recupera ejemplos basándose en los k ejemplos de entrenamiento más similares a la nueva entrada.
- Machine learning / ML: subcampo de la IA donde los sistemas aprenden automáticamente patrones y reglas a partir de datos, sin ser programados explícitamente para cada tarea.
- ML Ops / MLOps: conjunto de prácticas, herramientas y cultura para desplegar, monitorizar, versionar y mantener modelos de ML en producción de forma fiable y escalable.
- Model collapse: degradación progresiva de un modelo entrenado predominantemente sobre datos generados por otros modelos, perdiendo diversidad y acumulando sesgos generativos.
- Multiclass classification: tarea de clasificar ejemplos en más de dos categorías mutuamente excluyentes.
- Natural language processing / NLP: área de la IA dedicada al procesamiento, comprensión y generación automática de lenguaje humano.
- Out-of-distribution / OOD: dato que difiere significativamente de la distribución de entrenamiento, para el que el modelo puede producir predicciones poco fiables.
- Overfitting: fenómeno donde el modelo memoriza el ruido o particularidades del conjunto de entrenamiento y pierde capacidad de generalizar a nuevos datos.
- Ranking: tarea de ordenar un conjunto de elementos —documentos, respuestas, recomendaciones— por relevancia o calidad respecto a una consulta.
- Recommendation system: sistema que sugiere elementos relevantes a usuarios basándose en su historial, preferencias o similitud con otros usuarios o elementos.
- Red teaming: prueba adversarial sistemática donde equipos o modelos intentan activamente encontrar fallos, abusos, vulnerabilidades o comportamientos no deseados en un sistema de IA.
- Regression: tarea de predecir un valor numérico continuo a partir de las variables de entrada.
- Self-consistency: técnica que genera múltiples soluciones independientes para un mismo problema y selecciona la respuesta más frecuente o coherente por votación mayoritaria o verificación cruzada.
- Sentiment analysis: tarea de clasificar el tono emocional o actitud expresada en un texto —positivo, negativo, neutro u otras categorías más granulares.
- Text classification: tarea general de asignar categorías predefinidas a fragmentos de texto basándose en su contenido.
- Underfitting: fenómeno donde el modelo es demasiado simple o está insuficientemente entrenado, incapaz de capturar la estructura real de los datos.