Glosario de inteligencia artificial

Índice de áreas

Fundamentos de IA, ML y aprendizaje
Modelos, arquitecturas y componentes internos
Entrenamiento, adaptación y optimización
Datos, datasets y preparación
LLMs, prompts, contexto y generación
RAG, búsqueda, embeddings y conocimiento
Agentes, herramientas y orquestación
Evaluación, métricas y calidad
Seguridad, privacidad y alineamiento
Gobernanza, regulación y cumplimiento de IA
Multimodalidad, visión, audio y voz
Producción, inferencia e infraestructura
Interpretabilidad mecánica
Tareas y métodos clásicos

Fundamentos de IA, ML y aprendizaje

Conceptos base para entender IA, aprendizaje automático y los tipos generales de modelos.

AI assistant: aplicación basada en uno o varios modelos de IA que interactúa con usuarios, responde preguntas o ejecuta tareas; puede gestionar historial, herramientas o memoria según su diseño. Referencia: Wang et al. (2023), A Survey on Large Language Model Based Autonomous Agents, arXiv:2308.11432.
Artificial Intelligence / IA: disciplina que crea sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como razonar, percibir, aprender o generar lenguaje. Referencia: McCarthy, Minsky, Rochester y Shannon (1955), A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Black-box model: modelo cuyo funcionamiento interno no es fácilmente interpretable; se observan entradas y salidas pero no los mecanismos que las conectan. Referencia: Guidotti et al. (2018), A Survey of Methods for Explaining Black Box Models, ACM Computing Surveys, 51(5), artículo 93. DOI: 10.1145/3236009.
Bottleneck: componente o paso de un sistema que limita el rendimiento total; puede ser de cómputo, memoria, datos o latencia. Referencia: Amdahl (1967), Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities. DOI: 10.1145/1465482.1465560.
Chatbot: sistema conversacional automatizado que interactúa con usuarios mediante lenguaje natural, con o sin modelo de lenguaje subyacente. Referencia: Weizenbaum (1966), ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine, Communications of the ACM, 9(1). DOI: 10.1145/365153.365168.
Checkpoint: instantánea guardada del estado de entrenamiento o de los parámetros de un modelo. Puede incluir pesos, estado del optimizador, planificador y metadatos, aunque los checkpoints destinados a inferencia suelen contener solo los artefactos necesarios para ejecutar el modelo. Referencia: Rojas et al. (2020), A Study of Checkpointing in Large Scale Training of Deep Neural Networks, arXiv:2012.00825.
Claude, Gemini, GPT, Llama, Mistral: familias de modelos fundacionales o LLMs de distintos proveedores —Anthropic, Google, OpenAI, Meta y Mistral AI, respectivamente—. Referencia: Minaee et al. (2024), Large Language Models: A Survey, arXiv:2402.06196, versión revisada en 2025.
Code interpreter: herramienta que permite a un modelo ejecutar código en un entorno seguro para analizar datos, calcular resultados o transformar archivos. Referencia: Gao et al. (2023), PAL: Program-Aided Language Models, Proceedings of ICML 2023, PMLR 202.
Contrastive learning: paradigma que aprende representaciones acercando pares considerados similares y alejando pares distintos. Las relaciones entre pares pueden derivarse de etiquetas, de aumentos de datos o de otras señales autosupervisadas. Referencia: Hadsell, Chopra y LeCun (2006), Dimensionality Reduction by Learning an Invariant Mapping, CVPR 2006. DOI: 10.1109/CVPR.2006.100.
Cursor / pointer: referencia interna usada por algunos sistemas para continuar una operación o paginación, indicando la posición actual en un conjunto de resultados. Referencia técnica: Model Context Protocol (2025), Pagination Specification: los cursores se definen como tokens opacos que representan una posición dentro de un conjunto de resultados.
Custom model: modelo adaptado o entrenado específicamente para un dominio, tarea o empresa concreta. Referencia: Pan y Yang (2010), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, 22(10). DOI: 10.1109/TKDE.2009.191.
Distribution shift: cambio entre la distribución estadística de los datos de entrenamiento y la de los datos vistos en producción, lo que puede degradar el rendimiento. Referencia: Moreno-Torres et al. (2012), A Unifying View on Dataset Shift in Classification, Pattern Recognition, 45(1), 521–530. DOI: 10.1016/j.patcog.2011.06.019.
Emergent capabilities / comportamientos emergentes: capacidades observadas al escalar ciertos modelos que no estaban explícitamente programadas ni eran evidentes en modelos menores; su medición depende del benchmark, la forma de evaluación y el umbral usado para considerar que una capacidad está presente. Referencia: Schaeffer, Miranda y Koyejo (2023), Are Emergent Abilities of Large Language Models a Mirage?, NeurIPS 2023, arXiv:2304.15004.
Ensemble: combinación de las predicciones de varios modelos independientes para mejorar robustez o rendimiento frente a cualquier modelo individual. Referencia: Dietterich (2000), Ensemble Methods in Machine Learning, Multiple Classifier Systems. DOI: 10.1007/3-540-45014-9_1.
Explainability: capacidad de explicar en lenguaje comprensible por qué un modelo produjo una salida concreta, orientada a usuarios finales o reguladores. Referencia: Miller (2019), Explanation in Artificial Intelligence: Insights from the Social Sciences, Artificial Intelligence, 267, 1–38. DOI: 10.1016/j.artint.2018.07.007.
GAN / Generative Adversarial Network: arquitectura generativa con un generador y un discriminador entrenados con objetivos adversariales. El generador intenta producir muestras que el discriminador no distinga de las reales, sin que el entrenamiento garantice indistinguibilidad perfecta. Referencia: Goodfellow et al. (2014), Generative Adversarial Nets, Advances in Neural Information Processing Systems 27, arXiv:1406.2661.
Ground truth: respuesta, etiqueta o anotación considerada correcta y usada como referencia para entrenamiento o evaluación. Referencia: Aroyo y Welty (2015), Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation, AI Magazine, 36(1), 15–24. DOI: 10.1609/aimag.v36i1.2564.
Hallucination / alucinación: salida generada por un modelo que parece plausible y fluida pero contiene información falsa, inventada, no verificada o no sustentada por el contexto, las fuentes disponibles o la realidad. Referencia: Ji et al. (2023), Survey of Hallucination in Natural Language Generation, ACM Computing Surveys, 55(12). DOI: 10.1145/3571730.
Interpretability: capacidad de entender los mecanismos internos de un modelo —qué representaciones aprende, cómo toma decisiones— más allá de observar entradas y salidas. Referencia: Lipton (2018), The Mythos of Model Interpretability, Communications of the ACM, 61(10). DOI: 10.1145/3236386.3241340.
LSTM / Long Short-Term Memory: variante de RNN con compuertas de entrada, salida y olvido que facilita conservar o descartar información a lo largo de una secuencia y mitiga, sin eliminar por completo, el problema del gradiente evanescente. Referencia: Hochreiter y Schmidhuber (1997), Long Short-Term Memory, Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735.
Mean squared error / MSE: función de pérdida habitual en regresión que calcula la media del cuadrado de las diferencias entre predicciones y valores reales. Referencia: Chai y Draxler (2014), Root Mean Square Error (RMSE) or Mean Absolute Error (MAE)?—Arguments Against Avoiding RMSE in the Literature, Geoscientific Model Development, 7, 1247–1250. DOI: 10.5194/gmd-7-1247-2014.
Memory: información persistente o recuperable que un sistema utiliza entre interacciones o pasos de inferencia para mantener contexto, preferencias o estado. Referencia: Packer et al. (2023), MemGPT: Towards LLMs as Operating Systems, arXiv:2310.08560.
Model: sistema entrenado que transforma entradas en salidas mediante parámetros aprendidos a partir de datos. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260. DOI: 10.1126/science.aaa8415.
Model card: documento estructurado que describe usos previstos, capacidades, limitaciones, evaluaciones, riesgos y otra información relevante de un modelo. No existe un único formato obligatorio para todos los contextos. Referencia: Mitchell et al. (2019), Model Cards for Model Reporting, Proceedings of FAT* 2019, 220–229. DOI: 10.1145/3287560.3287596.
Model drift: cambio del comportamiento o rendimiento de un modelo en producción a lo largo del tiempo, asociado a cambios en datos, relaciones objetivo, entorno, usuarios o pipeline. Referencia: Gama et al. (2014), A Survey on Concept Drift Adaptation, ACM Computing Surveys, 46(4), artículo 44. DOI: 10.1145/2523813.
Multi-hop reasoning: razonamiento que requiere encadenar varias evidencias, recuperaciones o pasos de inferencia para llegar a una conclusión que ningún dato individual proporciona directamente. Referencia: Yang et al. (2018), HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering, EMNLP 2018. DOI: 10.18653/v1/D18-1259.
Reasoning model: modelo ajustado o configurado para dedicar más cómputo de inferencia a tareas de lógica, planificación, matemáticas, código u otros problemas multietapa. El proceso interno no tiene por qué exponerse como una cadena de pensamiento legible. Referencia: Snell et al. (2025), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, ICLR 2025, arXiv:2408.03314.
RNN / Recurrent Neural Network: red neuronal con conexiones cíclicas que procesa secuencias paso a paso, manteniendo un estado oculto que se actualiza en cada paso; precursora de los transformers en tareas de lenguaje. Referencia: Elman (1990), Finding Structure in Time, Cognitive Science, 14(2), 179–211. DOI: 10.1207/s15516709cog1402_1.
Sequence-to-sequence / seq2seq: modelo que transforma una secuencia de entrada en una secuencia de salida de longitud potencialmente distinta, como en traducción automática o resumen. Referencia: Sutskever, Vinyals y Le (2014), Sequence to Sequence Learning with Neural Networks, Advances in Neural Information Processing Systems 27, arXiv:1409.3215.
User intent: objetivo real que se infiere de una petición del usuario, que puede diferir de su formulación literal. Referencia: Wu et al. (2025), Multi-Intent Spoken Language Understanding: Methods, Trends, and Challenges. DOI: 10.1007/s44336-025-00029-6.
VAE / Variational Autoencoder: autoencoder generativo que aprende parámetros de una distribución latente y se entrena combinando reconstrucción y regularización probabilística, lo que permite muestrear nuevas representaciones y generar datos. Referencia: Kingma y Welling (2014), Auto-Encoding Variational Bayes, ICLR 2014, arXiv:1312.6114.
XAI / Explainable AI: conjunto de técnicas y marcos metodológicos para hacer los sistemas de IA más explicables, interpretables y auditables. Referencia: Barredo Arrieta et al. (2020), Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges Toward Responsible AI, Information Fusion, 58, 82–115. DOI: 10.1016/j.inffus.2019.12.012.

Modelos, arquitecturas y componentes internos

Partes internas de modelos neuronales y arquitecturas habituales.

Activation function: función aplicada a la salida de una unidad o capa; suele ser no lineal para permitir que la red represente relaciones complejas. Ejemplos: ReLU, GELU, sigmoid y tanh. Referencia: Glorot, Bordes y Bengio (2011), Deep Sparse Rectifier Neural Networks, Proceedings of AISTATS, PMLR 15, 315–323.
Attention: mecanismo que permite a un modelo ponderar dinámicamente qué partes de la entrada son más relevantes para producir cada elemento de la salida, operando sobre tripletas de vectores query, key y value. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Autoencoder: red neuronal que aprende a comprimir datos en una representación compacta —encoder— y a reconstruirlos desde esa representación —decoder—, usada en reducción de dimensionalidad y detección de anomalías. Referencia: Hinton y Salakhutdinov (2006), Reducing the Dimensionality of Data with Neural Networks, Science, 313(5786), 504–507. DOI: 10.1126/science.1127647.
Cross-attention: mecanismo de atención entre dos secuencias distintas —por ejemplo, la entrada y la salida parcial— que permite al decoder consultar representaciones del encoder. Referencia: Vaswani et al. (2017), Attention Is All You Need, especialmente la atención del decoder sobre la salida del encoder, arXiv:1706.03762.
Decoder: componente de un modelo que genera una secuencia de salida token a token, condicionado en su propia salida previa y, en modelos encoder-decoder, en la representación del encoder. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Deep learning: subcampo del aprendizaje automático basado en redes neuronales con múltiples capas que aprenden representaciones jerárquicas de los datos. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539.
Encoder: componente que transforma una entrada en una o varias representaciones internas. En secuencias suele producir un vector por posición, aunque algunas arquitecturas generan una representación agregada. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Encoder-decoder transformer: arquitectura transformer con un encoder que codifica la entrada completa y un decoder autoregresivo que genera la salida, usado en traducción, resumen y sistemas de diálogo. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Foundation model: modelo grande preentrenado con grandes volúmenes de datos diversos y adaptable a múltiples tareas mediante prompting, fine-tuning o integración con herramientas; puede ser textual, visual, de audio, de vídeo o multimodal. Referencia: Bommasani et al. (2021), On the Opportunities and Risks of Foundation Models, arXiv:2108.07258.
Fully connected layer / dense layer: capa en la que cada unidad de salida recibe una combinación de todas las activaciones de entrada. Se usa tanto en clasificadores como dentro de bloques feed-forward y otras partes de redes neuronales. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Graph neural network / GNN: red neuronal diseñada para datos estructurados como grafos, que propaga información entre nodos vecinos iterativamente. Referencia: Zhou et al. (2020), Graph Neural Networks: A Review of Methods and Applications, AI Open, 1, 57–81; versión inicial arXiv:1812.08434.
Hidden layer: capa intermedia de una red neuronal situada entre la entrada y la salida, responsable de aprender representaciones internas. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Language model: modelo que asigna probabilidades a secuencias de texto o que, condicionado en un contexto, predice, genera o analiza lenguaje. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155.
Latent space: espacio de representaciones internas aprendidas por un modelo. La proximidad puede reflejar similitud útil para el objetivo de entrenamiento, aunque no garantiza una semántica interpretable en todas sus regiones. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50.
Layer: componente modular de una red neuronal que aplica una transformación matemática a su entrada para producir una salida. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539.
Layer normalization / LayerNorm: técnica de normalización que estandariza las activaciones dentro de cada capa —a lo largo de la dimensión de características, no del batch— estabilizando el entrenamiento de transformers y redes profundas. Referencia: Ba, Kiros y Hinton (2016), Layer Normalization, arXiv:1607.06450.
Logit: valor numérico sin normalizar producido por la última capa del modelo, previo a la conversión en probabilidades mediante softmax u otras funciones. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28.
Masked language model: modelo de lenguaje entrenado para predecir tokens enmascarados dentro de una secuencia, usando contexto bidireccional; paradigma de BERT y sus variantes. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423.
Mixture of Experts / MoE: arquitectura con varios módulos expertos y un router que selecciona uno o varios para cada token o ejemplo. Permite aumentar el número total de parámetros manteniendo activo solo un subconjunto por operación; los expertos no siempre presentan especializaciones interpretables. Referencia: Shazeer et al. (2017), Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, ICLR 2017, arXiv:1701.06538.
Model weights: conjunto de parámetros numéricos aprendidos durante el entrenamiento que definen el comportamiento del modelo. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Multi-head attention: extensión del mecanismo de atención que aplica múltiples cabezas de atención en paralelo, cada una con sus propias proyecciones query, key y value, permitiendo al modelo capturar distintos tipos de relaciones simultáneamente; componente central del transformer. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Neural network: modelo compuesto por capas de unidades computacionales conectadas que aprenden transformaciones no lineales mediante optimización por gradiente. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Neuron: unidad computacional básica de una red neuronal que aplica una suma ponderada de sus entradas seguida de una función de activación. Referencia: McCulloch y Pitts (1943), A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, 5, 115–133. DOI: 10.1007/BF02478259.
Open weights: modelos cuyos pesos están disponibles públicamente para descarga o inspección; no implica necesariamente licencia open source, permiso de uso comercial, derecho de modificación ni redistribución. Referencia: White et al. (2024), The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence, arXiv:2403.13784.
Parameter: valor escalar aprendido por el modelo durante el entrenamiento; el número total de parámetros es una métrica habitual del tamaño del modelo. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Positional encoding: mecanismo que incorpora información de orden o posición a las representaciones de entrada o a la atención. Sin esa información, la self-attention es equivariante a permutaciones y no distingue por sí sola el orden de los tokens. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Residual connection / skip connection: conexión que combina la entrada de un bloque con su salida, normalmente mediante suma. Facilita el flujo de gradientes y el entrenamiento de redes profundas, aunque no evita por sí sola todos los problemas de optimización. Referencia: He, Zhang, Ren y Sun (2016), Deep Residual Learning for Image Recognition, Proceedings of CVPR 2016, 770–778. DOI: 10.1109/CVPR.2016.90.
RoPE / Rotary Position Embedding: método de codificación posicional que rota componentes de query y key según la posición, haciendo que sus productos internos incorporen posiciones relativas. La extrapolación a longitudes mayores no está garantizada y suele requerir escalado o ajustes específicos. Referencia: Su et al. (2021), RoFormer: Enhanced Transformer with Rotary Position Embedding, arXiv:2104.09864.
Router model: modelo o módulo que decide a qué experto, herramienta, modelo especializado o ruta de procesamiento enviar una petición según su contenido. Referencia: Ong et al. (2024), RouteLLM: Learning to Route LLMs with Preference Data, arXiv:2406.18665.
Self-attention: mecanismo de atención en el que queries, keys y values proceden de la misma secuencia. Cada posición atiende a las posiciones permitidas por la máscara, que pueden incluir toda la secuencia o solo una parte, como el prefijo causal. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Softmax: función que transforma logits finitos en valores positivos que suman 1 mediante exponenciación y normalización. La concentración de la distribución depende de la escala de los logits o de la temperatura. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28.
State Space Model / SSM / Mamba: los state space models son modelos de secuencia basados en una dinámica de estado que puede formularse en tiempo continuo y discretizarse para su cómputo. Mamba es una arquitectura concreta de SSM selectivo; no es sinónimo de toda la familia. Referencia: Gu y Dao (2023), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752.
Transformer: arquitectura introducida con bloques de atención y redes feed-forward, sin recurrencia en su formulación original. Muchas variantes modernas incorporan otros mecanismos, por lo que “transformer” no implica que todo el sistema use únicamente atención. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Weight: parámetro escalar aprendido de una red neuronal que pondera la influencia de una conexión entre neuronas. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Weight decay: regularización que contrae los parámetros durante la actualización. Coincide con añadir una penalización L2 en descenso de gradiente simple, pero puede diferir de L2 cuando se usa con optimizadores adaptativos; AdamW aplica decaimiento desacoplado. Referencia: Loshchilov y Hutter (2019), Decoupled Weight Decay Regularization, ICLR 2019, arXiv:1711.05101.

Entrenamiento, adaptación y optimización

Técnicas para entrenar, ajustar, comprimir o mejorar modelos.

Activation checkpointing: técnica que reduce el consumo de memoria durante entrenamiento recomputando activaciones intermedias en el paso hacia atrás en lugar de almacenarlas todas en GPU. Referencia: Chen, Xu, Zhang y Guestrin (2016), Training Deep Nets with Sublinear Memory Cost, arXiv:1604.06174. (arxiv.org)
Active learning: paradigma donde el modelo identifica activamente los ejemplos sin etiquetar más informativos para solicitar su anotación, reduciendo el coste de etiquetado. Referencia: Cohn, Atlas y Ladner (1994), Improving Generalization with Active Learning, Machine Learning, 15, 201–221. DOI: 10.1007/BF00993277. (link.springer.com)
Adapter: módulo pequeño incorporado a un modelo preentrenado para adaptarlo a una tarea o dominio entrenando pocos parámetros. Habitualmente se congelan los pesos base, aunque no es un requisito de todas las variantes. Referencia: Houlsby et al. (2019), Parameter-Efficient Transfer Learning for NLP, Proceedings of ICML 2019, PMLR 97, 2790–2799. (arxiv.org)
Backpropagation: algoritmo que calcula los gradientes de la función de pérdida respecto a cada parámetro del modelo propagando el error desde la salida hacia las capas anteriores mediante la regla de la cadena. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0. (nature.com)
Batch: conjunto de ejemplos procesados conjuntamente en una misma pasada por el modelo, durante entrenamiento o inferencia. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Batch size: número de ejemplos incluidos en cada batch; determina el compromiso entre estabilidad del gradiente y eficiencia computacional. Referencia: Keskar et al. (2017), On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima, ICLR 2017, arXiv:1609.04836. (arxiv.org)
Distillation: entrenamiento de un modelo pequeño —estudiante— para imitar las distribuciones de salida o representaciones de un modelo mayor —profesor—, transfiriendo conocimiento de forma compacta. Referencia: Hinton, Vinyals y Dean (2015), Distilling the Knowledge in a Neural Network, arXiv:1503.02531. (arxiv.org)
DPO / Direct Preference Optimization: método de ajuste que aprende de pares de respuestas preferida y no preferida mediante una pérdida de clasificación relativa respecto a una política de referencia, sin entrenar un modelo de recompensa separado ni ejecutar RL online. Referencia: Rafailov et al. (2023), Direct Preference Optimization: Your Language Model Is Secretly a Reward Model, Advances in Neural Information Processing Systems 36, arXiv:2305.18290. (arxiv.org)
Dropout: técnica de regularización que pone aleatoriamente a cero ciertas activaciones durante el entrenamiento y aplica el escalado correspondiente, reduciendo dependencias excesivas entre unidades. Referencia: Srivastava et al. (2014), Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine Learning Research, 15, 1929–1958. (jmlr.org)
Early stopping: interrupción del entrenamiento cuando el rendimiento en el conjunto de validación deja de mejorar durante un número determinado de épocas, evitando el sobreajuste. Referencia: Prechelt (1998), Automatic Early Stopping Using Cross Validation: Quantifying the Criteria, Neural Networks, 11(4), 761–767. DOI: 10.1016/S0893-6080(98)00010-0. (sciencedirect.com)
Epoch: pasada completa sobre el conjunto de entrenamiento. Un proceso puede usar una, varias o fracciones de época según el tamaño del corpus y el régimen de optimización. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Fine-tuning: ajuste adicional de un modelo preentrenado usando datos específicos de una tarea o dominio, modificando todos o algunos de sus parámetros. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423. (arxiv.org)
Gradient: vector de derivadas parciales de la función de pérdida respecto a los parámetros del modelo; indica la dirección de máximo crecimiento local de la pérdida. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Gradient clipping: técnica que limita la magnitud del gradiente a un umbral máximo antes de actualizar los parámetros, previniendo explosiones de gradiente en redes profundas o recurrentes. Referencia: Pascanu, Mikolov y Bengio (2013), On the Difficulty of Training Recurrent Neural Networks, Proceedings of ICML 2013, PMLR 28, 1310–1318. (arxiv.org)
Gradient descent: algoritmo de optimización iterativo que actualiza los parámetros en la dirección opuesta al gradiente para minimizar la función de pérdida. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
GRPO / Group Relative Policy Optimization: algoritmo de RL que optimiza la política del modelo comparando grupos de respuestas entre sí para estimar ventajas relativas, sin necesitar un modelo crítico separado. Referencia: Shao et al. (2024), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300. (arxiv.org)
KL divergence / divergencia KL: medida asimétrica de cuánto difiere una distribución de probabilidad de una distribución de referencia; usada en RLHF como penalización para evitar que el modelo se aleje demasiado de la política base durante el ajuste. Referencia: Kullback y Leibler (1951), On Information and Sufficiency, The Annals of Mathematical Statistics, 22(1), 79–86. DOI: 10.1214/aoms/1177729694. (projecteuclid.org)
Learning rate: escalar que controla el tamaño del paso con el que se actualizan los parámetros en cada iteración de optimización; un valor demasiado alto causa inestabilidad y uno demasiado bajo ralentiza la convergencia. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
LoRA / Low-Rank Adaptation: técnica PEFT que añade matrices de baja dimensión entrenables en paralelo a capas del modelo preentrenado, reduciendo drásticamente el número de parámetros a actualizar. Referencia: Hu et al. (2022), LoRA: Low-Rank Adaptation of Large Language Models, ICLR 2022, arXiv:2106.09685. (arxiv.org)
LoRA adapter: conjunto de matrices adicionales entrenadas con LoRA que se acoplan a un modelo base sin modificar sus pesos originales y pueden intercambiarse para distintas tareas. Referencia: Hu et al. (2022), LoRA: Low-Rank Adaptation of Large Language Models, ICLR 2022, arXiv:2106.09685. (arxiv.org)
Loss function: función que mide la discrepancia entre las predicciones del modelo y los valores reales durante el entrenamiento, guiando la optimización mediante su gradiente. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Mixed precision training: uso combinado de formatos numéricos, como FP16 o BF16 para parte del cómputo y FP32 para determinadas acumulaciones, estados o copias maestras, con el fin de reducir memoria y acelerar el entrenamiento manteniendo estabilidad. Referencia: Micikevicius et al. (2018), Mixed Precision Training, ICLR 2018, arXiv:1710.03740. (arxiv.org)
Model merging: combinación de los pesos o adaptadores de varios modelos mediante operaciones aritméticas en el espacio de parámetros, sin reentrenar desde cero. Referencia: Wortsman et al. (2022), Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy Without Increasing Inference Time, Proceedings of ICML 2022, PMLR 162, 23965–23998. (arxiv.org)
Online learning: paradigma de aprendizaje donde el modelo se actualiza de forma continua o incremental a medida que llegan nuevos datos, sin un ciclo discreto de reentrenamiento. Referencia: Hoi, Sahoo, Lu y Zhao (2018), Online Learning: A Comprehensive Survey, arXiv:1802.02871. (arxiv.org)
Optimization: proceso iterativo de ajustar los parámetros de un modelo para minimizar una función de pérdida o maximizar una métrica de rendimiento. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Parameter-efficient fine-tuning / PEFT: familia de técnicas que adapta un modelo entrenando una fracción pequeña de parámetros adicionales o seleccionados. Muchas congelan el modelo base, aunque algunas actualizan subconjuntos de sus parámetros existentes. Referencia: Xu et al. (2023), Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment, arXiv:2312.12148. (arxiv.org)
Policy: en aprendizaje por refuerzo, función que mapea estados u observaciones a acciones; en LLMs, la distribución de probabilidad sobre tokens que define el comportamiento del modelo. Referencia: Sutton, McAllester, Singh y Mansour (1999), Policy Gradient Methods for Reinforcement Learning with Function Approximation, Advances in Neural Information Processing Systems 12. (papers.nips.cc)
Post-training: fase posterior al preentrenamiento donde se aplican técnicas como SFT, RLHF o DPO para alinear el modelo con preferencias humanas y hacerlo útil en aplicaciones prácticas. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
PPO / Proximal Policy Optimization: algoritmo de RL que actualiza la política del modelo con pasos controlados usando una función de pérdida recortada, estabilizando el entrenamiento; usado en la fase RL de RLHF. Referencia: Schulman et al. (2017), Proximal Policy Optimization Algorithms, arXiv:1707.06347. (arxiv.org)
Pretraining: entrenamiento inicial de gran escala sobre datos masivos y diversos para que el modelo aprenda representaciones generales del lenguaje antes de cualquier especialización. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423. (arxiv.org)
QLoRA: variante de LoRA que cuantiza el modelo base a 4 bits para reducir consumo de memoria, permitiendo fine-tuning de modelos grandes en hardware con memoria limitada. Referencia: Dettmers, Pagnoni, Holtzman y Zettlemoyer (2023), QLoRA: Efficient Finetuning of Quantized LLMs, Advances in Neural Information Processing Systems 36, arXiv:2305.14314. (arxiv.org)
Regularization: conjunto de técnicas que restringen o modifican el proceso de aprendizaje para reducir el sobreajuste y mejorar la generalización. Referencia: Kukačka, Golkov y Cremers (2017), Regularization for Deep Learning: A Taxonomy, arXiv:1710.10686. (arxiv.org)
Reinforcement learning / RL: paradigma de aprendizaje donde un agente aprende a maximizar una señal de recompensa acumulada mediante la interacción con un entorno. Referencia: Mnih et al. (2015), Human-Level Control Through Deep Reinforcement Learning, Nature, 518, 529–533. DOI: 10.1038/nature14236. (nature.com)
Reward hacking / specification gaming: fenómeno donde un modelo optimiza la métrica de recompensa de formas no previstas —explotando sesgos del reward model o del entorno— sin lograr el objetivo real deseado. Referencia: Amodei et al. (2016), Concrete Problems in AI Safety, arXiv:1606.06565. (arxiv.org)
Reward model: modelo entrenado a partir de comparaciones humanas que estima la calidad o preferibilidad de una respuesta; usado en RLHF como función de recompensa proxy. Referencia: Christiano et al. (2017), Deep Reinforcement Learning from Human Preferences, Advances in Neural Information Processing Systems 30, arXiv:1706.03741. (arxiv.org)
RFT / Reinforcement Fine-Tuning: ajuste fino mediante aprendizaje por refuerzo a partir de una señal de recompensa. En tareas verificables puede usar comprobadores automáticos, pero también puede emplear modelos de recompensa u otras funciones de evaluación. Referencia técnica: OpenAI (2026), Reinforcement Fine-Tuning. (developers.openai.com)
RLAIF / Reinforcement Learning from AI Feedback: variante de RLHF donde las señales de preferencia provienen de otro modelo de IA en lugar de anotadores humanos, permitiendo escalar el proceso de alineamiento. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
RLHF / Reinforcement Learning from Human Feedback: familia de procesos que usa evaluaciones, demostraciones o preferencias humanas para ajustar el comportamiento de un modelo. Una implementación clásica entrena un modelo de recompensa y optimiza la política con RL, aunque existen variantes y métodos relacionados sin esa misma secuencia. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Scaling laws: relaciones empíricas cuantitativas que describen cómo mejora el rendimiento de un modelo en función del número de parámetros, volumen de datos de entrenamiento y cómputo utilizado. Referencia: Kaplan et al. (2020), Scaling Laws for Neural Language Models, arXiv:2001.08361. (arxiv.org)
Self-supervised learning: paradigma donde las etiquetas de supervisión se derivan automáticamente de los propios datos —como predecir el siguiente token o reconstruir partes enmascaradas— sin anotación humana. Referencia: Ericsson, Gouk, Loy y Hospedales (2022), Self-Supervised Representation Learning: Introduction, Advances, and Challenges, IEEE Signal Processing Magazine, 39(3), 42–62; versión inicial arXiv:2110.09327. (arxiv.org)
SFT / Supervised Fine-Tuning: ajuste supervisado de un modelo preentrenado con ejemplos de instrucciones y respuestas esperadas; primera etapa habitual del post-training antes de técnicas de alineación como RLHF o DPO. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Supervised learning: paradigma en el que el modelo aprende a partir de ejemplos con objetivos o etiquetas conocidos. Las etiquetas pueden proceder de personas, reglas, sensores, simulaciones u otros sistemas. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Test-time compute / inference-time scaling: uso de más cómputo durante la inferencia —mediante búsqueda, muestreo múltiple o razonamiento extendido— para mejorar la calidad de la respuesta sin cambiar los pesos del modelo. Referencia: Snell, Lee, Xu y Kumar (2024), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, arXiv:2408.03314. (arxiv.org)
Training data: datos utilizados para calcular la pérdida y actualizar los parámetros del modelo. Su calidad, cobertura, distribución y tratamiento influyen de forma importante en el comportamiento resultante. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (cacm.acm.org)
Transfer learning: reutilización del conocimiento representacional aprendido en una tarea o dominio de origen para mejorar el rendimiento en una tarea o dominio distinto. Referencia: Pan y Yang (2010), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359. DOI: 10.1109/TKDE.2009.191. (doi.org)
Unsupervised learning: paradigma de aprendizaje sin etiquetas explícitas donde el modelo descubre estructura, patrones o representaciones en los datos. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50. (arxiv.org)
Warmup schedule: estrategia de tasa de aprendizaje que comienza con valores muy bajos y los incrementa gradualmente durante los primeros pasos del entrenamiento, estabilizando la inicialización antes de la fase principal de optimización. Referencia: Kalra y Barkeshli (2024), Why Warmup the Learning Rate? Underlying Mechanisms and Improvements, arXiv:2406.09405. (arxiv.org)
World model: representación interna que permite a un sistema modelar cómo evoluciona un entorno en respuesta a acciones, usada en planificación y RL basado en modelo. Referencia: Ha y Schmidhuber (2018), World Models, arXiv:1803.10122. (arxiv.org)

Datos, datasets y preparación

Conceptos de datos, etiquetas, variables y preparación de corpus.

Class imbalance: situación donde algunas clases del dataset tienen muchos más ejemplos que otras, lo que puede sesgar el modelo hacia las clases mayoritarias. Referencia: He y Garcia (2009), Learning from Imbalanced Data, IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263–1284. DOI: 10.1109/TKDE.2008.239. (doi.org)
Consent management: gestión de la obtención, registro, finalidad, vigencia y retirada del consentimiento asociado al tratamiento de datos personales, junto con la trazabilidad de la base jurídica aplicable. El consentimiento es una posible base jurídica, no un requisito universal para todo tratamiento. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, especialmente artículos 4.11, 6 y 7. (eur-lex.europa.eu)
Copyrighted data: datos o contenidos protegidos por derechos de autor o derechos conexos, cuyo uso para entrenamiento, evaluación o generación puede requerir licencia, excepción legal o análisis jurídico específico. Referencia normativa: Unión Europea (2019), Directiva (UE) 2019/790 sobre los derechos de autor en el mercado único digital, especialmente artículos 3 y 4 sobre minería de textos y datos. (eur-lex.europa.eu)
Data augmentation: generación de variaciones de ejemplos existentes —como rotaciones, ruido, recortes o paráfrasis— para ampliar la diversidad del dataset y mejorar la generalización o robustez del modelo. Referencia: Shorten y Khoshgoftaar (2019), A Survey on Image Data Augmentation for Deep Learning, Journal of Big Data, 6, artículo 60. DOI: 10.1186/s40537-019-0197-0. (link.springer.com)
Data curation: proceso de selección, limpieza, deduplicación, filtrado, documentación y organización de datos para mejorar su calidad, relevancia y adecuación al uso previsto. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Data deletion: eliminación de datos de sistemas de almacenamiento, índices, logs, datasets o memorias. Cuando los datos se utilizaron para entrenar un modelo, retirarlos del almacenamiento no elimina necesariamente su influencia sobre los parámetros y puede requerir reentrenamiento o machine unlearning. Referencia: Bourtoule et al. (2021), Machine Unlearning, IEEE Symposium on Security and Privacy, 141–159. DOI: 10.1109/SP40001.2021.00019. (arxiv.org)
Data drift: cambio en la distribución estadística de los datos de entrada en producción respecto a una distribución de referencia, como la observada durante el entrenamiento. Puede ser abrupto, gradual, incremental o recurrente y no implica necesariamente una degradación, aunque puede provocarla. Referencia: Ackerman, Raz, Zalmanovici y Zlotnick (2021), Automatically Detecting Data Drift in Machine Learning Classifiers, arXiv:2111.05672. (arxiv.org)
Data labeling: proceso de asignar categorías, valores, relaciones, segmentos u otras anotaciones a datos en bruto para utilizarlos en entrenamiento o evaluación supervisada. Puede ser realizado por personas, reglas, sensores, modelos u otros sistemas. Referencia: Snow et al. (2008), Cheap and Fast—But Is It Good? Evaluating Non-Expert Annotations for Natural Language Tasks, Proceedings of EMNLP 2008, 254–263. (aclanthology.org)
Data lineage: registro del recorrido de los datos desde su origen hasta su uso final, incluyendo transformaciones, filtrados, versiones, responsables, sistemas y dependencias. Referencia técnica: W3C (2013), PROV-O: The PROV Ontology, W3C Recommendation. (w3.org)
Data pipeline: flujo automatizado o semiautomatizado que coordina la ingestión, transformación, validación, almacenamiento y entrega de datos para entrenamiento, evaluación o inferencia. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems, Advances in Neural Information Processing Systems 28. (proceedings.neurips.cc)
Data provenance: información sobre el origen de un dato o dataset, las entidades y procesos que intervinieron en su creación, sus transformaciones y, cuando se conoce, su titularidad y condiciones de uso. Referencia técnica: W3C (2013), PROV-DM: The PROV Data Model, W3C Recommendation. (w3.org)
Data retention: política que define durante cuánto tiempo se conservan datos, logs, prompts, respuestas o artefactos, para qué finalidades y bajo qué condiciones se archivan o eliminan. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 5.1.e, principio de limitación del plazo de conservación. (eur-lex.europa.eu)
Data versioning / versionado de datos: práctica de identificar, registrar y gestionar versiones de datasets para facilitar reproducibilidad, auditoría, comparación, recuperación y rastreo de cambios. Referencia: Halchenko et al. (2021), DataLad: Distributed System for Joint Management of Code, Data, and Their Relationship, Journal of Open Source Software, 6(63), 3262. DOI: 10.21105/joss.03262. (joss.theoj.org)
Dataset: colección organizada de datos y, cuando corresponda, etiquetas, particiones y metadatos, utilizada para entrenamiento, validación, evaluación o análisis. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Dataset card: documento estructurado que describe el origen, composición, metodología de recolección, procesos de anotación, usos previstos, limitaciones y riesgos potenciales de un dataset. Referencia: Pushkarna, Zaldivar y Kjartansson (2022), Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI, Proceedings of FAccT 2022, 1776–1826. DOI: 10.1145/3531146.3533231. (arxiv.org)
Feature: variable o representación utilizada como entrada por un modelo. Puede proceder directamente de los datos, construirse mediante transformaciones o aprenderse automáticamente mediante representation learning. Referencia: Guyon y Elisseeff (2003), An Introduction to Variable and Feature Selection, Journal of Machine Learning Research, 3, 1157–1182. (jmlr.org)
Feature engineering: diseño, selección o transformación manual o semiautomática de variables de entrada para facilitar que un modelo capture relaciones predictivas relevantes. Referencia: Guyon y Elisseeff (2003), An Introduction to Variable and Feature Selection, Journal of Machine Learning Research, 3, 1157–1182. (jmlr.org)
Golden dataset: conjunto de datos de referencia de alta calidad, sometido a controles de anotación y revisión, utilizado como estándar para evaluación, calibración o ajuste crítico. También se denomina gold-standard dataset; no existe un umbral universal que determine cuándo un dataset merece esta denominación. Referencia metodológica: Artstein y Poesio (2008), Inter-Coder Agreement for Computational Linguistics, Computational Linguistics, 34(4), 555–596. DOI: 10.1162/coli.07-034-R2. (aclanthology.org)
Label: categoría, valor, estructura o respuesta objetivo asociada a un ejemplo de datos y utilizada como señal de supervisión o como referencia de evaluación. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Label noise: presencia de errores, inconsistencias, desacuerdos o ambigüedades en las etiquetas de un dataset, que puede introducir sesgos y degradar el modelo entrenado. Referencia: Frénay y Verleysen (2014), Classification in the Presence of Label Noise: A Survey, IEEE Transactions on Neural Networks and Learning Systems, 25(5), 845–869. DOI: 10.1109/TNNLS.2013.2292894. (doi.org)
Licensed data: datos utilizados bajo una licencia o contrato que define permisos, restricciones, duración, atribución, redistribución y usos autorizados. La existencia de una licencia no implica que permita cualquier uso relacionado con IA. Referencia: Ball (2014), How to License Research Data, Digital Curation Centre. (dcc.ac.uk)
Metadata: datos que describen otros datos o recursos, como su título, fecha de creación, fuente, autoría, formato, esquema, licencia, versión o relaciones con otros elementos. Referencia técnica: W3C (2024), Data Catalog Vocabulary — DCAT Version 3, W3C Recommendation. (w3.org)
Multilabel classification: variante de clasificación donde cada ejemplo puede pertenecer simultáneamente a varias categorías no excluyentes. Referencia: Tsoumakas y Katakis (2007), Multi-Label Classification: An Overview, International Journal of Data Warehousing and Mining, 3(3), 1–13. DOI: 10.4018/jdwm.2007070101. (doi.org)
Normalization: transformación que lleva variables o vectores a una escala, intervalo o norma definida, como el intervalo [0, 1] o la norma unitaria. Llevar una variable a media cero y desviación típica uno se denomina habitualmente estandarización. Referencia: Sola y Sevilla (1997), Importance of Input Data Normalization for the Application of Neural Networks to Complex Industrial Problems, IEEE Transactions on Nuclear Science, 44(3), 1464–1468. DOI: 10.1109/23.589532. (doi.org)
One-hot encoding: representación de una variable categórica mediante vectores binarios con un único componente activo y el resto a cero. Su dimensionalidad crece con el número de categorías y no representa por sí misma relaciones de similitud entre ellas. Referencia: Cerda, Varoquaux y Kégl (2018), Similarity Encoding for Learning with Dirty Categorical Variables, Machine Learning, 107, 1477–1494. DOI: 10.1007/s10994-018-5724-2. (arxiv.org)
PII detection: identificación automática o asistida de información personal identificable en texto, imágenes, audio, tablas, logs o datasets. La definición de PII depende del marco jurídico y puede ser más estrecha que el concepto europeo de dato personal. Referencia técnica: McCallister, Grance y Scarfone (2010), Guide to Protecting the Confidentiality of Personally Identifiable Information — NIST SP 800-122. (nist.gov)
PII scrubbing: proceso de detectar y eliminar, redactar, enmascarar, seudonimizar o anonimizar información personal antes de almacenar, indexar, entrenar o compartir datos. Estas operaciones ofrecen grados de protección diferentes y no todas producen anonimización irreversible. Referencia técnica: Garfinkel (2015), De-Identification of Personal Information — NIST IR 8053. (nist.gov)
Proprietary data: datos controlados por una organización o persona y sujetos a derechos contractuales, de propiedad intelectual, confidencialidad o secreto empresarial. Su carácter no público no determina por sí solo qué derechos concretos resultan aplicables. Referencia normativa: Unión Europea (2016), Directiva (UE) 2016/943 sobre la protección de los conocimientos técnicos y la información empresarial no divulgados. (eur-lex.europa.eu)
Public data: datos accesibles públicamente. Su disponibilidad pública no implica ausencia de copyright, derechos sobre bases de datos, condiciones de licencia, obligaciones de atribución o riesgos para la privacidad. Referencia normativa: Unión Europea (2019), Directiva (UE) 2019/1024 relativa a los datos abiertos y la reutilización de la información del sector público. (eur-lex.europa.eu)
Right to erasure: derecho de una persona a solicitar la eliminación de sus datos personales cuando concurre alguno de los supuestos previstos por la regulación aplicable. No es un derecho absoluto y admite excepciones. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 17. (eur-lex.europa.eu)
Synthetic data: datos generados artificialmente mediante modelos, reglas o simulaciones para reproducir determinadas propiedades de datos reales, ampliar cobertura, proteger privacidad o representar casos poco frecuentes. Los datos sintéticos no son automáticamente anónimos ni privados. Referencia: Jordon et al. (2022), Synthetic Data—What, Why and How?, arXiv:2205.03257. (arxiv.org)
Synthetic data contamination: presencia no controlada o no identificada de contenido generado artificialmente dentro de datasets tratados como datos reales, que puede alterar su distribución, introducir artefactos y afectar a procesos posteriores de entrenamiento o evaluación. Referencia: Shumailov et al. (2024), AI Models Collapse When Trained on Recursively Generated Data, Nature, 631, 755–759. DOI: 10.1038/s41586-024-07566-y. (nature.com)
Synthetic data detection: clasificación o estimación de si un dato fue generado total o parcialmente por un modelo, una regla o una simulación. Su fiabilidad depende de la modalidad, el generador, las transformaciones aplicadas y la distribución de evaluación. Referencia: Crothers, Japkowicz y Viktor (2023), Machine-Generated Text: A Comprehensive Survey of Threat Models and Detection Methods, arXiv:2210.07321. (arxiv.org)
Synthetic data generation: creación de datos artificiales mediante modelos generativos, reglas, procedimientos estadísticos o simuladores para ampliar cobertura, proteger privacidad, equilibrar clases o representar casos raros. Referencia: Jordon et al. (2022), Synthetic Data—What, Why and How?, arXiv:2205.03257. (arxiv.org)
Test set: partición reservada que no se utiliza para entrenar parámetros, seleccionar modelos ni tomar decisiones repetidas de desarrollo y que sirve para estimar el rendimiento final bajo un protocolo definido. Consultarlo repetidamente puede introducir sesgo de selección. Referencia: Cawley y Talbot (2010), On Over-Fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079–2107. (jmlr.org)
Training data transparency: prácticas de documentación y divulgación que describen, normalmente de forma agregada, qué tipos de datos se utilizaron para entrenar un modelo, sus fuentes, criterios de selección, filtros, limitaciones y condiciones relevantes. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689 — AI Act, artículo 53.1.d, sobre la publicación de un resumen suficientemente detallado del contenido utilizado para entrenar modelos de IA de propósito general. (eur-lex.europa.eu)
Validation set: conjunto separado de los datos de entrenamiento utilizado durante el desarrollo para seleccionar modelos, ajustar hiperparámetros, establecer umbrales o aplicar early stopping sin utilizar el test set para esas decisiones. Referencia: Cawley y Talbot (2010), On Over-Fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079–2107. (jmlr.org)

LLMs, prompts, contexto y generación

Términos propios de modelos de lenguaje, prompting, contexto, tokens y decodificación.

A/B testing: comparación controlada entre dos versiones de un modelo, prompt, interfaz o flujo para determinar cuál produce mejores resultados según métricas definidas. Referencia: Kohavi, Longbotham, Sommerfield y Henne (2009), Controlled Experiments on the Web: Survey and Practical Guide, Data Mining and Knowledge Discovery, 18, 140–181. DOI: 10.1007/s10618-008-0114-1. (link.springer.com)
Assistant message: mensaje atribuido al asistente dentro de una conversación estructurada por roles. Puede haber sido generado por el modelo o incorporado por la aplicación como parte del historial. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y mensajes. (model-spec.openai.com)
Attention head: subcomponente del mecanismo de multi-head attention que opera con sus propias proyecciones de query, key y value y puede capturar relaciones diferentes entre posiciones de la secuencia. Estas relaciones no tienen por qué ser interpretables ni corresponder a una única función estable. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762. (arxiv.org)
Attention mask: estructura que modifica las puntuaciones de atención para impedir o limitar determinadas conexiones, por ejemplo hacia padding o tokens futuros. Suele representarse mediante valores booleanos o sesgos aditivos, como cero y menos infinito. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762. (arxiv.org)
Autoregressive model: modelo que factoriza la probabilidad de una secuencia condicionando cada elemento en los elementos anteriores. Durante la generación produce normalmente la salida token a token. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155. (jmlr.org)
Beam search / greedy decoding: greedy decoding elige en cada paso el token con mayor puntuación. Beam search conserva varias hipótesis parciales, las expande y descarta las menos prometedoras; puede encontrar secuencias con mayor puntuación que greedy, pero no garantiza el óptimo global ni necesariamente una salida de mayor calidad para personas. Referencia: Stahlberg y Byrne (2019), On NMT Search Errors and Model Errors: Cat Got Your Tongue?, Proceedings of EMNLP-IJCNLP 2019, 3356–3362. (aclanthology.org)
BPE / Byte Pair Encoding: familia de algoritmos de tokenización que construye un vocabulario fusionando iterativamente pares frecuentes de símbolos. Según la implementación, los símbolos iniciales pueden ser bytes, caracteres u otras unidades. Referencia: Sennrich, Haddow y Birch (2016), Neural Machine Translation of Rare Words with Subword Units, Proceedings of ACL 2016, 1715–1725. DOI: 10.18653/v1/P16-1162. (aclanthology.org)
Causal language model: modelo de lenguaje entrenado con una máscara causal que impide a cada posición utilizar tokens posteriores de la misma secuencia, forzando la predicción de cada token a partir del contexto precedente. Referencia: Radford et al. (2019), Language Models Are Unsupervised Multitask Learners. (openai.com)
Chain-of-thought: secuencia de pasos intermedios producida o inducida durante la resolución de una tarea. Puede mejorar el rendimiento en ciertos problemas complejos, pero no garantiza corrección, fidelidad causal ni acceso al razonamiento interno completo del modelo. Referencia: Wei et al. (2022), Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Advances in Neural Information Processing Systems 35, arXiv:2201.11903. (arxiv.org)
Completion: continuación generada por un modelo a partir de una entrada o prefijo. El término se utiliza también para nombrar determinados endpoints y objetos de APIs, por lo que su estructura concreta depende del proveedor. Referencia técnica: OpenAI, Completions API Reference. (platform.openai.com)
Constrained decoding: generación en la que el conjunto de tokens permitidos en cada paso se restringe mediante reglas, gramáticas, autómatas, esquemas JSON u otras condiciones formales. Referencia: Geng et al. (2023), Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning, Proceedings of EMNLP 2023, arXiv:2305.13971. (arxiv.org)
Context: información puesta a disposición del modelo para producir una respuesta, como instrucciones, mensajes anteriores, documentos, resultados de herramientas, memoria recuperada y otros elementos incluidos en la entrada efectiva. No incluye necesariamente todo el estado interno de la aplicación. Referencia: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context engineering: disciplina de seleccionar, construir, organizar y gestionar la información entregada al modelo en cada operación —instrucciones, historial, documentos recuperados, herramientas y memoria— para mejorar el rendimiento del sistema. Referencia: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context rot: término informal para describir la degradación del rendimiento cuando el contexto aumenta, contiene información irrelevante o sitúa la información necesaria en posiciones que el modelo utiliza de forma deficiente. No designa un único mecanismo técnico demostrado. Referencia relacionada: Liu et al. (2023), Lost in the Middle: How Language Models Use Long Contexts, Transactions of the Association for Computational Linguistics, arXiv:2307.03172. (arxiv.org)
Context stuffing: práctica de introducir grandes volúmenes de información en el contexto sin suficiente selección, organización o priorización. Puede aumentar el coste y dificultar la recuperación o integración de la información relevante. Referencia relacionada: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context window: cantidad máxima de tokens que un modelo o una API admite en una operación. Puede existir un límite conjunto de entrada y salida, límites independientes o restricciones adicionales según el proveedor y la modalidad. Referencia: Dai et al. (2019), Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Proceedings of ACL 2019, 2978–2988. DOI: 10.18653/v1/P19-1285. (aclanthology.org)
Cost per token: métrica comercial que expresa el precio asociado al procesamiento de tokens. Los proveedores pueden aplicar tarifas diferentes a tokens de entrada, salida, caché, audio, razonamiento u otras categorías. Referencia técnica: OpenAI, API Pricing. (openai.com)
Cross-entropy loss: función de pérdida que penaliza la discrepancia entre una distribución objetivo y la distribución de probabilidad predicha. En predicción de tokens suele equivaler al negativo del logaritmo de la probabilidad asignada al token objetivo. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28. (link.springer.com)
Decoder-only transformer: arquitectura transformer formada por bloques de decoder con atención causal y sin un encoder separado. Procesa el contexto precedente y genera continuaciones de forma autoregresiva; es el paradigma utilizado por GPT y numerosas familias de LLM. Referencia: Radford et al. (2018), Improving Language Understanding by Generative Pre-Training. (openai.com)
Delimiter: separador textual o estructural —como ###, <tag> o ---— usado en prompts para distinguir instrucciones, datos, ejemplos o secciones. Su eficacia depende del modelo y no constituye una frontera de seguridad. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Developer message: rol de instrucciones utilizado por algunas plataformas para que el desarrollador de la aplicación defina comportamiento, restricciones y contexto operativo. Su disponibilidad y precedencia dependen de la API. Referencia técnica: OpenAI (2025), Model Spec, sección sobre niveles de autoridad y mensajes. (model-spec.openai.com)
Extended thinking / pensamiento extendido: nombre de producto o modalidad utilizada por algunos proveedores para permitir que el modelo dedique más cómputo o tokens internos a resolver una petición antes de emitir la respuesta final. La implementación, facturación y visibilidad dependen del servicio. Referencia técnica: Anthropic, Extended Thinking. (docs.anthropic.com)
Few-shot example: ejemplo demostrativo incluido en el contexto para mostrar al modelo una tarea, correspondencia entrada-salida, formato o comportamiento esperado. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Few-shot prompting: técnica que incluye un número reducido de ejemplos demostrativos en el contexto para orientar la tarea o el formato sin actualizar los pesos del modelo. No existe un número universal que delimite el término. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Human evaluation: evaluación en la que personas juzgan propiedades de las respuestas, como corrección, relevancia, utilidad, seguridad, fluidez o preferencia. Su validez depende del protocolo, la selección de evaluadores, las instrucciones y el acuerdo entre anotadores. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research, arXiv:2211.09110. (arxiv.org)
Human-in-the-loop: diseño en el que una persona aporta supervisión, correcciones, decisiones, aprobaciones o datos durante alguna fase del funcionamiento o aprendizaje del sistema. La mera presencia de una interfaz humana no garantiza control efectivo. Referencia: Amershi et al. (2014), Power to the People: The Role of Humans in Interactive Machine Learning, AI Magazine, 35(4), 105–120. DOI: 10.1609/aimag.v35i4.2513. (ojs.aaai.org)
Hyperparameter: valor de configuración que no se aprende directamente mediante el procedimiento ordinario de optimización de los parámetros del modelo, como learning rate, batch size, profundidad, temperatura o coeficientes de regularización. Referencia: Bergstra y Bengio (2012), Random Search for Hyper-Parameter Optimization, Journal of Machine Learning Research, 13, 281–305. (jmlr.org)
In-context learning: capacidad de modificar el comportamiento ante una tarea mediante instrucciones o demostraciones incluidas en el contexto, sin una actualización explícita de los pesos durante esa interacción. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Instruction following: capacidad de un modelo para interpretar y ejecutar instrucciones expresadas en lenguaje natural, incluyendo objetivos, restricciones, formatos y tareas compuestas. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Instruction hierarchy: regla de precedencia entre instrucciones procedentes de fuentes o niveles de confianza diferentes. Los niveles concretos y su orden dependen de la plataforma y de la arquitectura de la aplicación. Referencia: Wallace et al. (2024), The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, arXiv:2404.13208. (arxiv.org)
Instruction tuning: ajuste supervisado de un modelo sobre colecciones de tareas formuladas como instrucciones y respuestas, orientado a mejorar su capacidad de seguir instrucciones nuevas. Referencia: Wei et al. (2022), Finetuned Language Models Are Zero-Shot Learners, ICLR 2022, arXiv:2109.01652. (arxiv.org)
JSON mode: modalidad de determinadas APIs que condiciona o restringe la salida para que sea JSON válido. No garantiza por sí sola que el resultado respete un esquema concreto, incluya todos los campos esperados o sea semánticamente correcto. Referencia técnica: OpenAI, Structured Outputs Guide, comparación con JSON mode. (platform.openai.com)
JSON Schema: lenguaje declarativo para describir, anotar y validar la estructura, los tipos y las restricciones de documentos JSON. Referencia técnica: JSON Schema (2022), JSON Schema Draft 2020-12. (json-schema.org)
k-shot prompting: prompting que incluye exactamente k ejemplos demostrativos en el contexto. Es una formulación general que incluye one-shot y otras cantidades de ejemplos. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
LLM / Large Language Model: modelo de lenguaje de gran escala entrenado con grandes cantidades de datos, parámetros y cómputo, capaz de realizar diversas tareas lingüísticas y, en algunos casos, multimodales. No existe un umbral universal de parámetros que determine cuándo un modelo es un LLM. Referencia: Zhao et al. (2023), A Survey of Large Language Models, arXiv:2303.18223. (arxiv.org)
LLMOps: conjunto de prácticas, herramientas y procesos para desarrollar, evaluar, desplegar y operar sistemas basados en LLM en producción, incluyendo gestión de prompts, datos, modelos, observabilidad, costes, seguridad y evaluaciones. Referencia: Balis et al. (2024), LLMOps: Definitions, Framework and Best Practices, IEEE. (ieeexplore.ieee.org)
Logprob: logaritmo de la probabilidad que el modelo asigna a un token condicionado por el contexto. Puede utilizarse para ranking, análisis y algunas medidas de incertidumbre, pero no representa por sí solo una probabilidad calibrada de que una respuesta completa sea correcta. Referencia relacionada: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017, PMLR 70, 1321–1330. (proceedings.mlr.press)
Long-context model: modelo capaz de admitir una ventana de contexto considerablemente mayor que la habitual en modelos comparables. La longitud nominal no garantiza recuperación uniforme, integración correcta ni razonamiento eficaz en toda la ventana. Referencia: Liu et al. (2023), Lost in the Middle: How Language Models Use Long Contexts, arXiv:2307.03172. (arxiv.org)
Max output tokens: límite configurado o impuesto al número máximo de tokens que el modelo puede generar en una operación. Puede incluir o excluir determinadas categorías internas según la API. Referencia técnica: OpenAI, Responses API Reference. (platform.openai.com)
N-shot prompting: uso de N ejemplos demostrativos en el prompt. Incluye zero-shot cuando N = 0, one-shot cuando N = 1 y configuraciones con varios ejemplos. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Named entity recognition / NER: tarea de detectar menciones de entidades en texto y clasificarlas en categorías como persona, organización, lugar, fecha o cantidad. Las categorías y reglas de anotación dependen del dataset y del dominio. Referencia: Tjong Kim Sang y De Meulder (2003), Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition, Proceedings of CoNLL 2003, 142–147. (aclanthology.org)
Needle in a haystack: prueba que inserta uno o varios elementos identificables dentro de contextos largos y mide si el modelo puede recuperarlos. Evalúa localización y recuperación, pero no sustituye pruebas de integración, comprensión o razonamiento sobre contextos largos. Referencia: Hsieh et al. (2024), RULER: What’s the Real Context Size of Your Long-Context Language Models?, arXiv:2404.06654. (arxiv.org)
Negative sampling: técnica que entrena un modelo usando un subconjunto de ejemplos negativos seleccionados o generados, evitando evaluar todos los negativos posibles y enseñando al modelo a diferenciar pares positivos y negativos. Referencia: Mikolov et al. (2013), Distributed Representations of Words and Phrases and Their Compositionality, Advances in Neural Information Processing Systems 26, arXiv:1310.4546. (arxiv.org)
Persona prompt: instrucción que pide al modelo adoptar un rol, perspectiva, especialidad o estilo determinados. Puede modificar la forma de la respuesta, pero no confiere conocimientos, permisos o capacidades que el modelo no posea. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Prompt: entrada textual, visual, sonora o multimodal proporcionada a un modelo para comunicar una tarea, datos, contexto, restricciones o el formato esperado de la respuesta. Referencia: Sahoo et al. (2024), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv:2402.07927. (arxiv.org)
Prompt caching: mecanismo que reutiliza representaciones o cómputos asociados a prefijos repetidos entre peticiones, con el objetivo de reducir latencia o coste. Los requisitos, tiempos de conservación y garantías dependen del proveedor. Referencia técnica: Anthropic, Prompt Caching. (docs.anthropic.com)
Prompt chaining: patrón que divide una tarea en varias llamadas al modelo, utilizando la salida de una etapa como entrada, evidencia o condición de una etapa posterior. Referencia: Zhou et al. (2023), Least-to-Most Prompting Enables Complex Reasoning in Large Language Models, ICLR 2023, arXiv:2205.10625. (arxiv.org)
Prompt compression: reducción del número de tokens de un prompt mediante filtrado, extracción, resumen, reformulación o codificación aprendida, intentando conservar la información necesaria para la tarea. Referencia: Jiang et al. (2023), LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models, Proceedings of EMNLP 2023, arXiv:2310.05736. (arxiv.org)
Prompt engineering: proceso de diseñar, estructurar, probar y refinar las entradas de un modelo para obtener resultados adecuados a una tarea y a unos criterios de evaluación. Referencia: Sahoo et al. (2024), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv:2402.07927. (arxiv.org)
Prompt leaking: vulnerabilidad o comportamiento mediante el que una aplicación revela total o parcialmente instrucciones internas, prompts de sistema u otro contexto que se pretendía mantener oculto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Prompt optimization: proceso sistemático, manual o automatizado, de buscar prompts que maximicen una métrica de evaluación sobre un conjunto de tareas o ejemplos. Referencia: Yang et al. (2023), Large Language Models as Optimizers, arXiv:2309.03409. (arxiv.org)
Prompt registry: repositorio que almacena prompts y sus metadatos, versiones, responsables, resultados de evaluación, modelos compatibles y estados de despliegue. Es una práctica operativa, no una interfaz estandarizada entre proveedores. Referencia: Balis et al. (2024), LLMOps: Definitions, Framework and Best Practices, IEEE. (ieeexplore.ieee.org)
Prompt regression: degradación medible del rendimiento de un prompt o flujo tras modificar el prompt, el modelo, la API, el contexto, las herramientas o el formato de salida. Referencia: Ma et al. (2024), (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs, arXiv:2311.11123. (arxiv.org)
Prompt template: estructura parametrizable que combina texto fijo, instrucciones y marcadores de posición para construir prompts de forma repetible a partir de variables. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Prompt versioning: práctica de identificar y conservar versiones de prompts junto con sus cambios, dependencias y resultados de evaluación para permitir comparación, auditoría y reversión. Referencia: Ma et al. (2024), (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs, arXiv:2311.11123. (arxiv.org)
Reasoning tokens: categoría de uso o contabilidad empleada por algunas APIs para representar procesamiento interno adicional anterior o intercalado con la salida visible. No implica que esos tokens formen una cadena de pensamiento textual accesible, completa o fiel. Referencia técnica: OpenAI, Reasoning Models Guide. (platform.openai.com)
Response format: configuración o especificación que define la forma esperada de la salida, como texto, JSON, JSON validado contra un esquema, código o una estructura propia de la API. Referencia técnica: OpenAI, Structured Outputs Guide. (platform.openai.com)
Role: categoría asignada a un mensaje o participante dentro de una conversación estructurada, como sistema, desarrollador, usuario, asistente o herramienta. Los roles disponibles y sus efectos dependen de la plataforma. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y niveles de autoridad. (model-spec.openai.com)
Sampling: proceso estocástico de seleccionar el siguiente token a partir de la distribución de probabilidad del modelo, posiblemente transformada mediante temperatura, top-k, top-p u otras estrategias. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Schema: descripción formal de los campos, tipos, relaciones y restricciones que debe cumplir una estructura de datos. Su lenguaje y capacidad expresiva dependen de la especificación utilizada. Referencia técnica: JSON Schema (2022), JSON Schema Draft 2020-12. (json-schema.org)
Seed: valor utilizado para inicializar un generador pseudoaleatorio. Puede favorecer la repetibilidad cuando el entorno lo admite, pero no garantiza resultados idénticos entre versiones de software, hardware, algoritmos, configuraciones o servicios distribuidos. Referencia: Pineau et al. (2021), Improving Reproducibility in Machine Learning Research, Journal of Machine Learning Research, 22(164), 1–20. (jmlr.org)
Shot: cada ejemplo demostrativo incluido en el contexto para orientar al modelo sobre una tarea, una correspondencia entrada-salida o un formato esperado. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Speculative decoding: familia de técnicas que acelera la generación haciendo que un modelo auxiliar o procedimiento más barato proponga varios tokens que el modelo objetivo evalúa en paralelo. Referencia: Leviathan, Kalman y Matias (2023), Fast Inference from Transformers via Speculative Decoding, Proceedings of ICML 2023, arXiv:2211.17192. (arxiv.org)
Speculative sampling: variante de generación especulativa en la que un modelo auxiliar propone tokens y el modelo objetivo los acepta o rechaza mediante un procedimiento probabilístico diseñado para conservar la distribución del modelo objetivo. Referencia: Chen et al. (2023), Accelerating Large Language Model Decoding with Speculative Sampling, arXiv:2302.01318. (arxiv.org)
Step-back prompting / query decomposition: step-back prompting formula primero una pregunta más abstracta sobre los principios relevantes; query decomposition divide una consulta en subconsultas o subtareas. Son técnicas relacionadas, pero diferentes. Referencias: Zheng et al. (2023), Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, arXiv:2310.06117; y Khot et al. (2023), Decomposed Prompting: A Modular Approach for Solving Complex Tasks, ICLR 2023, arXiv:2210.02406. (arxiv.org, arxiv.org)
Stop sequence: secuencia configurada para interrumpir la generación cuando aparece en la salida. Su inclusión en el texto devuelto, el número de secuencias permitidas y el tratamiento de coincidencias dependen de la API. Referencia técnica: OpenAI, API Reference: stop. (platform.openai.com)
Streaming: entrega progresiva de eventos o fragmentos de la respuesta mientras se genera, sin esperar a que finalice toda la operación. No implica necesariamente que cada fragmento corresponda exactamente a un token. Referencia técnica: OpenAI, Streaming API Responses. (platform.openai.com)
Structured Outputs: generación restringida o validada contra una estructura formal, como una gramática o JSON Schema. El grado de garantía depende del mecanismo utilizado; “Structured Outputs” también es un nombre de producto en algunas APIs. Referencia técnica: OpenAI, Structured Outputs Guide. (platform.openai.com)
System instruction: instrucción de alto nivel introducida por la plataforma o la aplicación para configurar el comportamiento del modelo. Su alcance, prioridad, persistencia y representación dependen del proveedor. Referencia técnica: OpenAI (2025), Model Spec, sección sobre niveles de autoridad. (model-spec.openai.com)
System prompt: conjunto de instrucciones o contexto de alto nivel proporcionado antes o junto a los mensajes del usuario para orientar el comportamiento del sistema. No todas las plataformas utilizan este nombre ni garantizan que su contenido permanezca secreto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Temperature: parámetro que divide o reescala los logits antes de calcular la distribución de muestreo. Valores menores suelen concentrar la probabilidad y valores mayores suelen distribuirla entre más candidatos; un valor bajo no garantiza determinismo. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Thinking budget: límite de tokens, tiempo, esfuerzo o cómputo asignado por una API a una fase interna de procesamiento antes de producir la respuesta visible. Es un término dependiente del proveedor y no describe una unidad universal. Referencia técnica: Anthropic, Extended Thinking. (docs.anthropic.com)
Throughput: cantidad de trabajo completado por unidad de tiempo, expresada en sistemas de inferencia mediante métricas como tokens por segundo, peticiones por segundo o secuencias completadas por segundo. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023, arXiv:2309.06180. (arxiv.org)
Token budget: límite o asignación de tokens disponible para una entrada, una salida, una etapa de razonamiento o un flujo completo. Se utiliza para controlar coste, latencia y uso de la ventana de contexto. Referencia relacionada: Snell et al. (2024), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, arXiv:2408.03314. (arxiv.org)
Tokenization: proceso de transformar texto u otros datos discretizables en una secuencia de unidades que el modelo representa mediante identificadores. La segmentación depende del vocabulario y del algoritmo del tokenizador. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Tokenizer: componente que segmenta una entrada, asigna identificadores a los tokens y realiza la operación inversa de decodificación. Puede incorporar normalización, tratamiento de bytes, tokens especiales y reglas de preprocesamiento. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Top-k sampling: estrategia que restringe el muestreo en cada paso a los k tokens con mayor probabilidad y renormaliza la distribución sobre ese conjunto. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Top-p / nucleus sampling: estrategia que restringe el muestreo al conjunto más pequeño de tokens cuya probabilidad acumulada alcanza al menos el umbral p, adaptando el número de candidatos a la distribución de cada paso. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
TPM / tokens per minute: métrica o límite operativo que expresa el número de tokens procesados dentro de una ventana temporal de un minuto. El método de cómputo y las categorías incluidas dependen de la API. Referencia técnica: OpenAI, Rate Limits Guide. (platform.openai.com)
Tree of thought: familia de métodos que representa la resolución como una búsqueda entre varios estados o continuaciones intermedias, evaluando y seleccionando ramas antes de producir una respuesta. Referencia: Yao et al. (2023), Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Advances in Neural Information Processing Systems 36, arXiv:2305.10601. (arxiv.org)
Upsampling: aumento de la representación de ejemplos pertenecientes a una clase o región minoritaria mediante repetición, ponderación, interpolación o generación sintética. Puede reducir el desbalance, pero también introducir duplicación o artefactos. Referencia: Chawla, Bowyer, Hall y Kegelmeyer (2002), SMOTE: Synthetic Minority Over-Sampling Technique, Journal of Artificial Intelligence Research, 16, 321–357. DOI: 10.1613/jair.953. (jair.org)
User prompt: mensaje o entrada atribuida al usuario que contiene su petición, información o instrucciones. Su prioridad y relación con otros mensajes dependen de la plataforma. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y niveles de autoridad. (model-spec.openai.com)
Versioning: práctica de identificar y gestionar versiones de modelos, prompts, datasets, configuraciones, evaluaciones y código para facilitar reproducibilidad, comparación, trazabilidad y reversión. Referencia: Vartak et al. (2016), ModelDB: A System for Machine Learning Model Management, Proceedings of HILDA 2016. DOI: 10.1145/2939502.2939516. (dl.acm.org)
Zero-shot classification: clasificación de ejemplos en categorías para las que no se proporcionan ejemplos demostrativos específicos durante la inferencia. El modelo puede haber aprendido conceptos, descripciones de etiquetas o tareas relacionadas durante el entrenamiento. Referencia: Yin, Hay y Roth (2019), Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach, Proceedings of EMNLP-IJCNLP 2019, 3914–3923. (aclanthology.org)
Zero-shot prompting: petición que describe una tarea sin incluir ejemplos demostrativos de entradas y salidas en el contexto. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)

RAG, búsqueda, embeddings y conocimiento

Recuperación de información, bases vectoriales, conocimiento externo y atribución.

ANN / Approximate Nearest Neighbor: búsqueda aproximada de vecinos cercanos en espacios vectoriales de alta dimensión mediante algoritmos o índices como HNSW, IVF o product quantization, intercambiando parte del recall por velocidad, memoria y escalabilidad. Referencia: Aumüller, Bernhardsson y Faithfull (2020), ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms, Information Systems, 87, 101374. DOI: 10.1016/j.is.2019.02.006. (arxiv.org)
Annotation: proceso de asignar etiquetas, relaciones, segmentos, explicaciones u otros metadatos a datos para su uso en entrenamiento, evaluación o búsqueda. Puede realizarse manualmente, mediante reglas o con asistencia de modelos. Referencia: Snow et al. (2008), Cheap and Fast—But Is It Good? Evaluating Non-Expert Annotations for Natural Language Tasks, Proceedings of EMNLP 2008, 254–263. (aclanthology.org)
Bi-encoder: arquitectura que codifica consulta y documento por separado para obtener representaciones comparables. Puede compartir pesos entre ambos encoders o usar encoders distintos, y permite precomputar los vectores de los documentos. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019, 3982–3992. DOI: 10.18653/v1/D19-1410. (aclanthology.org)
BM25: función de ranking léxica basada en coincidencia de términos, frecuencia en el documento, frecuencia inversa en la colección y normalización por longitud, con saturación de la frecuencia de término. Referencia: Robertson y Zaragoza (2009), The Probabilistic Relevance Framework: BM25 and Beyond, Foundations and Trends in Information Retrieval, 3(4), 333–389. DOI: 10.1561/1500000019. (nowpublishers.com)
Candidate generation: primera fase de un sistema de recuperación en varias etapas que obtiene rápidamente un conjunto amplio de candidatos, posteriormente evaluado por modelos de ranking más precisos y costosos. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Chunk: fragmento de un documento utilizado como unidad de indexación, embedding, recuperación o incorporación al contexto. Su tamaño y límites pueden definirse por tokens, estructura documental o coherencia semántica. Referencia: Gao et al. (2023), Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv:2312.10997. (arxiv.org)
Chunking: proceso de dividir documentos en unidades recuperables, equilibrando granularidad, continuidad semántica, cobertura de información y coste de contexto. Puede utilizar tamaño fijo, solapamiento, estructura documental o detección semántica de límites. Referencia: Duarte et al. (2024), LumberChunker: Long-Form Narrative Document Segmentation, Findings of EMNLP 2024. (aclanthology.org)
Citation: referencia explícita a una fuente que pretende sustentar una afirmación o fragmento de una respuesta generada. Una cita correcta debe señalar una fuente pertinente y respaldar realmente el contenido atribuido. Referencia: Gao, Yen, Yu y Chen (2023), Enabling Large Language Models to Generate Text with Citations, Proceedings of EMNLP 2023, 6465–6488. DOI: 10.18653/v1/2023.emnlp-main.398. (aclanthology.org)
Contextual retrieval: técnica que añade a cada chunk una breve descripción derivada del documento completo antes de generar su embedding y su representación léxica. Su finalidad es conservar información contextual que el fragmento aislado no expresa. Referencia técnica: Anthropic (2024), Introducing Contextual Retrieval. (anthropic.com)
Corpus: colección de documentos, pasajes u otros objetos sobre la que se construye un índice y se ejecutan consultas de recuperación. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, Cambridge University Press. (nlp.stanford.edu)
Cosine similarity: medida que compara dos vectores mediante el coseno del ángulo que forman. Es invariante a la multiplicación de un vector por un escalar positivo, por lo que compara orientación y no magnitud absoluta. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. DOI: 10.1145/361219.361220. (dl.acm.org)
Coverage: grado en que un corpus, conjunto de evaluación o sistema de recuperación incluye los documentos, casos, entidades o aspectos necesarios para la tarea. Debe definirse respecto a una población o conjunto de relevancia concreto. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulos sobre recall y evaluación. (nlp.stanford.edu)
Cross-encoder: modelo que procesa conjuntamente una consulta y un candidato para producir una puntuación de relevancia. Permite interacciones detalladas entre sus tokens, pero requiere ejecutar el modelo para cada par y no permite precomputar completamente las puntuaciones de los documentos. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Data deduplication: identificación y eliminación o agrupación de elementos duplicados y casi duplicados en datasets, índices o corpus. Puede reducir contaminación entre particiones, memorización, redundancia y coste computacional. Referencia: Lee et al. (2022), Deduplicating Training Data Makes Language Models Better, Proceedings of ACL 2022, 8424–8445. DOI: 10.18653/v1/2022.acl-long.577. (aclanthology.org)
Dense retrieval: recuperación que representa consultas y documentos mediante vectores densos aprendidos y utiliza una función de similitud para encontrar candidatos. Puede recuperar relaciones no basadas en coincidencia literal, aunque su comportamiento depende de los datos y del objetivo de entrenamiento. Referencia: Karpukhin et al. (2020), Dense Passage Retrieval for Open-Domain Question Answering, Proceedings of EMNLP 2020, 6769–6781. DOI: 10.18653/v1/2020.emnlp-main.550. (aclanthology.org)
Dense vector: vector en el que una proporción alta de sus componentes contiene valores distintos de cero. Es habitual en representaciones neuronales aprendidas, donde cada dimensión no suele corresponder directamente a una palabra o atributo interpretable. Referencia: Karpukhin et al. (2020), Dense Passage Retrieval for Open-Domain Question Answering, Proceedings of EMNLP 2020. (aclanthology.org)
Dimensionality: número de componentes de un vector. Una dimensionalidad mayor puede aumentar la capacidad representacional, pero también incrementa memoria y cómputo y no garantiza una mejor recuperación. Referencia: Johnson, Douze y Jégou (2019), Billion-Scale Similarity Search with GPUs, IEEE Transactions on Big Data, 7(3), 535–547. DOI: 10.1109/TBDATA.2019.2921572. (arxiv.org)
Document loader: componente de integración que obtiene documentos desde archivos, URLs, bases de datos o APIs y los transforma a una representación común con contenido y metadatos para su procesamiento posterior. No existe una interfaz universal para este componente. Referencia técnica: LangChain, Document loaders. (python.langchain.com)
Document retrieval: proceso de identificar, ordenar y devolver documentos considerados relevantes para una consulta dentro de un corpus indexado. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Embedding: representación vectorial aprendida de un objeto. Su geometría refleja las relaciones favorecidas por los datos, la arquitectura y el objetivo de entrenamiento; la proximidad no equivale universalmente a similitud semántica. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50. (arxiv.org)
Embedding drift: cambio en la distribución, orientación o utilidad práctica de los embeddings causado por actualizaciones del modelo, cambios en los datos o evolución del dominio. Puede invalidar índices, umbrales o comparaciones construidos con una versión anterior. Referencia relacionada: Gama et al. (2014), A Survey on Concept Drift Adaptation, ACM Computing Surveys, 46(4), artículo 44. DOI: 10.1145/2523813. (dl.acm.org)
Embedding model: modelo que transforma entradas —como texto, imágenes, audio o productos— en vectores de dimensión fija o controlada para tareas de similitud, clasificación, clustering o recuperación. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Embedding space: espacio vectorial en el que los objetos se representan como puntos. Distancias, ángulos y direcciones pueden reflejar relaciones aprendidas, pero su interpretación depende del modelo, la métrica y la región del espacio considerada. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE TPAMI, 35(8), 1798–1828. (arxiv.org)
Faithfulness: grado en que las afirmaciones de una respuesta están respaldadas por el contexto o las fuentes que el sistema presenta como evidencia, sin introducir información incompatible o no sustentada. Referencia: Es et al. (2023), Ragas: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217. (arxiv.org)
GraphRAG: familia de sistemas RAG que utiliza grafos de entidades, relaciones, comunidades u otras estructuras para organizar, recuperar y sintetizar información. El término abarca implementaciones diferentes y no designa una arquitectura única. Referencia: Edge et al. (2024), From Local to Global: A Graph RAG Approach to Query-Focused Summarization, arXiv:2404.16130. (arxiv.org)
Groundedness: grado en que una salida está respaldada por datos, documentos, observaciones o resultados de herramientas suministrados al modelo. Su medición requiere definir qué fuentes se consideran válidas y qué nivel de inferencia está permitido. Referencia: Es et al. (2023), Ragas: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217. (arxiv.org)
Grounding: proceso de conectar la generación del modelo con datos externos, documentos, observaciones o herramientas verificables que condicionan o respaldan la respuesta. El grounding reduce algunos errores factuales, pero no garantiza que el modelo interprete correctamente la evidencia. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33, 9459–9474. (arxiv.org)
HNSW / FAISS: HNSW es un algoritmo de búsqueda aproximada basado en un grafo jerárquico navegable. FAISS es una biblioteca para búsqueda y clustering vectorial que incluye índices exactos y aproximados, como IVF, HNSW y product quantization. Referencias: Malkov y Yashunin (2020), Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, IEEE TPAMI, 42(4), 824–836; y Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org, arxiv.org)
Hybrid search: combinación de recuperación léxica y recuperación vectorial, normalmente mediante fusión de puntuaciones o de rankings. Su objetivo es combinar coincidencia exacta de términos con correspondencias semánticas aprendidas. Referencia: Lin et al. (2021), Pyserini: An Easy-to-Use Python Toolkit to Support Replicable IR Research with Sparse and Dense Representations, SIGIR 2021, 2356–2362. (arxiv.org)
HyDE / Hypothetical Document Embedding: técnica de recuperación sin supervisión en la que un modelo genera uno o varios documentos hipotéticos relacionados con la consulta, se calculan sus embeddings y se utilizan para recuperar documentos reales próximos en el espacio vectorial. Referencia: Gao et al. (2023), Precise Zero-Shot Dense Retrieval without Relevance Labels, Proceedings of ACL 2023, 1762–1777. DOI: 10.18653/v1/2023.acl-long.99. (aclanthology.org)
Index: estructura de datos que organiza documentos, términos, metadatos o vectores para reducir el coste de las búsquedas. Ejemplos habituales son los índices invertidos, grafos ANN, listas invertidas vectoriales y árboles. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulos sobre índices invertidos. (nlp.stanford.edu)
Indexing pipeline: flujo que obtiene documentos, extrae contenido y metadatos, limpia y fragmenta los datos, calcula representaciones y actualiza uno o varios índices recuperables. También debe gestionar versiones, errores, borrados y actualizaciones. Referencia: Gao et al. (2023), Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv:2312.10997. (arxiv.org)
Knowledge base: repositorio de información que una aplicación puede consultar. Puede contener texto no estructurado, registros, documentos, tablas, grafos o combinaciones de estos formatos. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33. (arxiv.org)
Knowledge cutoff: fecha declarada hasta la que llega una parte sustancial de los datos utilizados para entrenar o actualizar un modelo. No implica conocimiento completo de los hechos anteriores ni ignorancia total de cualquier información posterior. Referencia: OpenAI (2023), GPT-4 Technical Report, arXiv:2303.08774. (arxiv.org)
Knowledge distillation: entrenamiento de un modelo estudiante para aproximar las distribuciones de salida, representaciones u otros comportamientos de un modelo profesor, con el objetivo habitual de reducir tamaño o coste de inferencia. Referencia: Hinton, Vinyals y Dean (2015), Distilling the Knowledge in a Neural Network, arXiv:1503.02531. (arxiv.org)
Knowledge graph: estructura que representa entidades y relaciones mediante un grafo, normalmente acompañada de identificadores, tipos, propiedades y semántica explícita o implícita. Referencia: Hogan et al. (2021), Knowledge Graphs, ACM Computing Surveys, 54(4), artículo 71. DOI: 10.1145/3447772. (arxiv.org)
KV cache / Key-Value cache: estructura que conserva los vectores key y value calculados para tokens anteriores durante la generación autoregresiva, evitando recalcularlos en cada paso. Su tamaño crece con la longitud de la secuencia, el batch y la arquitectura. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023, 611–626. (arxiv.org)
Late interaction: paradigma que codifica consulta y documento por separado a nivel de token y calcula sus interacciones durante el ranking. ColBERT agrega normalmente, para cada token de consulta, la máxima similitud obtenida con los tokens del documento. Referencia: Khattab y Zaharia (2020), ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT, Proceedings of SIGIR 2020, 39–48. DOI: 10.1145/3397271.3401075. (arxiv.org)
Long-context retrieval: estrategia que recupera unidades documentales relativamente largas o combina recuperación selectiva con modelos capaces de procesar contextos extensos. Busca conservar relaciones globales que pueden perderse al recuperar fragmentos pequeños. Referencia: Jiang, Ma y Chen (2024), LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs, arXiv:2406.15319. (arxiv.org)
Metadata filtering: restricción de una búsqueda vectorial o documental mediante condiciones sobre atributos estructurados, como fecha, autor, organización, categoría, permisos o estado. Puede aplicarse antes, durante o después de la búsqueda aproximada. Referencia: Iff, Bruegger, Chrapek, Besta y Hoefler (2025), Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors, arXiv:2507.21989. (arxiv.org)
MMR / Maximal Marginal Relevance: criterio de selección que combina relevancia respecto a la consulta y novedad respecto a los resultados ya elegidos, reduciendo redundancia mediante un parámetro que controla el equilibrio entre ambos objetivos. Referencia: Carbonell y Goldstein (1998), The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Proceedings of SIGIR 1998, 335–336. DOI: 10.1145/290941.291025. (dl.acm.org)
Multimodal embedding: representación que proyecta objetos de modalidades diferentes —como texto e imagen— a espacios alineados o comparables. La proximidad refleja las relaciones aprendidas durante el entrenamiento, no una equivalencia semántica universal. Referencia: Radford et al. (2021), Learning Transferable Visual Models From Natural Language Supervision, Proceedings of ICML 2021, PMLR 139, 8748–8763. (arxiv.org)
Multimodal RAG: variante de RAG que recupera o utiliza evidencia en varias modalidades, como texto, imágenes, tablas, audio o vídeo. Puede requerir modelos de embedding, ranking y generación capaces de alinear esas modalidades. Referencia: Abootorabi et al. (2025), Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation, arXiv:2502.08826. (arxiv.org)
Query: representación de una necesidad de información enviada a un motor de búsqueda, índice, base de datos o retriever. Puede consistir en texto, vectores, filtros, imágenes o una combinación de ellos. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Query expansion: modificación de una consulta mediante la incorporación de términos, entidades o formulaciones relacionadas para aumentar la probabilidad de recuperar documentos relevantes. Puede mejorar recall e introducir deriva respecto a la intención original. Referencia: Carpineto y Romano (2012), A Survey of Automatic Query Expansion in Information Retrieval, ACM Computing Surveys, 44(1), artículo 1. DOI: 10.1145/2071389.2071390. (dl.acm.org)
Query rewriting: reformulación de una consulta para hacerla más clara, autocontenida o compatible con un sistema de recuperación. En conversaciones suele incorporar información del historial para resolver referencias, elipsis o ambigüedades. Referencia: Elgohary, Peskov y Boyd-Graber (2019), Can You Unpack That? Learning to Rewrite Questions-in-Context, Proceedings of EMNLP-IJCNLP 2019, 5918–5924. (aclanthology.org)
RAG / Retrieval-Augmented Generation: arquitectura que recupera información desde una fuente externa y la incorpora al proceso de generación. Permite utilizar conocimiento actualizable o específico sin incorporarlo íntegramente a los parámetros, aunque no elimina las alucinaciones ni garantiza que la evidencia recuperada sea correcta. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33, 9459–9474. (arxiv.org)
Reranker: modelo o función que recibe una lista inicial de candidatos y calcula un nuevo orden utilizando señales más detalladas que las empleadas durante la primera recuperación. Los cross-encoders son una implementación habitual. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Retrieval: proceso de identificar y ordenar información potencialmente relevante para una consulta dentro de un corpus, base de datos o índice. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Retrieval latency: tiempo transcurrido desde que un sistema recibe una consulta hasta que devuelve los resultados recuperados. Puede incluir codificación de la consulta, búsqueda, filtros, fusión y reranking. Referencia: Aumüller, Bernhardsson y Faithfull (2020), ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms, Information Systems, 87, 101374. (arxiv.org)
Retrieval precision: proporción de los elementos recuperados que se consideran relevantes bajo unos juicios y una definición de relevancia determinados. Suele medirse en un punto de corte, como Precision@k. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulo sobre evaluación. (nlp.stanford.edu)
Self-RAG: método en el que el modelo aprende a decidir cuándo recuperar información y genera tokens de reflexión para evaluar la relevancia de los documentos y determinadas propiedades de su propia respuesta. Referencia: Asai et al. (2024), Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, ICLR 2024, arXiv:2310.11511. (arxiv.org)
Semantic chunking: división de un documento en fragmentos cuyos límites intentan coincidir con cambios de tema o unidades de significado, en lugar de depender únicamente de un número fijo de caracteres o tokens. Referencia: Duarte et al. (2024), LumberChunker: Long-Form Narrative Document Segmentation, Findings of EMNLP 2024. (aclanthology.org)
Semantic search: búsqueda basada en representaciones aprendidas que intenta recuperar resultados relacionados con el significado o intención de la consulta, incluso cuando no existe coincidencia literal de términos. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Sentence transformers: familia de modelos transformer ajustados para producir representaciones comparables de frases, párrafos o documentos, normalmente mediante arquitecturas siamesas y objetivos contrastivos, de ranking o similitud. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Similarity search: búsqueda de los elementos más próximos a una consulta según una función de similitud o distancia definida sobre sus representaciones. Puede ser exacta o aproximada. Referencia: Johnson, Douze y Jégou (2019), Billion-Scale Similarity Search with GPUs, IEEE Transactions on Big Data, 7(3), 535–547. (arxiv.org)
Soft prompt / Prefix tuning: prompt tuning aprende embeddings continuos que se concatenan a la entrada. Prefix tuning aprende prefijos continuos que condicionan distintas capas, habitualmente mediante estados key y value. Ambas son técnicas PEFT que suelen mantener congelados los parámetros base. Referencias: Lester, Al-Rfou y Constant (2021), The Power of Scale for Parameter-Efficient Prompt Tuning; y Li y Liang (2021), Prefix-Tuning: Optimizing Continuous Prompts for Generation. (arxiv.org, arxiv.org)
Source attribution: vinculación explícita de afirmaciones o fragmentos de una respuesta con las fuentes que los respaldan. Debe evaluarse tanto la corrección de cada atribución como la cobertura de las afirmaciones que requieren evidencia. Referencia: Gao, Yen, Yu y Chen (2023), Enabling Large Language Models to Generate Text with Citations, Proceedings of EMNLP 2023. (aclanthology.org)
Sparse retrieval: recuperación basada en representaciones de alta dimensionalidad con pocos componentes activos, normalmente asociados a términos o expansiones léxicas. BM25, TF-IDF y SPLADE son ejemplos con mecanismos diferentes. Referencia: Robertson y Zaragoza (2009), The Probabilistic Relevance Framework: BM25 and Beyond, Foundations and Trends in Information Retrieval, 3(4), 333–389. (nowpublishers.com)
Sparse vector: vector en el que la mayoría de componentes son cero. En recuperación léxica, las dimensiones suelen corresponder a términos de un vocabulario y los valores activos representan presencia o peso. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. (dl.acm.org)
Token: unidad discreta utilizada por un modelo o índice para representar una entrada. En modelos de lenguaje puede corresponder a una palabra, subpalabra, byte, carácter, signo o token especial, según el tokenizador. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Top-k retrieval: operación que devuelve los k documentos, fragmentos o vectores con mayor puntuación según el retriever. El valor de k controla un compromiso entre cobertura, ruido, latencia y consumo de contexto. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Vector database: sistema de gestión de datos diseñado para almacenar vectores y ejecutar búsquedas de similitud, normalmente junto con identificadores, metadatos, filtros, actualizaciones y mecanismos de persistencia. Referencia: Zhang et al. (2023), VBASE: Unifying Online Vector Similarity Search and Relational Queries via Relaxed Monotonicity, Proceedings of OSDI 2023. (usenix.org)
Vector quantization: aproximación de vectores mediante un conjunto finito de códigos o centroides. Reduce memoria y coste de búsqueda a cambio de introducir error de representación. Referencia: Jégou, Douze y Schmid (2011), Product Quantization for Nearest Neighbor Search, IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(1), 117–128. DOI: 10.1109/TPAMI.2010.57. (hal.science)
Vector search: búsqueda de elementos cercanos a un vector de consulta según una función de distancia o similitud. Puede ejecutarse de forma exacta o mediante índices aproximados. Referencia: Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org)
Vector similarity: función que asigna una puntuación a la relación entre dos vectores, como producto escalar, similitud coseno o una transformación de la distancia euclídea. La elección adecuada depende del entrenamiento y de la normalización de las representaciones. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. (dl.acm.org)
Vector store: componente que conserva embeddings y sus identificadores o metadatos y ofrece operaciones de inserción, actualización, eliminación y búsqueda por similitud. Puede ser una biblioteca local, un servicio o una función integrada en una base de datos. Referencia técnica: Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org)
Web grounding: uso de búsquedas y contenidos obtenidos de la web durante la inferencia para proporcionar evidencia actual o verificable al modelo. Requiere evaluar la calidad, actualidad y seguridad de las fuentes recuperadas. Referencia: Nakano et al. (2021), WebGPT: Browser-Assisted Question-Answering with Human Feedback, arXiv:2112.09332. (arxiv.org)

Agentes, herramientas y orquestación

Sistemas que planifican, llaman herramientas y coordinan flujos.

Action: operación concreta que un agente decide ejecutar —como consultar una API, escribir un archivo o enviar un mensaje— para modificar su entorno o avanzar hacia un objetivo. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023, arXiv:2210.03629.
Agent / agente: sistema que utiliza uno o varios modelos para seleccionar y ejecutar acciones sobre herramientas o entornos con el fin de alcanzar un objetivo. Puede incluir planificación, memoria, guardrails y bucles iterativos, aunque estos componentes no son obligatorios en todas las definiciones. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models; y OpenAI, Agents SDK: Agents.
Agent loop: ciclo de ejecución en el que el sistema recibe o construye una observación, decide una acción, ejecuta una herramienta, incorpora el resultado y repite el proceso hasta obtener una salida final o alcanzar un criterio de parada. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models; y OpenAI, Agents SDK.
Agent memory: mecanismo que permite conservar y recuperar información relevante entre pasos o ejecuciones, como hechos, estado de tarea, preferencias, resultados anteriores o reflexiones. Puede mantenerse en el contexto, una sesión persistente o un almacén externo. Referencia: Shinn et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, Advances in Neural Information Processing Systems 36.
Agent trace: registro estructurado de los eventos observables de una ejecución de agente, como llamadas al modelo, herramientas, handoffs, validaciones, errores, latencias y resultados. Referencia técnica: OpenAI, Agents SDK: Tracing; y OpenTelemetry, Traces.
Agentic RAG: diseño de RAG en el que uno o varios agentes deciden dinámicamente cuándo recuperar información, qué consultas lanzar, qué fuentes utilizar, cómo evaluar los resultados y si es necesario repetir o modificar la búsqueda. Referencia: Singh et al. (2025), Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG, arXiv:2501.09136.
Agentic workflow: flujo de trabajo en el que uno o varios agentes toman decisiones intermedias sobre la descomposición de la tarea, las herramientas, la delegación o la secuencia de ejecución, dentro de unos límites definidos por la aplicación. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, arXiv:2308.08155.
Approval gate: punto de control que suspende o bloquea una acción hasta recibir una aprobación humana o una autorización explícita, especialmente antes de operaciones sensibles, externas o difíciles de revertir. Referencia técnica: OpenAI, Agents SDK Examples: Human in the Loop with Tool Approval; y MCP, Tools: User Interaction Model.
Autonomous agent: agente diseñado para ejecutar tareas con intervención humana limitada, tomando decisiones sobre estrategia, secuencia de acciones y uso de herramientas. La autonomía es gradual y depende de sus permisos, supervisión y capacidad para gestionar errores. Referencia: Xie et al. (2024), OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Advances in Neural Information Processing Systems 37.
Browser tool: herramienta que permite a un agente buscar en la web, abrir páginas, seguir enlaces, extraer información o interactuar con interfaces de navegación. Referencia: Nakano et al. (2021), WebGPT: Browser-Assisted Question-Answering with Human Feedback, arXiv:2112.09332.
Capability negotiation: intercambio de inicialización mediante el que dos componentes declaran las funciones y versiones que soportan y determinan qué características podrán utilizar durante la comunicación. Referencia técnica: Model Context Protocol (2025), Architecture y Lifecycle.
Cognitive architecture: estructura computacional que organiza capacidades como percepción, memoria, aprendizaje, razonamiento, selección de acciones y planificación, definiendo cómo se relacionan dentro de un agente. Referencia: Kotseruba y Tsotsos (2020), 40 Years of Cognitive Architectures: Core Cognitive Abilities and Practical Applications, Artificial Intelligence Review, 53, 17–94. DOI: 10.1007/s10462-018-9646-y.
Computer use: capacidad de un agente para observar y controlar interfaces gráficas, navegadores o aplicaciones mediante acciones como clics, desplazamientos, escritura, atajos de teclado y capturas de pantalla. Referencia: Xie et al. (2024), OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Advances in Neural Information Processing Systems 37.
Durable execution: modelo de ejecución en el que el estado y el historial de un workflow se persisten para que pueda recuperarse tras fallos, reinicios o periodos de inactividad sin comenzar necesariamente desde el principio. Referencia técnica: Temporal, Workflow Execution Overview.
Elicitation: mecanismo por el que un componente solicita al usuario información, selección o autorización adicional necesaria para continuar una operación. En MCP, el servidor realiza la solicitud a través del cliente, que conserva el control de la interacción y del intercambio de datos. Referencia técnica: Model Context Protocol (2025), Elicitation.
Environment: sistema externo con el que interactúa un agente y del que recibe observaciones. Puede ser una API, un sistema de archivos, un navegador, una aplicación, un simulador o un entorno físico, y determina las acciones disponibles y sus efectos. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models.
Extraction: tarea de transformar contenido no estructurado o semiestructurado en información estructurada, como entidades, relaciones, eventos, atributos, campos o tablas. Referencia: Xu et al. (2023), Large Language Models for Generative Information Extraction: A Survey, arXiv:2312.17617.
Function calling: capacidad de un modelo para producir una solicitud estructurada de invocación de una función externa, indicando su nombre y argumentos. La aplicación valida y ejecuta la función y devuelve el resultado al modelo. Referencia técnica: OpenAI, Function Calling Guide.
Function schema: definición estructurada de una función disponible para el modelo, incluyendo nombre, descripción, parámetros, tipos, campos obligatorios y restricciones. Suele expresarse mediante JSON Schema o un subconjunto compatible. Referencia técnica: OpenAI, Agents SDK: Function Schema.
Handoff: transferencia explícita de la responsabilidad de una conversación o subtarea desde un agente a otro, normalmente para utilizar una especialización, contexto o conjunto de herramientas diferente. Referencia técnica: OpenAI, Agents SDK: Handoffs.
Host: en MCP, aplicación principal con la que interactúa el usuario y que crea clientes, coordina conexiones con servidores, gestiona permisos y decide qué contexto se comparte con cada componente. Referencia técnica: Model Context Protocol (2025), Architecture.
Hosted tool: herramienta ejecutada en infraestructura administrada por una plataforma o proveedor, que controla aspectos como despliegue, aislamiento, escalado y acceso a recursos. Sus permisos y garantías dependen del servicio. Referencia técnica: OpenAI, Agents SDK: Tools and Agent Configuration.
Human review: intervención en la que una persona examina una salida, decisión, evaluación o acción del sistema antes de aceptarla, publicarla, utilizarla o ejecutarla. Referencia: Wu et al. (2022), A Survey of Human-in-the-Loop for Machine Learning, Future Generation Computer Systems, 135, 364–381.
Local tool: herramienta ejecutada dentro del entorno local o controlado por la aplicación, como un proceso, sistema de archivos, base de datos privada o servicio interno. La ejecución local no implica por sí sola que la herramienta sea segura o esté aislada. Referencia técnica: Model Context Protocol, Architecture: los servidores pueden ejecutarse como procesos locales o servicios remotos.
MCP / Model Context Protocol: protocolo abierto que estandariza la comunicación entre aplicaciones con modelos y servidores que exponen herramientas, recursos, prompts y otras capacidades. Utiliza mensajes basados en JSON-RPC y una arquitectura host-cliente-servidor. Referencia técnica: Model Context Protocol (2025), Specification y Architecture Overview.
MCP client: componente creado y gestionado por el host que establece una conexión con un servidor MCP y coordina el intercambio de solicitudes, respuestas, notificaciones y capacidades entre el servidor y la aplicación. Referencia técnica: Model Context Protocol, Understanding MCP Clients.
MCP prompt: plantilla estructurada de mensajes expuesta por un servidor MCP para que un cliente pueda descubrirla, recuperarla y completarla con argumentos. Los prompts están concebidos principalmente como elementos seleccionados por el usuario. Referencia técnica: Model Context Protocol (2025), Prompts.
MCP resource: contenido identificado mediante una URI y expuesto por un servidor MCP para que el cliente pueda leerlo e incorporarlo al contexto cuando corresponda. Puede representar archivos, esquemas, registros o datos específicos de una aplicación. Referencia técnica: Model Context Protocol (2025), Resources.
MCP server: componente que implementa MCP y expone capacidades especializadas, como herramientas ejecutables, recursos consultables o plantillas de prompts. Puede ejecutarse localmente o como servicio remoto. Referencia técnica: Model Context Protocol, Architecture.
MCP tool: operación ejecutable expuesta por un servidor MCP mediante un nombre, metadatos y un esquema de entrada. El modelo puede proponer su invocación, mientras que el cliente o la aplicación controla su autorización y ejecución efectiva. Referencia técnica: Model Context Protocol (2025), Tools.
Multi-agent system: sistema compuesto por varios agentes que interactúan, colaboran, debaten o se delegan tareas para resolver un problema. La presencia de múltiples agentes no garantiza mejores resultados y añade costes de coordinación y validación. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, arXiv:2308.08155.
Orchestration: coordinación de agentes, modelos, herramientas, memoria, reglas y dependencias para ejecutar un proceso de extremo a extremo, incluyendo control de secuencia, concurrencia, errores y resultados. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation; y Temporal, Workflow Execution.
Orchestrator: componente que mantiene el control principal de una ejecución, asigna subtareas, invoca agentes o herramientas, gestiona dependencias y combina los resultados. También puede decidir cuándo escalar o solicitar intervención humana. Referencia técnica: OpenAI, Agents SDK: Multi-Agent Patterns.
Parallel tool calls: ejecución concurrente de varias herramientas cuando sus entradas y efectos son independientes. Puede reducir la latencia total, pero requiere gestionar errores, límites de concurrencia, orden de resultados y posibles efectos secundarios. Referencia técnica: OpenAI, Agents SDK Examples: Parallel Agent Execution.
Plan-and-execute: patrón en el que el sistema genera primero un plan o una lista de subtareas y ejecuta después sus pasos. Algunas variantes revisan o modifican el plan durante la ejecución, por lo que la separación entre planificación y acción no siempre es absoluta. Referencia: Wang et al. (2023), Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, Proceedings of ACL 2023.
Planning: proceso de seleccionar y ordenar acciones o subtareas para avanzar desde un estado inicial hacia un objetivo, teniendo en cuenta restricciones, dependencias y observaciones obtenidas durante la ejecución. Referencia: Huang et al. (2024), Understanding the Planning of LLM Agents: A Survey, arXiv:2402.02716.
Python tool / code execution: herramienta que permite generar y ejecutar código Python en un entorno controlado para realizar cálculos, analizar datos, transformar archivos o verificar resultados. El nivel de aislamiento, acceso a red y persistencia depende de la implementación. Referencia: Haluptzok, Bowers y Kalai (2022), Language Models Can Teach Themselves to Program Better, arXiv:2207.14502.
Query planner: componente que transforma una necesidad de información en un plan de consultas u operaciones, decidiendo qué fuentes utilizar, en qué orden, con qué parámetros y cómo combinar sus resultados. Referencia: Urban y Binnig (2024), CAESURA: Language Models as Multi-Modal Query Planners, CIDR 2024.
ReAct: patrón en el que el modelo intercala pasos de razonamiento textual con acciones sobre herramientas y observaciones del entorno. La trayectoria visible no debe asumirse como una representación completa o fiel del procesamiento interno del modelo. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023, arXiv:2210.03629.
Reflection: patrón en el que el sistema revisa una respuesta, plan o trayectoria anterior y genera comentarios o cambios para una nueva ejecución. Puede detectar algunos errores, pero una evaluación producida por el propio modelo no garantiza corrección. Referencia: Shinn et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, Advances in Neural Information Processing Systems 36.
Remote tool: herramienta alojada fuera del proceso o entorno principal del agente y accedida mediante una conexión de red, API o protocolo. Introduce dependencias adicionales de autenticación, disponibilidad, latencia y confianza. Referencia técnica: Model Context Protocol, Architecture.
Resumable execution: capacidad de pausar, interrumpir o recuperar una ejecución y continuarla utilizando el estado y el historial persistidos, sin perder los resultados intermedios confirmados. Referencia técnica: Temporal, Workflow Execution Overview.
Roots: capacidad presente en versiones publicadas de MCP mediante la que un cliente comunica a un servidor URIs de directorios o archivos relevantes. Sirve como orientación sobre el espacio de trabajo y no constituye por sí sola un mecanismo de control de acceso. El borrador actual de MCP la marca como obsoleta y recomienda transmitir ubicaciones mediante parámetros, recursos o configuración del servidor. Referencia técnica: Model Context Protocol, Roots.
Run state: información necesaria para representar el progreso de una ejecución, como el paso actual, variables, mensajes, resultados, errores, intentos, aprobaciones pendientes y estado de las herramientas. Referencia técnica: Temporal, Workflow Execution; y OpenAI, Agents SDK: Results and Resumable State.
Sandbox agent: agente que opera dentro de un entorno aislado con acceso restringido a archivos, procesos, red, credenciales y herramientas. El aislamiento limita el impacto potencial, pero su seguridad depende de la implementación y de los permisos concedidos. Referencia técnica: OpenAI, Agents SDK: Sandbox Agent Concepts; referencia experimental: Xie et al. (2024), OSWorld.
Span: unidad que representa una operación individual dentro de una traza, como una llamada al modelo, una función, una herramienta, una validación o una petición remota. Puede contener tiempos, atributos, eventos, estado y relaciones con otros spans. Referencia técnica: OpenTelemetry, Traces y Span API.
State machine: modelo de ejecución compuesto por estados y transiciones activadas por eventos o condiciones. Permite representar workflows controlables y hacer explícitos sus estados válidos, rutas y criterios de terminación. Referencia: Mukherjee et al. (2019), Reliable State Machines: A Framework for Programming Reliable Cloud Services, arXiv:1902.09502.
Subagent: agente especializado que recibe una subtarea de un agente principal u orquestador y devuelve un resultado. Puede disponer de instrucciones, contexto, herramientas y permisos diferentes a los del agente que delega. Referencia técnica: OpenAI, Agents SDK: Agents as Tools and Handoffs.
Tool calling: capacidad de un modelo para seleccionar una herramienta y generar una solicitud estructurada con los argumentos necesarios. La aplicación conserva la responsabilidad de validar, autorizar y ejecutar la operación. Referencia: Schick et al. (2023), Toolformer: Language Models Can Teach Themselves to Use Tools, Advances in Neural Information Processing Systems 36; y OpenAI, Function Calling Guide.
Tool permissioning: conjunto de políticas que determina qué herramientas puede utilizar un agente, qué operaciones y argumentos están permitidos, qué datos pueden compartirse y qué acciones requieren aprobación. Referencia técnica: Model Context Protocol, Tools: Security and Human Control; y OpenAI, Human-in-the-Loop Tool Approval Examples.
Tool result: salida devuelta después de ejecutar una herramienta y añadida al estado o contexto para que el agente pueda interpretarla y decidir el siguiente paso. Puede contener datos, contenido multimodal, errores o referencias a recursos. Referencia técnica: Model Context Protocol, Schema Reference; y OpenAI, Function Calling Guide.
Tool result validation: comprobación de que la salida de una herramienta tiene el formato esperado, procede de la ejecución correcta, respeta las reglas de seguridad y resulta adecuada antes de utilizarla en pasos posteriores. Referencia técnica: OpenAI, Agents SDK Examples: Tool Input and Output Guardrails.
Tool schema: especificación estructurada que describe una herramienta mediante su nombre, finalidad, argumentos, tipos, restricciones y, cuando corresponde, formato de salida. El esquema ayuda al modelo a decidir cuándo y cómo solicitar su ejecución. Referencia técnica: Model Context Protocol, Tools; y OpenAI, Function Schema.
Tool selection: decisión sobre qué herramienta utilizar, cuándo invocarla y con qué argumentos a partir del objetivo, el contexto y las descripciones disponibles. Puede ser tomada por el modelo, una política externa o un orquestador. Referencia: Schick et al. (2023), Toolformer: Language Models Can Teach Themselves to Use Tools, Advances in Neural Information Processing Systems 36.
Trace: conjunto relacionado de spans y eventos que representa el recorrido observable de una ejecución a través de modelos, agentes, herramientas y servicios. Una traza operativa no debe asumirse como una exposición del razonamiento interno privado del modelo. Referencia técnica: OpenTelemetry, Traces; y OpenAI, Agents SDK: Tracing.
Voice agent: agente conversacional que recibe o produce voz. Puede implementarse mediante una cadena de reconocimiento de voz, modelo de lenguaje y síntesis de voz, o mediante modelos de habla de extremo a extremo. Referencia: Zhang et al. (2025), Recent Advances in Speech Language Models: A Survey, Proceedings of ACL 2025.
Workflow: secuencia organizada, posiblemente condicional o concurrente, de actividades, decisiones, herramientas y transformaciones destinadas a completar una tarea de extremo a extremo. Puede ser determinista o incorporar decisiones tomadas por modelos. Referencia técnica: Temporal, Workflow Execution Overview; y OpenAI, Agents SDK Examples.
Workflow state: conjunto de variables, resultados, eventos y metadatos que representa la situación acumulada de un workflow y permite determinar qué pasos pueden ejecutarse a continuación. En sistemas durables, este estado o su historial se persiste para permitir recuperación. Referencia técnica: Temporal, Workflow Execution y arquitectura de persistencia.

Evaluación, métricas y calidad

Métricas, bancos de prueba, evaluación humana y control de calidad.

Ablation study: experimento que elimina, sustituye o modifica un componente del sistema para medir su contribución al rendimiento o comportamiento final, manteniendo controladas las demás condiciones relevantes. Referencia: Meyes et al. (2019), Ablation Studies in Artificial Neural Networks, arXiv:1901.08644. (arxiv.org)
Accuracy: proporción de predicciones correctas sobre el total de predicciones. Es una métrica básica de clasificación, pero puede resultar poco informativa cuando las clases están desbalanceadas o los errores tienen costes distintos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. DOI: 10.1016/j.ipm.2009.03.002. (sciencedirect.com)
Adversarial evaluation: evaluación con ejemplos creados, seleccionados o modificados específicamente para provocar fallos, inconsistencias o comportamientos no deseados en el modelo. Referencia: Wang et al. (2022), Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models, Advances in Neural Information Processing Systems 35, arXiv:2111.02840. (arxiv.org)
Answer relevance: métrica que estima si una respuesta aborda la intención y el contenido de la pregunta, penalizando información evasiva, incompleta o no relacionada. Su implementación concreta depende del evaluador y de la rúbrica. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024: System Demonstrations, 150–158. (aclanthology.org)
Arena-style evaluation: evaluación basada en comparaciones ciegas y pareadas entre respuestas de distintos modelos, donde jueces humanos o automáticos eligen una salida, declaran empate o indican que ninguna es adecuada. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36, arXiv:2306.05685. (arxiv.org)
Benchmark: conjunto de tareas, datos, métricas y procedimientos definido para comparar sistemas bajo un protocolo común. La estandarización mejora la reproducibilidad, pero no garantiza objetividad, validez externa, representatividad ni ausencia de contaminación. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research, arXiv:2211.09110. (arxiv.org)
Benchmark contamination: presencia de ejemplos, respuestas o información equivalente del conjunto de evaluación en los datos de entrenamiento, ajuste o selección del modelo, lo que puede inflar las métricas y dificultar la medición de generalización. Referencia: Sainz et al. (2023), NLP Evaluation in Trouble: On the Need to Measure LLM Data Contamination for Each Benchmark, Findings of EMNLP 2023. (arxiv.org)
BF16 / bfloat16: formato numérico de 16 bits con ocho bits de exponente, como FP32, y una mantisa de menor precisión. Conserva un rango dinámico amplio y se utiliza para reducir memoria y acelerar entrenamiento e inferencia. Referencia: Kalamkar et al. (2019), A Study of BFLOAT16 for Deep Learning Training, arXiv:1905.12322. (arxiv.org)
Bias / sesgo: desviación sistemática introducida por los datos, el modelo, el procedimiento de medición o el contexto de uso. Puede referirse tanto a error estadístico como a diferencias perjudiciales entre grupos o perspectivas. Referencia: Mehrabi et al. (2021), A Survey on Bias and Fairness in Machine Learning, ACM Computing Surveys, 54(6), artículo 115. DOI: 10.1145/3457607. (arxiv.org)
BLEU: métrica automática de traducción que compara los n-gramas de una salida con una o varias traducciones de referencia, incorporando una penalización por brevedad. Su correlación con calidad humana depende del idioma, el dominio y el nivel de agregación. Referencia: Papineni, Roukos, Ward y Zhu (2002), BLEU: A Method for Automatic Evaluation of Machine Translation, Proceedings of ACL 2002, 311–318. DOI: 10.3115/1073083.1073135. (aclanthology.org)
Blind evaluation: evaluación en la que se oculta al evaluador la identidad, versión o procedencia del sistema que produjo cada salida, reduciendo la influencia de reputación, marca o expectativas previas. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, arXiv:2306.05685. (arxiv.org)
Calibration: correspondencia entre la confianza predictiva de un modelo y su frecuencia empírica de acierto. Entre predicciones con una confianza de 0,8, un sistema perfectamente calibrado debería acertar aproximadamente el 80 %. Referencia: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017, PMLR 70, 1321–1330. (proceedings.mlr.press)
Canary eval: prueba limitada y sensible diseñada para detectar regresiones, fugas, fallos de seguridad o comportamientos inesperados antes de ampliar un cambio a todo el sistema. Los casos canario suelen tener resultados conocidos y alertas asociadas. Referencia técnica: Beyer et al. (2018), The Site Reliability Workbook, capítulo Canarying Releases, O’Reilly y Google. (sre.google)
Chatbot Arena / LMSYS: plataforma actualmente denominada LMArena que recoge comparaciones ciegas y votos pareados entre respuestas de modelos. Sus rankings estiman preferencias agregadas mediante modelos estadísticos y no representan una medición completa de capacidad, seguridad o adecuación para un caso de uso. Referencias: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena; y LMArena, plataforma oficial. (arxiv.org, lmarena.ai)
Code execution eval: evaluación de código generado mediante su ejecución en un entorno controlado y la comprobación de tests, salidas, excepciones, propiedades o restricciones de recursos. Evalúa comportamiento funcional en lugar de coincidencia textual. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Confidence score: puntuación que pretende representar la seguridad de una predicción o decisión. Solo puede interpretarse como probabilidad de acierto cuando su significado está definido y se ha evaluado su calibración en datos representativos. Referencia: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017. (proceedings.mlr.press)
Confusion matrix: tabla que cruza clases reales y predichas para mostrar los aciertos y errores de un clasificador. En clasificación binaria contiene verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. (sciencedirect.com)
Context relevance: métrica que estima si los documentos, fragmentos o evidencias recuperados contienen información pertinente para responder una consulta, evitando contexto innecesario o no relacionado. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
Data leakage: incorporación al entrenamiento o al desarrollo de información que no estaría legítimamente disponible en el momento de realizar una predicción real, como etiquetas, datos del futuro o elementos del conjunto de evaluación. Referencia: Kaufman, Rosset, Perlich y Stitelman (2012), Leakage in Data Mining: Formulation, Detection, and Avoidance, ACM Transactions on Knowledge Discovery from Data, 6(4), artículo 15. DOI: 10.1145/2382577.2382579. (dl.acm.org)
Error analysis: examen sistemático de los casos en los que un sistema falla para agrupar patrones de error, formular hipótesis causales y decidir qué datos, componentes o reglas deben revisarse. Referencia: Belinkov y Glass (2019), Analysis Methods in Neural Language Processing: A Survey, Transactions of the Association for Computational Linguistics, 7, 49–72. (aclanthology.org)
Eval / evaluación: experimento o conjunto de pruebas diseñado para medir una capacidad, propiedad o riesgo de un modelo o sistema bajo condiciones, datos y criterios previamente definidos. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
Eval harness: infraestructura de software que carga tareas y modelos, ejecuta inferencias, aplica métricas y almacena resultados bajo una configuración reproducible. Referencia técnica: EleutherAI, Language Model Evaluation Harness. (github.com)
Eval-driven development: metodología en la que los requisitos de comportamiento se expresan como evaluaciones repetibles y cada cambio de modelo, prompt, herramienta o código se contrasta con ellas antes de desplegarse. Referencia relacionada: Ribeiro, Wu, Guestrin y Singh (2020), Beyond Accuracy: Behavioral Testing of NLP Models with CheckList, Proceedings of ACL 2020, 4902–4912. (aclanthology.org)
Evaluation dataset: conjunto de ejemplos utilizado para medir capacidades o comportamientos bajo un protocolo definido. Puede dedicarse a desarrollo, validación, regresión, auditoría o medición final, según sus reglas de acceso y uso. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Exact match: métrica binaria que considera correcta una predicción únicamente cuando coincide exactamente con la respuesta de referencia después de aplicar una normalización definida. Puede penalizar respuestas semánticamente equivalentes con distinta forma textual. Referencia: Rajpurkar, Zhang, Lopyrev y Liang (2016), SQuAD: 100,000+ Questions for Machine Comprehension of Text, Proceedings of EMNLP 2016, 2383–2392. (aclanthology.org)
F1 score: media armónica de precision y recall. Resume ambas métricas en un único valor, pero no incorpora explícitamente los costes de los errores y puede calcularse mediante promedios macro, micro, ponderados u otras variantes. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. (sciencedirect.com)
Factuality eval: evaluación que identifica afirmaciones verificables en una salida y estima si son verdaderas según fuentes, referencias o conocimiento externo. Debe distinguir factualidad, relevancia, completitud y fidelidad al contexto. Referencia: Min et al. (2023), FActScore: Fine-Grained Atomic Evaluation of Factual Precision in Long Form Text Generation, Proceedings of EMNLP 2023, 12076–12100. (aclanthology.org)
Faithfulness score: puntuación que estima qué proporción de las afirmaciones de una respuesta está respaldada por el contexto o las fuentes proporcionadas. Su valor depende del método utilizado para extraer y verificar afirmaciones. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
False negative: ejemplo perteneciente a la clase positiva que el sistema clasifica incorrectamente como negativo. Representa una detección omitida. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
False positive: ejemplo perteneciente a la clase negativa que el sistema clasifica incorrectamente como positivo. Representa una alarma o detección incorrecta. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
FP16 / half precision: formato binario de 16 bits con un bit de signo, cinco bits de exponente y diez bits almacenados de fracción. Ofrece mayor precisión de significando que BF16, pero un rango de exponentes menor. Referencia normativa: IEEE (2019), IEEE Standard for Floating-Point Arithmetic — IEEE 754-2019. (standards.ieee.org)
Golden traces: ejecuciones de referencia revisadas y conservadas para comparar cambios posteriores en las decisiones, herramientas, argumentos, resultados y salidas de un agente. Deben actualizarse de forma controlada cuando cambia el comportamiento esperado. Referencia técnica: OpenAI, Agents SDK: Tracing; y OpenTelemetry, Traces. (openai.github.io, opentelemetry.io)
Grounded QA eval: evaluación de preguntas y respuestas en la que se comprueba tanto la calidad de la contestación como su respaldo por documentos o fuentes concretas. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
Human feedback: señal producida por personas mediante demostraciones, correcciones, puntuaciones, críticas o comparaciones de preferencias y utilizada para entrenar, ajustar o evaluar un sistema. Referencia: Christiano et al. (2017), Deep Reinforcement Learning from Human Preferences, Advances in Neural Information Processing Systems 30, arXiv:1706.03741. (arxiv.org)
HumanEval: benchmark de generación de código compuesto por problemas de programación en Python descritos mediante firmas y docstrings. Las soluciones generadas se ejecutan contra tests funcionales. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Inter-rater agreement: medida de concordancia entre evaluadores que anotan los mismos elementos, normalmente corrigiendo o contextualizando el acuerdo esperado por azar. Un acuerdo alto no demuestra por sí solo que la rúbrica sea válida. Referencia: Artstein y Poesio (2008), Inter-Coder Agreement for Computational Linguistics, Computational Linguistics, 34(4), 555–596. DOI: 10.1162/coli.07-034-R2. (aclanthology.org)
IoU / Intersection over Union: medida de solapamiento entre una región predicha y una región de referencia, calculada como el área de su intersección dividida por el área de su unión. Referencia: Everingham et al. (2010), The Pascal Visual Object Classes (VOC) Challenge, International Journal of Computer Vision, 88, 303–338. DOI: 10.1007/s11263-009-0275-4. (link.springer.com)
Jailbreak success rate: proporción de intentos adversariales que consiguen que el sistema produzca el comportamiento prohibido definido por el protocolo. El resultado depende de la calidad del conjunto de ataques y del evaluador utilizado para decidir el éxito. Referencia: Souly et al. (2024), A StrongREJECT for Empty Jailbreaks, Advances in Neural Information Processing Systems 37, arXiv:2402.10260. (arxiv.org)
Judge model / LLM-as-a-judge: modelo utilizado para puntuar, clasificar o comparar respuestas según una rúbrica. Permite ampliar la escala de evaluación, pero puede introducir sesgos de posición, estilo, longitud, identidad o semejanza con sus propias respuestas. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36. (arxiv.org)
Metric: función o procedimiento que transforma resultados y referencias en una medida cuantitativa de alguna propiedad del sistema. Una métrica solo es útil dentro de un objetivo, una población y un protocolo de medición definidos. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
MMLU / Massive Multitask Language Understanding: benchmark de preguntas de opción múltiple distribuido en 57 materias académicas y profesionales. Mide conocimiento y resolución de preguntas bajo un protocolo específico, no una capacidad general completa de razonamiento. Referencia: Hendrycks et al. (2021), Measuring Massive Multitask Language Understanding, ICLR 2021, arXiv:2009.03300. (arxiv.org)
Observability: capacidad de investigar el estado y el comportamiento de un sistema mediante señales externas como logs, métricas, trazas, eventos y alertas. En sistemas de IA también incluye prompts, versiones, costes, recuperaciones y llamadas a herramientas, bajo controles de privacidad. Referencia técnica: OpenTelemetry, Observability Primer y Signals. (opentelemetry.io)
Offline eval: evaluación ejecutada sobre datasets, simulaciones o trazas almacenadas sin alterar la experiencia de usuarios reales durante la medición. Facilita reproducibilidad, pero puede no capturar la distribución y los efectos del uso en producción. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
Online eval: evaluación realizada con tráfico o interacciones reales, mediante experimentos controlados, métricas de producto, feedback o monitorización de producción. Requiere gestionar exposición, riesgos y efectos sobre usuarios. Referencia: Kohavi, Longbotham, Sommerfield y Henne (2009), Controlled Experiments on the Web: Survey and Practical Guide, Data Mining and Knowledge Discovery, 18, 140–181. (link.springer.com)
Over-refusal: rechazo de una solicitud legítima y permitida debido a una aplicación excesiva o incorrecta de las políticas de seguridad. Referencia: Röttger et al. (2024), XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models, Proceedings of NAACL 2024, 5377–5400. (aclanthology.org)
Pairwise comparison: método que presenta dos alternativas al mismo evaluador y solicita una preferencia, empate u otra relación entre ellas, en lugar de asignar puntuaciones absolutas independientes. Referencia: Bradley y Terry (1952), Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons, Biometrika, 39(3/4), 324–345. DOI: 10.2307/2334029. (jstor.org)
Pairwise preference eval: evaluación en la que dos respuestas se comparan directamente bajo una pregunta y una rúbrica comunes y un juez selecciona la preferida o declara empate. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, arXiv:2306.05685. (arxiv.org)
Pass@k: probabilidad estimada de que al menos una de k soluciones generadas para un problema supere el criterio de corrección, habitualmente tests funcionales. Su cálculo debe corregir el sesgo introducido por el muestreo de un número finito de soluciones. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Perplexity: exponencial de la entropía cruzada media que un modelo de lenguaje asigna a una secuencia. Valores menores indican una mayor probabilidad predictiva bajo el mismo tokenizador, corpus y protocolo, pero no permiten comparar directamente configuraciones incompatibles. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155. (jmlr.org)
Precision: proporción de predicciones positivas que son correctas, calculada como TP / (TP + FP). No equivale a la tasa de falsos positivos, cuyo denominador incluye todos los casos realmente negativos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
QA / Question Answering: tarea de producir una respuesta a una pregunta expresada en lenguaje natural, utilizando un contexto proporcionado, una colección recuperable, conocimiento paramétrico o una combinación de estas fuentes. Referencia: Rajpurkar, Zhang, Lopyrev y Liang (2016), SQuAD: 100,000+ Questions for Machine Comprehension of Text, Proceedings of EMNLP 2016. (aclanthology.org)
Recall: proporción de los ejemplos positivos reales que el sistema identifica correctamente, calculada como TP / (TP + FN). También se denomina sensibilidad en determinados ámbitos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
Refusal precision: proporción de los rechazos emitidos por el modelo que eran apropiados según la política y la anotación de referencia. Una precisión baja indica exceso de rechazos sobre solicitudes permitidas. Referencia relacionada: Röttger et al. (2024), XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models, Proceedings of NAACL 2024. (aclanthology.org)
Refusal recall: proporción de solicitudes que debían rechazarse y para las que el sistema emitió efectivamente un rechazo adecuado. Un recall bajo indica que parte de las solicitudes prohibidas no se bloqueó. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024, arXiv:2402.04249. (arxiv.org)
Regression eval set: conjunto estable de casos y resultados esperados que se ejecuta después de cambios en el modelo, prompt, datos, herramientas o código para detectar degradaciones de comportamientos previamente aceptados. Referencia relacionada: Ribeiro et al. (2020), Beyond Accuracy: Behavioral Testing of NLP Models with CheckList, Proceedings of ACL 2020. (aclanthology.org)
Regression test: prueba que comprueba que una modificación no ha deteriorado una capacidad, requisito o comportamiento que funcionaba en una versión anterior. Referencia: Yoo y Harman (2012), Regression Testing Minimisation, Selection and Prioritisation: A Survey, Software Testing, Verification and Reliability, 22(2), 67–120. DOI: 10.1002/stvr.430. (onlinelibrary.wiley.com)
Robustness: capacidad de mantener un rendimiento aceptable ante perturbaciones, ruido, reformulaciones, cambios de distribución o ataques dentro de un ámbito definido. No existe una única medida universal de robustez. Referencia: Hendrycks y Dietterich (2019), Benchmarking Neural Network Robustness to Common Corruptions and Perturbations, ICLR 2019, arXiv:1903.12261. (arxiv.org)
ROC-AUC: área bajo la curva que relaciona la tasa de verdaderos positivos y la tasa de falsos positivos al variar el umbral. Mide capacidad de ranking binario entre clases, aunque puede ocultar un rendimiento deficiente sobre la clase minoritaria en datasets muy desbalanceados. Referencia: Fawcett (2006), An Introduction to ROC Analysis, Pattern Recognition Letters, 27(8), 861–874. DOI: 10.1016/j.patrec.2005.10.010. (sciencedirect.com)
Rubric: conjunto explícito de criterios y niveles de cumplimiento utilizado para orientar evaluaciones humanas o automáticas. Puede incluir pesos, ejemplos, condiciones de fallo y reglas para resolver empates. Referencia: Jonsson y Svingby (2007), The Use of Scoring Rubrics: Reliability, Validity and Educational Consequences, Educational Research Review, 2(2), 130–144. DOI: 10.1016/j.edurev.2007.05.002. (sciencedirect.com)
Safety eval: evaluación dirigida a medir riesgos, cumplimiento de políticas, resistencia a ataques, comportamiento ante solicitudes peligrosas y equilibrio entre rechazos correctos y utilidad sobre solicitudes legítimas. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024. (arxiv.org)
Shadow deployment: despliegue en el que una versión candidata procesa una copia del tráfico real sin controlar la respuesta entregada al usuario. Permite comparar comportamiento, latencia y errores antes de otorgarle tráfico efectivo. Referencia técnica: Google Cloud Architecture Center, MLOps: Continuous Delivery and Automation Pipelines in Machine Learning, sección sobre validación y despliegue. (cloud.google.com)
Synthetic evaluation: evaluación compuesta total o parcialmente por casos generados mediante modelos, reglas, plantillas o simuladores. Permite ampliar cobertura y crear casos raros, pero puede heredar sesgos y limitaciones del generador. Referencia: Perez et al. (2022), Red Teaming Language Models with Language Models, Proceedings of EMNLP 2022, 3419–3448. (aclanthology.org)
Task success rate: proporción de tareas que un sistema completa de extremo a extremo según criterios observables definidos previamente. La métrica debe establecer condiciones de éxito parcial, tiempo máximo, costes y número de intentos. Referencia: Liu et al. (2023), AgentBench: Evaluating LLMs as Agents, ICLR 2024, arXiv:2308.03688. (arxiv.org)
Tool-call accuracy: métrica que evalúa si el sistema selecciona la herramienta adecuada y genera una llamada estructuralmente y semánticamente correcta, con los argumentos esperados. Puede medirse mediante coincidencia de AST, ejecución o validación de resultados. Referencia: Patil et al. (2025), The Berkeley Function Calling Leaderboard: From Tool Use to Agentic Evaluation, ICLR 2025. (openreview.net)
Toxicity score: puntuación producida por un clasificador para estimar la presencia o intensidad de lenguaje considerado ofensivo, abusivo, amenazante o dañino. Su interpretación depende de las etiquetas, el dominio, el idioma y el umbral, y puede presentar sesgos entre grupos. Referencia: Borkan et al. (2019), Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification, Companion Proceedings of The Web Conference 2019, 491–500. (arxiv.org)
Training: proceso de ajustar los parámetros de un modelo utilizando datos, una función objetivo y un algoritmo de optimización. Puede incluir múltiples etapas, particiones de datos y mecanismos de regularización. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
True negative: ejemplo perteneciente a la clase negativa que el sistema clasifica correctamente como negativo. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
True positive: ejemplo perteneciente a la clase positiva que el sistema clasifica correctamente como positivo. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
Under-refusal: fallo de seguridad en el que el modelo responde de forma no permitida a una solicitud que debía rechazar, limitar o redirigir según la política aplicable. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024. (arxiv.org)
Unit-test-based evaluation: evaluación en la que código, transformaciones o herramientas se ejecutan contra tests que verifican comportamientos concretos, casos límite y condiciones de error. Superar los tests no demuestra corrección fuera de su cobertura. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
WER / Word Error Rate: métrica de reconocimiento automático del habla calculada como la suma de sustituciones, eliminaciones e inserciones dividida por el número de palabras de la transcripción de referencia. Puede superar el 100 % y depende de las reglas de normalización y segmentación. Referencia: Park, Chen y Hain (2024), Automatic Speech Recognition System-Independent Word Error Rate Estimation, Proceedings of LREC-COLING 2024. (aclanthology.org)
Win rate: proporción de comparaciones pareadas en las que un sistema es declarado ganador frente a otro. Debe indicar cómo se tratan empates, abstenciones, orden de presentación, composición de prompts e incertidumbre estadística. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36. (arxiv.org)

Seguridad, privacidad y alineamiento

Riesgos, políticas, privacidad, cumplimiento y seguridad aplicada.

Abuse monitoring: detección y análisis continuos de patrones de uso indebido para identificar violaciones de políticas, ataques coordinados, automatización abusiva o intentos de explotar el sistema. Debe combinar señales, umbrales, investigación y procedimientos de respuesta, bajo controles de privacidad. Referencia técnica: NIST (2024), Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile — NIST AI 600-1. (nist.gov)
Access control: conjunto de mecanismos que autentica sujetos y autoriza o deniega su acceso a datos, herramientas, funciones y sistemas según políticas definidas. Puede aplicar controles por identidad, rol, atributos, contexto o recurso. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Adversarial attack: intento deliberado de modificar entradas, datos, parámetros o condiciones del sistema para provocar errores, comportamientos controlados por el atacante o evasión de mecanismos de seguridad. Referencia: Goodfellow, Shlens y Szegedy (2015), Explaining and Harnessing Adversarial Examples, ICLR 2015, arXiv:1412.6572. (arxiv.org)
AI alignment: campo que estudia cómo diseñar sistemas de IA cuyo comportamiento responda de forma fiable a objetivos, restricciones, valores e intenciones humanas, incluyendo problemas de especificación, supervisión, robustez y control. Referencia: Gabriel (2020), Artificial Intelligence, Values, and Alignment, Minds and Machines, 30, 411–437. DOI: 10.1007/s11023-020-09539-2. (link.springer.com)
AI safety: área de investigación y práctica orientada a prevenir daños causados por errores de diseño, comportamientos inesperados, vulnerabilidades, usos indebidos y efectos sociales u operativos de los sistemas de IA. Referencia: Amodei et al. (2016), Concrete Problems in AI Safety, arXiv:1606.06565. (arxiv.org)
Alignment tax: coste adicional asociado a conseguir o mantener un determinado nivel de alineación o seguridad, expresado en cómputo, desarrollo, latencia, flexibilidad o rendimiento en algunas tareas. No toda medida de alineación genera necesariamente un coste neto y el efecto depende del método y de la métrica. Referencia relacionada: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Approval step: punto de un workflow en el que la ejecución queda suspendida hasta que una persona o sistema autorizado aprueba, modifica o rechaza una acción, especialmente cuando afecta a datos, dinero, comunicaciones o recursos externos. Referencia técnica: Model Context Protocol, Tools: Human in the Loop. (modelcontextprotocol.io)
Backdoor attack: ataque que introduce durante el entrenamiento o la modificación del modelo una asociación oculta entre un trigger y un comportamiento controlado por el atacante. El modelo puede funcionar normalmente mientras el trigger no aparece. Referencia: Gu, Dolan-Gavitt y Garg (2017), BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, arXiv:1708.06733. (arxiv.org)
Canary token: valor, archivo, enlace o credencial señuelo que genera una alerta cuando es leído, utilizado o transferido, permitiendo detectar accesos no autorizados, filtraciones o exfiltración. No debe sustituir controles preventivos. Referencia técnica: Thinkst Applied Research, Canarytokens. (canarytokens.org)
Capability scoping: limitación explícita de las capacidades, datos, herramientas, operaciones y recursos disponibles para un agente según la tarea y el contexto de ejecución. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207, principio de autorización por recurso y mínimo privilegio. (nist.gov)
Constitutional AI (CAI): método de alineación desarrollado por Anthropic que utiliza una lista de principios para generar críticas y revisiones de las respuestas y para producir preferencias evaluadas por IA durante una fase posterior de reinforcement learning. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Content filter: componente que clasifica o inspecciona entradas y salidas para bloquear, transformar, limitar o enviar a revisión contenido que coincide con categorías de riesgo. Su eficacia depende de los datos, umbrales y políticas aplicadas. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Corrigibility: propiedad deseada de un agente que acepta modificaciones, correcciones, interrupciones o apagado por parte de operadores autorizados sin desarrollar incentivos para impedir, provocar o manipular esas intervenciones. Referencia: Soares, Fallenstein, Yudkowsky y Armstrong (2015), Corrigibility, AAAI Workshop on AI and Ethics. (aaai.org)
Data minimization: principio que exige limitar los datos personales tratados a aquellos que sean adecuados, pertinentes y necesarios para las finalidades declaradas. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 5.1.c. (eur-lex.europa.eu)
Data poisoning: manipulación deliberada de datos utilizados para entrenamiento, ajuste, evaluación o recuperación con el propósito de degradar el sistema, alterar decisiones o introducir comportamientos controlados. Referencia: Biggio, Nelson y Laskov (2012), Poisoning Attacks against Support Vector Machines, Proceedings of ICML 2012. (arxiv.org)
Deceptive alignment / alineación engañosa: hipótesis de riesgo según la cual un sistema muestra durante entrenamiento o evaluación un comportamiento compatible con los objetivos de sus supervisores, mientras conserva objetivos o estrategias que podrían producir un comportamiento diferente cuando cambian las condiciones de supervisión. Referencia: Hubinger et al. (2019), Risks from Learned Optimization in Advanced Machine Learning Systems, arXiv:1906.01820. (arxiv.org)
Differential privacy: propiedad formal que limita cuánto puede cambiar la distribución de resultados de un mecanismo cuando se añade o elimina el registro de una persona. Sus garantías se expresan mediante parámetros como epsilon y delta y suelen implementarse con ruido calibrado. Referencia: Dwork, McSherry, Nissim y Smith (2006), Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006. DOI: 10.1007/11681878_14. (link.springer.com)
Egress control: restricción y monitorización de las conexiones, destinos, protocolos y volúmenes de datos que un agente, proceso o herramienta puede enviar fuera de su entorno. Ayuda a limitar exfiltración y llamadas no autorizadas. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Excessive agency: riesgo que aparece cuando un sistema basado en LLM dispone de funcionalidad, permisos, autonomía o capacidad para producir efectos que exceden lo necesario para su tarea o que carecen de controles proporcionales. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM06: Excessive Agency. (owasp.org)
Exfiltration: extracción o transmisión no autorizada de datos, secretos o información interna desde un sistema hacia un actor o destino externo. Puede producirse mediante herramientas, canales de red, respuestas del modelo o contenido recuperado malicioso. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, riesgos de prompt injection y sensitive information disclosure. (owasp.org)
Guardrail: control aplicado antes, durante o después de la ejecución para detectar, impedir, limitar o revisar comportamientos no permitidos. Puede consistir en clasificadores, reglas, validadores, permisos, aislamiento o aprobación humana. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Human approval: autorización explícita de una persona antes de que el sistema realice una acción determinada. Es especialmente relevante para operaciones de alto impacto, externas, financieras, destructivas o difíciles de revertir. Referencia técnica: Model Context Protocol, Tools: Security and User Interaction. (modelcontextprotocol.io)
Improper output handling: vulnerabilidad que aparece cuando la salida de un modelo se utiliza como código, consulta, comando, HTML, configuración o instrucción confiable sin validación, codificación o aislamiento adecuados. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM05: Improper Output Handling. (owasp.org)
Indirect prompt injection: ataque en el que las instrucciones maliciosas no proceden directamente del usuario, sino de contenido externo procesado por el modelo, como páginas web, documentos, correos o resultados de herramientas. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection, arXiv:2302.12173. (arxiv.org)
Jailbreak: entrada o estrategia diseñada para lograr que un modelo eluda restricciones de seguridad, instrucciones privilegiadas o políticas de uso y produzca un comportamiento que debería bloquear. Referencia: Zou et al. (2023), Universal and Transferable Adversarial Attacks on Aligned Language Models, arXiv:2307.15043. (arxiv.org)
Jailbreak benchmark: conjunto de ataques, solicitudes, criterios de éxito y evaluadores utilizado para medir la resistencia de un modelo o sistema ante técnicas de evasión. Debe controlar falsos positivos, cobertura y calidad del juez. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024, arXiv:2402.04249. (arxiv.org)
Least privilege for agents: aplicación del principio de mínimo privilegio a agentes, concediéndoles únicamente los datos, herramientas, operaciones, credenciales y duración de acceso necesarios para la tarea actual. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Membership inference attack: ataque de privacidad que intenta determinar si un registro concreto formó parte del conjunto de entrenamiento de un modelo, utilizando sus predicciones, probabilidades u otras señales. Referencia: Shokri et al. (2017), Membership Inference Attacks against Machine Learning Models, IEEE Symposium on Security and Privacy. (arxiv.org)
Misinformation: información falsa, inexacta o engañosa generada, resumida o amplificada por un sistema, con independencia de que exista intención de engañar. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM09: Misinformation. (owasp.org)
Model poisoning: modificación maliciosa de pesos, adaptadores, checkpoints, configuraciones o artefactos de un modelo para degradar su funcionamiento, insertar triggers o controlar determinados resultados. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM04: Data and Model Poisoning. (owasp.org)
Moderation: proceso de detectar, clasificar y gestionar contenido según políticas de seguridad o cumplimiento, mediante acciones como permitir, bloquear, limitar, etiquetar o remitir a revisión humana. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Output validation: comprobación de que una salida cumple su esquema, restricciones semánticas, reglas de negocio y requisitos de seguridad antes de almacenarla, mostrarla o utilizarla en sistemas posteriores. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM05: Improper Output Handling. (owasp.org)
PII / Personally Identifiable Information: término utilizado principalmente en contextos estadounidenses para información que permite distinguir o rastrear la identidad de una persona, por sí sola o combinada con otra información. El concepto europeo de dato personal tiene una definición jurídica propia y no coincide exactamente con PII. Referencia técnica: McCallister, Grance y Scarfone (2010), Guide to Protecting the Confidentiality of Personally Identifiable Information — NIST SP 800-122. (nist.gov)
Policy enforcement: aplicación efectiva de reglas de acceso, seguridad, privacidad o cumplimiento mediante decisiones que permiten, bloquean, modifican o registran una operación. Puede separarse la decisión de política de su punto de ejecución. Referencia técnica: Open Policy Agent, Policy Enforcement. (openpolicyagent.org)
Policy-as-code: práctica de representar políticas como artefactos declarativos o ejecutables que pueden versionarse, revisarse, probarse, desplegarse y auditarse mediante procesos de ingeniería de software. Referencia técnica: Open Policy Agent, Policy Language and Policy as Code. (openpolicyagent.org)
Privacy-preserving ML: familia de métodos destinada a limitar la exposición de datos durante el entrenamiento o la inferencia, incluyendo privacidad diferencial, aprendizaje federado, cifrado homomórfico, computación multipartita segura y entornos de ejecución confiables. Cada técnica protege frente a modelos de amenaza diferentes. Referencia: Dwork et al. (2006), Calibrating Noise to Sensitivity in Private Data Analysis; y NIST, Privacy Framework. (nist.gov)
Prompt injection: ataque en el que una entrada intenta alterar la jerarquía o interpretación de instrucciones del sistema para desviar el modelo de la tarea prevista, revelar información o ejecutar acciones no autorizadas. Puede ser directo o indirecto. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For, arXiv:2302.12173. (arxiv.org)
Prompt injection via retrieved content: forma de indirect prompt injection en la que documentos o fragmentos incorporados por un sistema de recuperación contienen instrucciones maliciosas que el modelo puede interpretar como órdenes. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For, arXiv:2302.12173. (arxiv.org)
RAG poisoning: manipulación de documentos, metadatos, índices o mecanismos de ranking de un sistema RAG para aumentar la probabilidad de recuperar contenido falso, sesgado o malicioso ante consultas objetivo. Referencia: Zou et al. (2024), PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models, arXiv:2402.07867. (arxiv.org)
Redaction: ocultación o eliminación de información sensible antes de mostrar, compartir o almacenar contenido. Puede realizarse mediante supresión, sustitución, enmascaramiento o generalización; algunas técnicas conservan la posibilidad de recuperación y otras no. Referencia técnica: Garfinkel (2015), De-Identification of Personal Information — NIST IR 8053. (nist.gov)
Refusal: respuesta mediante la que el modelo evita cumplir total o parcialmente una solicitud debido a una política, restricción de seguridad o limitación de capacidad. Un rechazo adecuado puede incluir una explicación y alternativas permitidas. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Safety classifier: modelo que asigna categorías o puntuaciones de riesgo a entradas o salidas para informar decisiones de bloqueo, limitación, alerta o revisión. Sus resultados dependen de la taxonomía, el idioma, los umbrales y la distribución de uso. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Sandbox: entorno aislado o restringido que limita los recursos, permisos y canales disponibles para código o herramientas. Puede controlar sistema de archivos, procesos, red, dispositivos, tiempo de ejecución y credenciales; el grado de aislamiento depende de su implementación. Referencia técnica: Souppaya, Morello y Scarfone (2017), Application Container Security Guide — NIST SP 800-190. (nist.gov)
Secret: dato que permite autenticar o autorizar operaciones, como contraseñas, claves privadas, API keys, tokens o credenciales temporales. Debe almacenarse y transmitirse mediante mecanismos específicos y no incorporarse innecesariamente a prompts, código o logs. Referencia técnica: OWASP, Secrets Management Cheat Sheet. (owasp.org)
Sensitive information disclosure: exposición no autorizada de datos personales, secretos, propiedad intelectual, instrucciones internas u otra información protegida a través de entradas, salidas, logs, memoria o herramientas. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM02: Sensitive Information Disclosure. (owasp.org)
Supply chain risk: riesgo introducido por componentes o proveedores externos, como modelos, datasets, librerías, contenedores, adaptadores, plugins, herramientas o servidores, cuya integridad, mantenimiento o procedencia puede estar comprometida. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM03: Supply Chain. (owasp.org)
Sycophancy / adulación: tendencia de un modelo a adaptar sus respuestas a las creencias, opiniones o preferencias expresadas por el usuario, incluso cuando hacerlo reduce la veracidad o la calidad del juicio. Referencia: Sharma et al. (2023), Towards Understanding Sycophancy in Language Models, arXiv:2310.13548. (arxiv.org)
System prompt leakage: revelación total o parcial de instrucciones, configuraciones o contexto interno que la aplicación pretendía mantener oculto. La confidencialidad no debe depender únicamente de que el modelo obedezca una instrucción de secreto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Tool poisoning: manipulación de nombres, descripciones, esquemas, metadatos o resultados de herramientas para influir en la selección de herramientas o inducir acciones no autorizadas. Puede combinar riesgos de supply chain, prompt injection e improper output handling. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, riesgos LLM01, LLM03 y LLM05. (owasp.org)
Tool sandboxing: aislamiento de las herramientas utilizadas por un agente mediante límites de permisos, recursos, red, archivos, procesos, credenciales y duración de ejecución. Su objetivo es reducir el radio de impacto de errores o ataques. Referencia técnica: Souppaya, Morello y Scarfone (2017), Application Container Security Guide — NIST SP 800-190. (nist.gov)
Toxicity detection: clasificación automática de contenido según categorías como insulto, amenaza, odio o abuso. Sus resultados dependen de la definición de toxicidad, el contexto, el idioma y los grupos representados en los datos. Referencia: Borkan et al. (2019), Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification, The Web Conference 2019. (arxiv.org)
Unbounded consumption: consumo no controlado de cómputo, tokens, almacenamiento, llamadas, tiempo o dinero debido a entradas abusivas, recursión, bucles, explosión de tareas o ausencia de cuotas y criterios de parada. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM10: Unbounded Consumption. (owasp.org)
Vector and embedding weaknesses: riesgos asociados a representaciones e índices vectoriales, como acceso entre tenants, recuperación manipulada, filtrado insuficiente, inversión de embeddings, información sensible codificada o incompatibilidad entre versiones. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM08: Vector and Embedding Weaknesses. (owasp.org)
Watermarking: incorporación de una señal visible o encubierta en contenido o artefactos de modelo para apoyar detección, atribución o seguimiento. En texto generado pueden utilizarse patrones estadísticos de selección de tokens, cuya robustez depende de la longitud y de las transformaciones posteriores. Referencia: Kirchenbauer et al. (2023), A Watermark for Large Language Models, Proceedings of ICML 2023, PMLR 202. (proceedings.mlr.press)

Gobernanza, regulación y cumplimiento de IA

Conceptos normativos, organizativos y de control para desarrollar, desplegar y auditar sistemas de IA de forma responsable.

AI governance: conjunto de estructuras de decisión, políticas, responsabilidades, procesos, controles y evidencias mediante los que una organización dirige y supervisa la adquisición, desarrollo, uso y retirada de sistemas de IA. Referencia: NIST (2023), Artificial Intelligence Risk Management Framework 1.0, función GOVERN. DOI: 10.6028/NIST.AI.100-1. (nist.gov)
AI impact assessment: evaluación estructurada de los efectos previsibles de un sistema de IA sobre personas, derechos, seguridad, privacidad, equidad, operaciones y otros intereses relevantes, incluyendo medidas de mitigación y seguimiento. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 27 para la evaluación de impacto sobre derechos fundamentales en determinados sistemas de alto riesgo. (eur-lex.europa.eu)
AI inventory / model inventory: registro centralizado de sistemas y modelos de IA que documenta propietarios, finalidad, versiones, proveedores, datos, dependencias, usuarios, nivel de riesgo, evaluaciones y estado de aprobación. Referencia: NIST (2023), AI Risk Management Framework 1.0, función GOVERN. (nist.gov)
AI literacy: conocimientos, competencias y comprensión que permiten a proveedores, deployers, personal y personas afectadas utilizar sistemas de IA de forma informada, atendiendo a sus oportunidades, límites, riesgos y posibles daños. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 3.56 y 4. (eur-lex.europa.eu)
AI Management System / AIMS: sistema organizativo para establecer políticas, objetivos, procesos, responsabilidades, controles y mejora continua relacionados con el desarrollo o uso responsable de IA. Referencia normativa: ISO/IEC 42001:2023, Information technology — Artificial intelligence — Management system. (iso.org)
AI Office: Oficina Europea de Inteligencia Artificial establecida dentro de la Comisión Europea, responsable de funciones de implementación y supervisión del Reglamento de IA, con un papel específico en la aplicación de las reglas sobre modelos de propósito general. Referencia oficial: Comisión Europea, European AI Office. (digital-strategy.ec.europa.eu)
Audit trail: conjunto cronológico y verificable de registros que permite reconstruir decisiones, cambios, accesos, datos, versiones, evaluaciones, aprobaciones y operaciones relevantes de un sistema. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 12 y 19 sobre registro y conservación de logs en sistemas de alto riesgo. (eur-lex.europa.eu)
Conformity assessment: procedimiento mediante el que se demuestra que un sistema de IA cumple los requisitos aplicables antes de su introducción en el mercado o puesta en servicio. Dependiendo del sistema, puede basarse en control interno o requerir la intervención de un organismo notificado. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 43 y anexos VI y VII. (eur-lex.europa.eu)
Copyright policy: política que establece cómo una organización identifica y respeta derechos de autor y derechos conexos al obtener datos, entrenar modelos, generar contenido y distribuir sistemas o resultados. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 53.1.c; y Comisión Europea (2025), General-Purpose AI Code of Practice — Copyright Chapter. (digital-strategy.ec.europa.eu)
Deployer: según el Reglamento de IA de la UE, persona física o jurídica, autoridad pública, agencia u otro organismo que utiliza un sistema de IA bajo su autoridad, salvo cuando se utiliza en una actividad personal no profesional. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.4. (eur-lex.europa.eu)
EU AI Act / Reglamento de IA de la UE: Reglamento (UE) 2024/1689, marco jurídico europeo que establece reglas armonizadas para el desarrollo, comercialización, puesta en servicio y utilización de sistemas y modelos de IA, incluyendo prácticas prohibidas, sistemas de alto riesgo, transparencia y modelos de propósito general. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689. (eur-lex.europa.eu)
General-purpose AI Code of Practice: instrumento voluntario europeo destinado a ayudar a proveedores de modelos de propósito general a demostrar cumplimiento de las obligaciones del Reglamento de IA sobre transparencia y copyright y, para modelos con riesgo sistémico, seguridad y protección. Referencia oficial: Comisión Europea (2025), General-Purpose AI Code of Practice. (digital-strategy.ec.europa.eu)
GPAI / General-Purpose AI model: según el Reglamento de IA, modelo entrenado con una gran cantidad de datos que presenta una generalidad significativa, puede realizar competentemente una amplia gama de tareas distintas y puede integrarse en numerosos sistemas o aplicaciones posteriores. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.63. (eur-lex.europa.eu)
GPAI model with systemic risk: modelo de propósito general que presenta capacidades de alto impacto evaluadas mediante herramientas y metodologías adecuadas o que ha sido designado por la Comisión conforme a los criterios legales, quedando sujeto a obligaciones adicionales de evaluación, mitigación, notificación de incidentes y ciberseguridad. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 51, 52 y 55. (eur-lex.europa.eu)
High-risk AI system: categoría jurídica definida por los criterios del artículo 6 y los anexos I y III del Reglamento de IA, con condiciones y excepciones específicas. No comprende automáticamente cualquier sistema que una organización considere importante o peligroso. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 6 y anexos I y III. (eur-lex.europa.eu)
ISO/IEC 42001: norma internacional que especifica requisitos para establecer, implementar, mantener y mejorar continuamente un sistema de gestión de inteligencia artificial dentro de una organización. Referencia normativa: ISO/IEC 42001:2023, Information technology — Artificial intelligence — Management system. (iso.org)
NIST AI RMF: marco voluntario y no sectorial del NIST para gestionar riesgos de IA durante el ciclo de vida, organizado en las funciones GOVERN, MAP, MEASURE y MANAGE. Referencia: NIST (2023), Artificial Intelligence Risk Management Framework 1.0 — NIST AI 100-1. DOI: 10.6028/NIST.AI.100-1. (nist.gov)
Post-market monitoring: proceso documentado y continuo mediante el que el proveedor recopila y analiza información sobre el rendimiento, cumplimiento y riesgos de un sistema de IA de alto riesgo durante su vida útil después de su comercialización o puesta en servicio. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 72. (eur-lex.europa.eu)
Provider: según el Reglamento de IA de la UE, persona física o jurídica, autoridad pública, agencia u otro organismo que desarrolla o encarga desarrollar un sistema o modelo de IA y lo comercializa o pone en servicio bajo su propio nombre o marca. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.3. (eur-lex.europa.eu)
Risk register: registro mantenido y actualizado de riesgos identificados, causas, consecuencias, probabilidad, severidad, controles, responsables, plazos, estado de mitigación y evidencias. Referencia normativa: ISO 31000:2018, Risk Management — Guidelines. (iso.org)
Technical documentation: documentación que describe el diseño, arquitectura, finalidad, versiones, datos, entrenamiento, evaluación, rendimiento, riesgos, controles y funcionamiento de un sistema o modelo con el nivel requerido para demostrar cumplimiento y permitir su evaluación. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 11, anexo IV y artículo 53 para modelos GPAI. (eur-lex.europa.eu)
Training content summary: resumen público suficientemente detallado del contenido utilizado para entrenar un modelo de propósito general, que sus proveedores deben preparar y publicar conforme a la plantilla facilitada por la Oficina de IA. Referencia oficial: Comisión Europea (2025, actualizada en 2026), Explanatory Notice and Template for the Public Summary of Training Content for General-Purpose AI Models. (digital-strategy.ec.europa.eu)
Transparency obligation: requisito jurídico de proporcionar determinada información sobre la naturaleza, funcionamiento, uso, limitaciones o contenido generado por un sistema de IA a usuarios, deployers, autoridades, integradores u otras partes. Su alcance depende del actor y de la categoría regulatoria. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 13, 50 y 53. (eur-lex.europa.eu)

Multimodalidad, visión, audio y voz

Modelos y tareas con imagen, audio, voz, vídeo y texto.

Audio model: modelo especializado en procesar o generar señales de audio, incluyendo transcripción, síntesis, clasificación, transformación o separación de fuentes. Referencia: Borsos et al. (2023), AudioLM: A Language Modeling Approach to Audio Generation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2523–2533. (arxiv.org)
Audio tokens: unidades discretas o representaciones continuas utilizadas para codificar señales de audio dentro de modelos generativos o multimodales. Pueden representar propiedades acústicas, semánticas o ambas. Referencia: Borsos et al. (2023), AudioLM: A Language Modeling Approach to Audio Generation. (arxiv.org)
Bounding box grounding: capacidad de asociar expresiones lingüísticas o respuestas con regiones concretas de una imagen mediante cajas delimitadoras. Referencia: Kamath et al. (2021), MDETR—Modulated Detection for End-to-End Multi-Modal Understanding, Proceedings of ICCV 2021, 1780–1790. (arxiv.org)
Chart understanding: capacidad de interpretar gráficos, ejes, escalas, leyendas, tendencias y valores visuales para responder preguntas o extraer información estructurada. Referencia: Masry et al. (2022), ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning, Findings of ACL 2022, 2263–2279. (arxiv.org)
CLIP / Contrastive Language-Image Pretraining: modelo de OpenAI entrenado con pares de imagen y texto mediante aprendizaje contrastivo, que aprende representaciones comparables para ambas modalidades. Se utiliza en clasificación zero-shot, recuperación multimodal y como encoder visual. Referencia: Radford et al. (2021), Learning Transferable Visual Models From Natural Language Supervision, Proceedings of ICML 2021, PMLR 139, 8748–8763. (arxiv.org)
CNN / Convolutional Neural Network: red neuronal que aplica filtros convolucionales compartidos para explotar patrones locales y estructura espacial. Ha sido una arquitectura central en visión por computador, aunque actualmente convive con transformers y modelos híbridos. Referencia: LeCun, Bottou, Bengio y Haffner (1998), Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11), 2278–2324. DOI: 10.1109/5.726791. (ieeexplore.ieee.org)
Computer vision: área de IA dedicada a extraer, representar y utilizar información procedente de imágenes y vídeo para tareas de reconocimiento, medición, generación e interacción. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Diffusion model: modelo generativo que aprende a invertir un proceso progresivo de perturbación. Muchas implementaciones añaden ruido gaussiano y aprenden una trayectoria de eliminación de ruido, aunque existen formulaciones discretas y procesos alternativos. Referencia: Ho, Jain y Abbeel (2020), Denoising Diffusion Probabilistic Models, Advances in Neural Information Processing Systems 33. (arxiv.org)
Document AI: conjunto de técnicas para procesar documentos combinando reconocimiento de texto, estructura visual, tablas, clasificación, extracción de información y razonamiento. Referencia: Huang et al. (2022), LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, Proceedings of ACM Multimedia 2022. (arxiv.org)
Document understanding: capacidad de analizar conjuntamente el texto, la estructura, las imágenes, las tablas y el diseño visual de un documento para extraer significado o responder preguntas. Referencia: Kim et al. (2022), OCR-Free Document Understanding Transformer, Proceedings of ECCV 2022. (arxiv.org)
Frame sampling: selección de un subconjunto de fotogramas de un vídeo para reducir el coste computacional conservando información temporal relevante. Puede realizarse de forma uniforme, segmentada, adaptativa o basada en eventos. Referencia: Wang et al. (2016), Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, Proceedings of ECCV 2016. (arxiv.org)
Generative AI / IA generativa: categoría de sistemas que producen texto, imágenes, audio, vídeo, código u otros datos a partir de patrones aprendidos. Que una salida sea nueva no implica originalidad jurídica ni ausencia de similitud con datos existentes. Referencia: Feuerriegel et al. (2024), Generative AI, Business & Information Systems Engineering, 66, 111–126. DOI: 10.1007/s12599-023-00834-7. (link.springer.com)
Image captioning: tarea de generar automáticamente una descripción textual del contenido de una imagen, integrando representación visual y generación lingüística. Referencia: Vinyals et al. (2015), Show and Tell: A Neural Image Caption Generator, Proceedings of CVPR 2015. (arxiv.org)
Image generation: creación de imágenes mediante modelos generativos a partir de texto, imágenes de referencia, mapas, máscaras, poses u otras condiciones. Referencia: Ramesh et al. (2021), Zero-Shot Text-to-Image Generation, Proceedings of ICML 2021. (arxiv.org)
Image segmentation: tarea que asigna etiquetas a píxeles o regiones de una imagen. Puede distinguir categorías semánticas, instancias individuales o regiones sin una taxonomía fija. Referencia: Long, Shelhamer y Darrell (2015), Fully Convolutional Networks for Semantic Segmentation, Proceedings of CVPR 2015. (arxiv.org)
Image-to-video: generación de una secuencia de vídeo condicionada por una imagen inicial, una imagen de referencia o varios fotogramas, añadiendo movimiento y evolución temporal. Referencia: Blattmann et al. (2023), Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets, arXiv:2311.15127. (arxiv.org)
Latent diffusion: variante de difusión que realiza el proceso generativo en una representación comprimida producida por un autoencoder, reduciendo el coste frente a operar directamente sobre píxeles. Referencia: Rombach et al. (2022), High-Resolution Image Synthesis with Latent Diffusion Models, Proceedings of CVPR 2022. (arxiv.org)
Layout-aware model: modelo que incorpora la posición, dimensiones y estructura visual de los elementos, además de su contenido textual, para comprender documentos o interfaces. Referencia: Xu et al. (2020), LayoutLM: Pre-training of Text and Layout for Document Image Understanding, Proceedings of KDD 2020. (arxiv.org)
Multimodal AI: sistema capaz de procesar, relacionar o generar información perteneciente a varias modalidades, como texto, imagen, audio, vídeo, sensores o acciones. Referencia: Baltrušaitis, Ahuja y Morency (2019), Multimodal Machine Learning: A Survey and Taxonomy, IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2), 423–443. (arxiv.org)
Native multimodal model: modelo diseñado y entrenado para representar varias modalidades de forma conjunta o estrechamente integrada, en lugar de limitarse a conectar módulos independientes durante el despliegue. Referencia: Gemini Team et al. (2023), Gemini: A Family of Highly Capable Multimodal Models, arXiv:2312.11805. (arxiv.org)
Object detection: tarea de identificar y localizar objetos dentro de una imagen, normalmente mediante categorías, cajas delimitadoras y puntuaciones de confianza. Referencia: Ren et al. (2015), Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems 28. (arxiv.org)
OCR / Optical Character Recognition: conversión automática de texto presente en imágenes o documentos escaneados a caracteres y estructuras legibles por máquina. Referencia: Smith (2007), An Overview of the Tesseract OCR Engine, Proceedings of ICDAR 2007. DOI: 10.1109/ICDAR.2007.4376991. (ieeexplore.ieee.org)
Omni model: denominación de producto o categoría informal para modelos capaces de recibir y producir varias modalidades —como texto, imagen y audio— mediante una interacción integrada. No existe una definición técnica universal de “omni”. Referencia técnica: OpenAI (2024), GPT-4o System Card. (openai.com)
Pseudo-labeling: técnica semisupervisada en la que las predicciones de un modelo sobre datos sin etiquetar se utilizan como etiquetas provisionales para continuar el entrenamiento. Referencia: Lee (2013), Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks, ICML Workshop on Challenges in Representation Learning. (deeplearning.net)
Speech-to-speech: transformación de habla de entrada en habla de salida, con posibles etapas internas de reconocimiento, traducción, razonamiento, generación o síntesis. Referencia: Barrault et al. (2023), SeamlessM4T—Massively Multilingual & Multimodal Machine Translation, arXiv:2308.11596. (arxiv.org)
Speech-to-text / STT: conversión automática de señales de habla a una transcripción textual, también denominada reconocimiento automático del habla o ASR. Referencia: Radford et al. (2022), Robust Speech Recognition via Large-Scale Weak Supervision, arXiv:2212.04356. (arxiv.org)
Table extraction: detección y reconstrucción de la estructura de tablas presentes en PDFs, imágenes o documentos, incluyendo filas, columnas, celdas y contenido. Referencia: Smock, Pesala y Abraham (2022), PubTables-1M: Towards Comprehensive Table Extraction from Unstructured Documents, Proceedings of CVPR 2022. (arxiv.org)
Temporal grounding: capacidad de localizar una expresión, evento o respuesta en un instante o intervalo concreto de un vídeo o una grabación de audio. Referencia: Gao et al. (2017), TALL: Temporal Activity Localization via Language Query, Proceedings of ICCV 2017. (arxiv.org)
Text-to-image: generación de imágenes condicionada por una descripción textual, mediante modelos de difusión, transformers autoregresivos u otras arquitecturas generativas. Referencia: Rombach et al. (2022), High-Resolution Image Synthesis with Latent Diffusion Models, Proceedings of CVPR 2022. (arxiv.org)
Text-to-speech / TTS: síntesis de una señal de habla a partir de texto, incluyendo pronunciación, duración, prosodia, entonación y características de voz. Referencia: Shen et al. (2018), Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions, Proceedings of ICASSP 2018. (arxiv.org)
Text-to-video: generación de secuencias de vídeo condicionadas por una descripción textual y, según el sistema, parámetros de duración, movimiento, cámara o estilo. Referencia: Singer et al. (2022), Make-A-Video: Text-to-Video Generation without Text-Video Data, arXiv:2209.14792. (arxiv.org)
Video generation: creación o transformación de vídeo mediante modelos generativos condicionados por texto, imágenes, vídeo, audio u otras señales. Referencia: Kondratyuk et al. (2023), VideoPoet: A Large Language Model for Zero-Shot Video Generation, arXiv:2312.14125. (arxiv.org)
Video understanding: capacidad de interpretar objetos, acciones, escenas, diálogos, sonidos y relaciones temporales presentes en un vídeo. Referencia: Sun et al. (2019), VideoBERT: A Joint Model for Video and Language Representation Learning, Proceedings of ICCV 2019. (arxiv.org)
Vision tokens: representaciones discretas o continuas de patches, regiones o características visuales que un transformer o modelo multimodal procesa como una secuencia. Referencia: Dosovitskiy et al. (2021), An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale, ICLR 2021. (arxiv.org)
Vision-language model / VLM: modelo que relaciona contenido visual y lenguaje para realizar tareas como descripción, recuperación, preguntas y respuestas, grounding o generación condicionada. Puede combinar componentes separados o utilizar una arquitectura más integrada. Referencia: Alayrac et al. (2022), Flamingo: A Visual Language Model for Few-Shot Learning, Advances in Neural Information Processing Systems 35. (arxiv.org)
Visual grounding: asociación entre palabras, expresiones, respuestas o instrucciones y regiones o elementos concretos de una imagen, documento o vídeo. Referencia: Kamath et al. (2021), MDETR—Modulated Detection for End-to-End Multi-Modal Understanding, Proceedings of ICCV 2021. (arxiv.org)
VQA / Visual Question Answering: tarea de responder preguntas en lenguaje natural sobre una imagen, combinando interpretación visual, comprensión lingüística y, en ciertos casos, razonamiento externo. Referencia: Antol et al. (2015), VQA: Visual Question Answering, Proceedings of ICCV 2015. (arxiv.org)

Producción, inferencia e infraestructura

Serving, despliegue, hardware, costes, latencia y operación.

API inference: uso de un modelo alojado en infraestructura remota mediante una API para obtener predicciones o respuestas sin gestionar directamente el hardware y el runtime de inferencia. Referencia técnica: NVIDIA, Triton Inference Server Documentation. (docs.nvidia.com)
Autoscaling: ajuste automático del número de réplicas o de los recursos asignados a un servicio en respuesta a métricas como utilización, concurrencia, longitud de cola o latencia. Referencia técnica: Kubernetes, Autoscaling Workloads. (kubernetes.io)
Autoscaling policy: configuración que define las métricas objetivo, límites, velocidad y condiciones mediante las que un sistema aumenta o reduce réplicas o capacidad. Referencia técnica: Kubernetes, Horizontal Pod Autoscaling. (kubernetes.io)
Batch API: modalidad de API que recibe conjuntos de peticiones para procesarlos de forma asíncrona dentro de una ventana temporal, normalmente con menor prioridad o coste que el tráfico interactivo. Referencia técnica: OpenAI, Batch API. (platform.openai.com)
Batch inference: ejecución conjunta de varias entradas en una operación del modelo para aumentar la utilización del hardware y reducir el coste medio por predicción. Referencia: Crankshaw et al. (2017), Clipper: A Low-Latency Online Prediction Serving System, Proceedings of NSDI 2017. (arxiv.org)
Cache hit rate: proporción de solicitudes que pueden satisfacerse total o parcialmente utilizando datos ya presentes en una caché. Debe indicarse qué nivel se mide, como respuestas, prefijos, prompts o bloques de KV cache. Referencias técnicas: OpenAI, Prompt Caching; y vLLM, Automatic Prefix Caching. (platform.openai.com, docs.vllm.ai)
Capacity planning: estimación de los recursos necesarios para atender una carga esperada considerando demanda, picos, concurrencia, modelos, longitud de secuencias, latencia objetivo, tolerancia a fallos y margen operativo. Referencia técnica: Beyer et al. (2016), Site Reliability Engineering, Google, capítulos sobre planificación y gestión de capacidad. (sre.google)
Cold start: latencia adicional que aparece cuando una instancia debe iniciarse, preparar su runtime o cargar pesos y artefactos antes de atender una petición. Referencia: Wang et al. (2018), Peeking Behind the Curtains of Serverless Platforms, Proceedings of USENIX ATC 2018. (usenix.org)
Continuous batching: técnica de serving que incorpora y retira solicitudes de un batch a medida que avanzan o terminan, evitando esperar a que todas las secuencias de un batch estático finalicen. Referencia: Yu et al. (2022), Orca: A Distributed Serving System for Transformer-Based Generative Models, Proceedings of OSDI 2022. (usenix.org)
Decode phase: fase posterior al prefill en la que el modelo genera nuevos tokens de manera autoregresiva reutilizando el estado acumulado en la KV cache. Referencia: Zhong et al. (2024), DistServe: Disaggregating Prefill and Decoding for Goodput-Optimized Large Language Model Serving, Proceedings of OSDI 2024. (arxiv.org)
Deployment: proceso de integrar y poner en funcionamiento un modelo o sistema en un entorno operativo, incluyendo empaquetado, configuración, pruebas, permisos, observabilidad y procedimientos de actualización o reversión. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems, Advances in Neural Information Processing Systems 28. (proceedings.neurips.cc)
Distilled reasoning model: modelo de menor tamaño entrenado con soluciones, distribuciones o trazas producidas por un modelo de razonamiento más capaz, con el objetivo de transferir parte de su comportamiento reduciendo coste y latencia. Referencia: DeepSeek-AI et al. (2025), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948. (arxiv.org)
Edge AI: ejecución de modelos y procesamiento inteligente cerca de la fuente de datos o del usuario, como móviles, gateways, vehículos o hardware industrial. Referencia: Zhou et al. (2019), Edge Intelligence: Paving the Last Mile of Artificial Intelligence with Edge Computing, Proceedings of the IEEE, 107(8), 1738–1762. (arxiv.org)
End-to-end latency: tiempo total entre el inicio de una petición y la finalización de la respuesta, incluyendo red, colas, recuperación, herramientas, inferencia, streaming y postprocesado. Referencia: Zhong et al. (2024), DistServe: Disaggregating Prefill and Decoding for Goodput-Optimized Large Language Model Serving. (arxiv.org)
Endpoint: operación accesible de una API, normalmente identificada por una ruta, un método, parámetros, autenticación y esquemas de solicitud y respuesta. Referencia técnica: OpenAPI Initiative, OpenAPI Specification. (spec.openapis.org)
FlashAttention: algoritmo exacto de atención que reorganiza el cálculo en bloques para reducir lecturas y escrituras entre la memoria HBM y la memoria rápida del procesador, disminuyendo uso de memoria y tiempo de ejecución. Referencia: Dao et al. (2022), FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Advances in Neural Information Processing Systems 35. (arxiv.org)
Flex processing: modalidad de OpenAI que procesa peticiones con prioridad reducida y disponibilidad de capacidad más variable a cambio de un coste inferior. Está orientada a cargas que toleran mayor latencia y posibles indisponibilidades temporales. Referencia técnica: OpenAI, Flex Processing. (platform.openai.com)
GPU: procesador altamente paralelo diseñado originalmente para gráficos y utilizado en IA por su capacidad para ejecutar operaciones matriciales y vectoriales de gran volumen. Referencia técnica: NVIDIA, CUDA C++ Programming Guide. (docs.nvidia.com)
H100, A100, TPU: H100 y A100 son familias de GPU de centros de datos de NVIDIA; TPU es una familia de circuitos especializados de Google para cargas de aprendizaje automático. Sus arquitecturas, formatos numéricos y perfiles de uso difieren entre generaciones. Referencias técnicas: NVIDIA, H100 Tensor Core GPU y A100 Tensor Core GPU; Google Cloud, TPU Architecture. (nvidia.com, nvidia.com, cloud.google.com)
Inference latency: tiempo necesario para procesar una petición de inferencia. En generación puede separarse en tiempo hasta el primer token, tiempo entre tokens y tiempo total de finalización. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
Inference optimization: conjunto de técnicas destinadas a reducir memoria, coste o latencia durante inferencia, como cuantización, batching, cachés, compilación, poda, paralelismo y decodificación especulativa. Referencias: Gholami et al. (2021), A Survey of Quantization Methods for Efficient Neural Network Inference; y Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org, arxiv.org)
Inference server: software que carga modelos, recibe peticiones, programa su ejecución y gestiona capacidades como batching, concurrencia, versionado, métricas y protocolos de acceso. Referencia técnica: NVIDIA, Triton Inference Server. (docs.nvidia.com)
KV cache eviction: política que selecciona qué estados almacenados en la KV cache se eliminan o comprimen cuando existe presión de memoria. Puede basarse en antigüedad, posición, atención estimada o importancia del token. Referencia: Zhang et al. (2023), H₂O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models, Advances in Neural Information Processing Systems 36. (arxiv.org)
KV cache quantization: reducción de la precisión numérica utilizada para almacenar keys y values durante generación, disminuyendo memoria y aumentando potencialmente la concurrencia a cambio de error de cuantización. Referencia: Liu et al. (2024), KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache, Proceedings of ICML 2024. (arxiv.org)
Latency: tiempo transcurrido entre una petición y un evento de respuesta definido, como inicio de procesamiento, primer token o respuesta completa. La métrica debe indicar el punto inicial, el punto final y el percentil utilizado. Referencia: Dean y Barroso (2013), The Tail at Scale, Communications of the ACM, 56(2), 74–80. DOI: 10.1145/2408776.2408794. (research.google)
Load balancing: distribución de peticiones entre varias instancias o dispositivos para evitar sobrecargas, mejorar utilización y mantener disponibilidad y latencia. Referencia técnica: Kubernetes, Service and Load Balancing. (kubernetes.io)
Model compression: familia de técnicas que reduce el tamaño, memoria o coste de un modelo mediante cuantización, poda, destilación, compartición de pesos o factorización. Referencia: Han, Mao y Dally (2016), Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLR 2016. (arxiv.org)
Model registry: repositorio que gestiona versiones de modelos y sus metadatos, artefactos, evaluaciones, estados de aprobación y relaciones con despliegues. Referencia: Zaharia et al. (2018), Accelerating the Machine Learning Lifecycle with MLflow, IEEE Data Engineering Bulletin, 41(4). (cs.stanford.edu)
Monitoring: recopilación y análisis continuos de métricas, logs, eventos y alertas para detectar errores, degradaciones, cambios de distribución, problemas de capacidad o costes anómalos. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems. (proceedings.neurips.cc)
NPU / Neural Processing Unit: acelerador especializado en operaciones utilizadas por redes neuronales, como multiplicaciones matriciales y convoluciones, habitual en dispositivos móviles, ordenadores y sistemas edge. Referencia: Sze et al. (2017), Efficient Processing of Deep Neural Networks: A Tutorial and Survey, Proceedings of the IEEE, 105(12), 2295–2329. (arxiv.org)
On-device inference: ejecución del modelo en el dispositivo del usuario o en hardware local. Puede reducir latencia y transferencia de datos, aunque no excluye telemetría, actualizaciones o servicios auxiliares remotos. Referencia: Lane et al. (2016), DeepX: A Software Accelerator for Low-Power Deep Learning Inference on Mobile Devices, Proceedings of IPSN 2016. (arxiv.org)
ONNX: formato abierto para representar grafos, operadores, parámetros y tipos de modelos de machine learning, facilitando la interoperabilidad entre frameworks, runtimes y hardware. Referencia técnica: Open Neural Network Exchange, ONNX Documentation. (onnx.ai)
Output parser: componente que interpreta la salida de un modelo y la convierte en una estructura utilizada por la aplicación, como un objeto validado, una lista, un tipo de dominio o una llamada a una función. Referencia técnica: LangChain, Structured Output. (docs.langchain.com)
PagedAttention: técnica que divide la KV cache en bloques almacenables en regiones de memoria no contiguas, reduciendo fragmentación y permitiendo compartir o asignar memoria de forma flexible entre secuencias. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023. (arxiv.org)
Pipeline: secuencia conectada de pasos que transforma datos o ejecuta una operación completa, como ingestión, recuperación, inferencia, validación y entrega. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems. (proceedings.neurips.cc)
Pipeline parallelism: distribución de grupos consecutivos de capas entre dispositivos, procesando microbatches en una canalización para mantener ocupadas varias etapas. Referencia: Huang et al. (2019), GPipe: Efficient Training of Giant Neural Networks Using Pipeline Parallelism, Advances in Neural Information Processing Systems 32. (arxiv.org)
Prefill: fase inicial de inferencia en la que el modelo procesa los tokens de entrada, calcula sus representaciones y construye la KV cache antes de generar tokens nuevos. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
Prefix cache: caché que conserva estados de KV correspondientes a prefijos ya procesados para reutilizarlos cuando nuevas peticiones comparten esos mismos tokens iniciales. Referencia técnica: vLLM, Automatic Prefix Caching. (docs.vllm.ai)
Priority processing: modalidad de servicio que asigna mayor prioridad de programación a determinadas peticiones para reducir tiempos de cola y ofrecer una latencia más consistente bajo carga. Las condiciones dependen del proveedor. Referencia técnica: OpenAI, Priority Processing. (platform.openai.com)
Prompt cache hit: reutilización de un prefijo de entrada previamente procesado que coincide con el comienzo de una nueva petición, reduciendo el cálculo necesario para esa parte del prompt. Referencia técnica: OpenAI, Prompt Caching. (platform.openai.com)
Pruning: técnica que elimina pesos, unidades, canales, cabezas o capas considerados poco importantes para reducir tamaño o cómputo. El ahorro real depende de que el hardware y el runtime aprovechen la estructura resultante. Referencia: Han et al. (2015), Learning Both Weights and Connections for Efficient Neural Networks, Advances in Neural Information Processing Systems 28. (arxiv.org)
Quantization: aproximación de pesos, activaciones o estados mediante representaciones de menor precisión. Puede reducir memoria y acelerar operaciones compatibles, con un impacto que depende del método, el modelo y el hardware. Referencia: Gholami et al. (2021), A Survey of Quantization Methods for Efficient Neural Network Inference, arXiv:2103.13630. (arxiv.org)
Queue time: intervalo durante el que una petición permanece pendiente antes de que comiencen los recursos de procesamiento que necesita. Puede estar provocado por límites de capacidad, prioridades o políticas de batching. Referencia: Dean y Barroso (2013), The Tail at Scale. (research.google)
Rate limit: restricción sobre el número de peticiones, tokens, operaciones o recursos que un cliente puede consumir durante una ventana temporal. Referencia técnica: Nottingham y Fielding (2012), RFC 6585: Additional HTTP Status Codes, sección 4, 429 Too Many Requests. (rfc-editor.org)
Reasoning effort: parámetro disponible en determinadas APIs que controla el nivel de procesamiento interno dedicado por un modelo de razonamiento. Los valores admitidos y su efecto sobre calidad, coste y latencia dependen del modelo. Referencia técnica: OpenAI, Reasoning Models and Model Guidance. (platform.openai.com)
Serverless inference: inferencia ofrecida mediante una plataforma que gestiona el aprovisionamiento, escalado y ejecución de la infraestructura. El escalado a cero, los cold starts y el modelo de facturación dependen del servicio. Referencia: Jonas et al. (2019), Cloud Programming Simplified: A Berkeley View on Serverless Computing, arXiv:1812.03651. (arxiv.org)
Serving: operación de exponer uno o varios modelos para recibir peticiones de inferencia, programarlas, ejecutarlas y devolver resultados bajo requisitos de disponibilidad, latencia y capacidad. Referencia: Crankshaw et al. (2017), Clipper: A Low-Latency Online Prediction Serving System. (arxiv.org)
Serving replica: instancia de un servicio de inferencia capaz de procesar tráfico. Varias réplicas permiten distribuir carga, desplegar actualizaciones graduales y tolerar ciertos fallos. Referencia técnica: Kubernetes, Deployments. (kubernetes.io)
Small language model / SLM: modelo de lenguaje relativamente compacto, diseñado para reducir memoria, latencia y coste o para ejecutarse localmente. No existe un umbral universal de parámetros que separe SLM y LLM. Referencia: Abdin et al. (2024), Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, arXiv:2404.14219. (arxiv.org)
Tensor parallelism: distribución de tensores y operaciones de una misma capa entre varios dispositivos, dividiendo matrices y combinando resultados mediante comunicaciones colectivas. Referencia: Shoeybi et al. (2019), Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv:1909.08053. (arxiv.org)
TensorRT-LLM: toolkit de NVIDIA para construir y ejecutar motores de inferencia optimizados para LLM en GPU, con kernels especializados, cuantización, batching, caché paginada y soporte distribuido. Referencia técnica: NVIDIA, TensorRT-LLM Documentation. (docs.nvidia.com)
Throughput per GPU: volumen de tokens, peticiones o secuencias completadas por una GPU durante una unidad de tiempo bajo una carga, modelo, hardware y objetivo de latencia determinados. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org)
Tokens per second: cantidad de tokens procesados o generados por segundo. Debe indicarse si mide una petición individual, el total del servidor, prefill, decode o ambas fases. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org)
Tool latency: tiempo añadido por una llamada a una herramienta, incluyendo programación, autenticación, red, ejecución, transferencia del resultado y validación. Referencia técnica: OpenTelemetry, Distributed Traces. (opentelemetry.io)
TPOT / Time per Output Token: tiempo medio o distribución del intervalo necesario para producir tokens después del primero durante la fase de decode. Debe especificarse cómo se agregan los intervalos y percentiles. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
TTFT / Time to First Token: tiempo desde el envío de una petición hasta la recepción del primer token o fragmento de contenido. Incluye normalmente cola, procesamiento del prompt y parte de la comunicación. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
vLLM: motor abierto de serving para modelos de lenguaje que introdujo PagedAttention y ofrece mecanismos como continuous batching, prefix caching, paralelismo y APIs de inferencia. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023. (arxiv.org)

Interpretabilidad mecánica

Técnicas para entender los mecanismos internos de los modelos de lenguaje.

Activation patching / causal tracing: intervención que reemplaza activaciones de una ejecución por las de otra y mide el cambio en una salida, con el fin de localizar componentes causalmente relevantes bajo ese experimento. Los resultados dependen de la métrica, la corrupción y el tipo de activación intervenida. Referencia: Zhang y Nanda (2023), Towards Best Practices of Activation Patching in Language Models: Metrics and Methods, arXiv:2309.16042.
Activation steering: modificación dirigida de activaciones internas durante la inferencia para influir en el comportamiento, estilo, seguridad o contenido generado, sin actualizar necesariamente los pesos del modelo. Referencia: Turner et al. (2023), Steering Language Models with Activation Engineering, arXiv:2308.10248.
Attention pattern: matriz de pesos de atención producida por una cabeza y una entrada concretas. Describe cómo se distribuyen esos pesos, pero no demuestra por sí sola influencia causal, importancia explicativa ni dependencia necesaria de cada token. Referencias: Jain y Wallace (2019), Attention Is Not Explanation; y Wiegreffe y Pinter (2019), Attention Is Not Not Explanation.
Attribution patching: aproximación de activation patching que utiliza gradientes y una expansión local para estimar la influencia de numerosos componentes con menos ejecuciones completas del modelo. Al ser una aproximación lineal, puede perder interacciones no lineales. Referencia: Syed et al. (2023), Attribution Patching Outperforms Automated Circuit Discovery, arXiv:2310.10348.
Causal intervention: manipulación controlada de entradas, activaciones, componentes o pesos para medir cómo cambia una salida manteniendo constantes otras partes del sistema. La interpretación causal depende del diseño de la intervención y de los mediadores elegidos. Referencia: Vig et al. (2020), Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias, NeurIPS 2020, arXiv:2004.12265.
Circuit: conjunto de features y operaciones conectadas que contribuye a implementar un comportamiento o cálculo identificable dentro de una red. Los límites de un circuito dependen del nivel de abstracción y del método de localización utilizado. Referencia: Olah et al. (2020), Zoom In: An Introduction to Circuits, Distill.
Feature interna: dirección, patrón o variable latente en las activaciones que responde a una propiedad de los datos o del comportamiento del modelo. Una feature puede estar distribuida entre varias neuronas y no tiene por qué poseer una interpretación única. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Feature steering: intervención que amplifica, reduce o modifica una feature identificada para observar o controlar su efecto sobre la generación. Su eficacia no demuestra que la feature constituya por sí sola el mecanismo completo del comportamiento. Referencia: Templeton et al. (2024), Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.
Latent feature: característica representada internamente en las activaciones o en una descomposición aprendida de estas, sin aparecer como una variable observada directamente en la entrada. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Linear probing / probing: técnica que entrena un predictor sencillo sobre representaciones internas para medir si cierta información puede decodificarse. Que una propiedad sea decodificable no demuestra que el modelo la utilice causalmente para producir su salida. Referencia: Alain y Bengio (2016), Understanding Intermediate Layers Using Linear Classifier Probes, arXiv:1610.01644.
Logit lens: técnica que aplica la proyección final al vocabulario sobre activaciones intermedias para inspeccionar las distribuciones de tokens que aparecen durante el procesamiento por capas. Puede producir resultados sesgados por el desajuste entre capas intermedias y la representación final. Referencia: Belrose et al. (2023), Eliciting Latent Predictions from Transformers with the Tuned Lens, arXiv:2303.08112.
Mechanistic interpretability: subcampo que intenta reconstruir los cálculos, representaciones y circuitos implementados dentro de una red para describir cómo produce determinados comportamientos. Las explicaciones obtenidas suelen ser parciales y específicas de tareas, prompts y modelos. Referencia: A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models (2024), arXiv:2407.02646.
Monosemanticity: propiedad aproximada por la que una neurona o feature responde de forma relativamente específica y coherente a un concepto o patrón. Depende del método de extracción, la distribución analizada y el umbral de interpretación. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Polysemanticity: fenómeno por el que una misma neurona o dirección de activación responde a varias propiedades aparentemente diferentes, debido entre otros factores a representaciones superpuestas. Referencia: Elhage et al. (2022), Toy Models of Superposition.
Refusal vector: dirección o subespacio de activación relacionado con comportamientos de rechazo en un modelo concreto. Puede utilizarse para analizar o modificar esos comportamientos, pero no debe asumirse que todos los tipos de rechazo se reduzcan universalmente a una única dirección. Referencias: Arditi et al. (2024), Refusal in Language Models Is Mediated by a Single Direction; y Joad et al. (2026), There Is More to Refusal in Large Language Models than a Single Direction.
Representation engineering: conjunto de técnicas que estudia y modifica representaciones internas de alto nivel para monitorizar o controlar propiedades del comportamiento del modelo. Utiliza como unidad principal de análisis patrones poblacionales en las activaciones. Referencia: Zou et al. (2023), Representation Engineering: A Top-Down Approach to AI Transparency, arXiv:2310.01405.
Sparse autoencoder / SAE: autoencoder entrenado sobre activaciones con una penalización o restricción de dispersión para aprender un diccionario de features. Puede separar parte de las representaciones superpuestas, pero no garantiza features completas, causales o perfectamente monosémicas. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Steering vector: vector que se añade, resta o escala dentro de las activaciones para desplazar la generación hacia una propiedad o comportamiento. Puede construirse mediante diferencias entre activaciones, probes u otros métodos de representación. Referencia: Turner et al. (2023), Steering Language Models with Activation Engineering, arXiv:2308.10248.
Superposition: fenómeno por el que una red representa más features que dimensiones disponibles utilizando direcciones no ortogonales y parcialmente solapadas. Esta estrategia resulta especialmente viable cuando las features se activan de forma dispersa. Referencia: Elhage et al. (2022), Toy Models of Superposition.

Tareas y métodos clásicos

Tareas de ML/NLP y algoritmos clásicos no limitados a LLMs.

Algorithm: procedimiento definido mediante reglas o pasos para transformar entradas, modificar un estado o resolver una clase de problemas. Puede ser determinista, aleatorio, interactivo o parcial, y no necesariamente termina para todas las entradas. Referencia: Gurevich (2000), Sequential Abstract-State Machines Capture Sequential Algorithms, ACM Transactions on Computational Logic, 1(1), 77–111.
Anomaly detection: identificación de observaciones, eventos o patrones que se desvían significativamente de un comportamiento o distribución considerados normales, utilizada en fraude, fallos, calidad e intrusiones. Referencia: Chandola, Banerjee y Kumar (2009), Anomaly Detection: A Survey, ACM Computing Surveys, 41(3), artículo 15.
Artificial General Intelligence / AGI: concepto sin una definición técnica universal para sistemas capaces de adaptarse y actuar competentemente en una amplia variedad de tareas y entornos. Las propuestas difieren en el nivel humano de referencia, las tareas incluidas y la importancia asignada al aprendizaje, la autonomía o la transferencia. Referencia: Xu (2024), What Is Meant by AGI? On the Definition of Artificial General Intelligence, arXiv:2404.10731.
Binary classification: tarea de asignar cada ejemplo a una de dos categorías mutuamente excluyentes, normalmente representadas como positiva y negativa. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437.
Classification: tarea de asignar una o varias categorías discretas a una entrada a partir de sus características. Puede ser binaria, multiclase, multietiqueta o jerárquica. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Classifier: modelo o regla de decisión que asigna etiquetas de clase o puntuaciones asociadas a ellas a partir de una entrada. Las puntuaciones no tienen por qué constituir probabilidades calibradas. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Clustering: agrupación de observaciones en conjuntos basados en una noción de similitud, densidad o estructura sin disponer necesariamente de etiquetas de clase previas. Los grupos obtenidos dependen del algoritmo, la representación y la métrica. Referencia: Jain, Murty y Flynn (1999), Data Clustering: A Review, ACM Computing Surveys, 31(3), 264–323.
Confabulation: término utilizado por algunos autores para describir contenido falso o no sustentado que un modelo presenta de manera plausible. No existe consenso en que sea un término técnico preferible a hallucination o alucinación. Referencia: Ji et al. (2023), Survey of Hallucination in Natural Language Generation, ACM Computing Surveys, 55(12).
Generative model: modelo que representa, aproxima o permite muestrear una distribución de datos, de forma condicionada o no condicionada. Las muestras generadas no tienen por qué corresponder de manera simple a ejemplos individuales del entrenamiento. Referencia: Goodfellow et al. (2014), Generative Adversarial Nets, Advances in Neural Information Processing Systems 27.
Heuristic: regla, estrategia o aproximación práctica que reduce el espacio de búsqueda o el coste de resolver un problema, sin garantizar una solución óptima, exacta o correcta en todos los casos. Referencia: Newell y Simon (1958), Heuristic Problem Solving: The Next Advance in Operations Research, Operations Research, 6(1), 1–10.
Inference: aplicación de un modelo entrenado a nuevas entradas para producir predicciones, puntuaciones, representaciones o respuestas sin ejecutar el proceso ordinario de actualización de sus parámetros. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
Intent classification: tarea de asignar a un mensaje una categoría que representa el propósito operativo del usuario, utilizada para dirigir diálogos, herramientas o flujos. Debe contemplar ambigüedad e intenciones fuera del catálogo. Referencia: Arora, Jain y Merugu (2024), Intent Detection in the Age of LLMs, Proceedings of EMNLP 2024: Industry Track.
k-means: algoritmo que alterna entre asignar cada observación al centroide más cercano y recalcular los k centroides, buscando reducir la suma de distancias cuadráticas dentro de los grupos. Puede converger a soluciones locales y depende de la inicialización. Referencia: MacQueen (1967), Some Methods for Classification and Analysis of Multivariate Observations, Proceedings of the Fifth Berkeley Symposium.
k-nearest neighbors / k-NN: método no paramétrico que predice una etiqueta o valor utilizando los k ejemplos más próximos según una métrica definida. También puede utilizarse para recuperación y detección de anomalías. Referencia: Cover y Hart (1967), Nearest Neighbor Pattern Classification, IEEE Transactions on Information Theory, 13(1), 21–27.
Machine learning / ML: subcampo de la IA y la estadística computacional que estudia sistemas cuyo rendimiento o comportamiento puede mejorar mediante datos, experiencia y optimización, sin especificar manualmente todas las reglas necesarias. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
MLOps: conjunto de prácticas, procesos, funciones y herramientas para desarrollar, versionar, desplegar, monitorizar y mantener productos de machine learning de forma repetible y fiable. Referencia: Kreuzberger, Kühl y Hirschl (2023), Machine Learning Operations (MLOps): Overview, Definition, and Architecture, IEEE Access, 11, 31866–31879.
Model collapse: degradación de la diversidad, fidelidad o cobertura que puede producirse cuando generaciones sucesivas de modelos se entrenan indiscriminadamente sobre datos producidos por modelos anteriores. No es una consecuencia inevitable de cualquier uso de datos sintéticos. Referencia: Shumailov et al. (2024), AI Models Collapse When Trained on Recursively Generated Data, Nature, 631, 755–759.
Multiclass classification: tarea de asignar cada ejemplo a una de más de dos categorías mutuamente excluyentes. No debe confundirse con la clasificación multietiqueta, donde varias categorías pueden ser correctas simultáneamente. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Natural language processing / NLP: área que desarrolla métodos computacionales para representar, analizar, comprender o generar lenguaje humano escrito o hablado. Referencia: Cambria y White (2014), Jumping NLP Curves: A Review of Natural Language Processing Research, IEEE Computational Intelligence Magazine, 9(2), 48–57.
Out-of-distribution / OOD: entrada cuya distribución difiere de la utilizada para entrenar o validar el modelo bajo el protocolo considerado. La pertenencia a OOD depende de qué distribución y qué tipo de cambio se definan como referencia. Referencia: Hendrycks y Gimpel (2017), A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks, ICLR 2017.
Overfitting: ajuste excesivo a particularidades del conjunto de entrenamiento o del procedimiento de selección que produce una peor generalización a datos nuevos. Puede incluir memorización, pero no se limita a memorizar ruido. Referencia: Geman, Bienenstock y Doursat (1992), Neural Networks and the Bias/Variance Dilemma, Neural Computation, 4(1), 1–58.
Ranking: tarea de ordenar candidatos según una puntuación de relevancia, calidad, utilidad o preferencia respecto a una consulta o usuario. La evaluación suele centrarse en el orden relativo y en las primeras posiciones. Referencia: Burges (2010), From RankNet to LambdaRank to LambdaMART: An Overview, Microsoft Research Technical Report MSR-TR-2010-82.
Recommendation system: sistema que estima y ordena elementos potencialmente relevantes para un usuario utilizando señales como interacciones históricas, contenido, contexto o similitud entre usuarios y elementos. Referencia: Koren, Bell y Volinsky (2009), Matrix Factorization Techniques for Recommender Systems, Computer, 42(8), 30–37.
Red teaming: proceso adversarial sistemático en el que personas, modelos o herramientas intentan descubrir fallos, vulnerabilidades, usos abusivos y comportamientos no deseados antes o durante el despliegue. Referencia: Perez et al. (2022), Red Teaming Language Models with Language Models, Proceedings of EMNLP 2022, 3419–3448.
Regression: tarea supervisada en la que el objetivo principal es predecir uno o varios valores numéricos, distribuciones o funciones continuas a partir de variables de entrada. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
Self-consistency: estrategia de decodificación que genera varias trayectorias de razonamiento o respuestas y selecciona la respuesta agregada más consistente, normalmente mediante voto. Su eficacia requiere diversidad útil y una respuesta final que pueda agregarse. Referencia: Wang et al. (2023), Self-Consistency Improves Chain of Thought Reasoning in Language Models, ICLR 2023, arXiv:2203.11171.
Sentiment analysis: tarea de identificar opiniones, valoraciones o actitudes expresadas en texto, mediante categorías como positivo, negativo y neutro o mediante dimensiones más detalladas. Referencia: Pang, Lee y Vaithyanathan (2002), Thumbs Up? Sentiment Classification Using Machine Learning Techniques, Proceedings of EMNLP 2002, 79–86.
Text classification: tarea de asignar una o varias categorías predefinidas a documentos, mensajes o fragmentos de texto a partir de su contenido y otros atributos. Referencia: Sebastiani (2002), Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34(1), 1–47.
Underfitting: incapacidad del modelo o del proceso de entrenamiento para capturar regularidades relevantes de los datos, produciendo un rendimiento insuficiente incluso sobre los datos utilizados para ajustar el sistema. Referencia: Geman, Bienenstock y Doursat (1992), Neural Networks and the Bias/Variance Dilemma, Neural Computation, 4(1), 1–58.

Glosario de inteligencia artificial

Índice de áreas

Fundamentos de IA, ML y aprendizaje
Modelos, arquitecturas y componentes internos
Entrenamiento, adaptación y optimización
Datos, datasets y preparación
LLMs, prompts, contexto y generación
RAG, búsqueda, embeddings y conocimiento
Agentes, herramientas y orquestación
Evaluación, métricas y calidad
Seguridad, privacidad y alineamiento
Gobernanza, regulación y cumplimiento de IA
Multimodalidad, visión, audio y voz
Producción, inferencia e infraestructura
Interpretabilidad mecánica
Tareas y métodos clásicos

Fundamentos de IA, ML y aprendizaje

Conceptos base para entender IA, aprendizaje automático y los tipos generales de modelos.

AI assistant: aplicación basada en uno o varios modelos de IA que interactúa con usuarios, responde preguntas o ejecuta tareas; puede gestionar historial, herramientas o memoria según su diseño. Referencia: Wang et al. (2023), A Survey on Large Language Model Based Autonomous Agents, arXiv:2308.11432.
Artificial Intelligence / IA: disciplina que crea sistemas capaces de realizar tareas que normalmente requieren inteligencia humana, como razonar, percibir, aprender o generar lenguaje. Referencia: McCarthy, Minsky, Rochester y Shannon (1955), A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence.
Black-box model: modelo cuyo funcionamiento interno no es fácilmente interpretable; se observan entradas y salidas pero no los mecanismos que las conectan. Referencia: Guidotti et al. (2018), A Survey of Methods for Explaining Black Box Models, ACM Computing Surveys, 51(5), artículo 93. DOI: 10.1145/3236009.
Bottleneck: componente o paso de un sistema que limita el rendimiento total; puede ser de cómputo, memoria, datos o latencia. Referencia: Amdahl (1967), Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities. DOI: 10.1145/1465482.1465560.
Chatbot: sistema conversacional automatizado que interactúa con usuarios mediante lenguaje natural, con o sin modelo de lenguaje subyacente. Referencia: Weizenbaum (1966), ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine, Communications of the ACM, 9(1). DOI: 10.1145/365153.365168.
Checkpoint: instantánea guardada del estado de entrenamiento o de los parámetros de un modelo. Puede incluir pesos, estado del optimizador, planificador y metadatos, aunque los checkpoints destinados a inferencia suelen contener solo los artefactos necesarios para ejecutar el modelo. Referencia: Rojas et al. (2020), A Study of Checkpointing in Large Scale Training of Deep Neural Networks, arXiv:2012.00825.
Claude, Gemini, GPT, Llama, Mistral: familias de modelos fundacionales o LLMs de distintos proveedores —Anthropic, Google, OpenAI, Meta y Mistral AI, respectivamente—. Referencia: Minaee et al. (2024), Large Language Models: A Survey, arXiv:2402.06196, versión revisada en 2025.
Code interpreter: herramienta que permite a un modelo ejecutar código en un entorno seguro para analizar datos, calcular resultados o transformar archivos. Referencia: Gao et al. (2023), PAL: Program-Aided Language Models, Proceedings of ICML 2023, PMLR 202.
Contrastive learning: paradigma que aprende representaciones acercando pares considerados similares y alejando pares distintos. Las relaciones entre pares pueden derivarse de etiquetas, de aumentos de datos o de otras señales autosupervisadas. Referencia: Hadsell, Chopra y LeCun (2006), Dimensionality Reduction by Learning an Invariant Mapping, CVPR 2006. DOI: 10.1109/CVPR.2006.100.
Cursor / pointer: referencia interna usada por algunos sistemas para continuar una operación o paginación, indicando la posición actual en un conjunto de resultados. Referencia técnica: Model Context Protocol (2025), Pagination Specification: los cursores se definen como tokens opacos que representan una posición dentro de un conjunto de resultados.
Custom model: modelo adaptado o entrenado específicamente para un dominio, tarea o empresa concreta. Referencia: Pan y Yang (2010), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, 22(10). DOI: 10.1109/TKDE.2009.191.
Distribution shift: cambio entre la distribución estadística de los datos de entrenamiento y la de los datos vistos en producción, lo que puede degradar el rendimiento. Referencia: Moreno-Torres et al. (2012), A Unifying View on Dataset Shift in Classification, Pattern Recognition, 45(1), 521–530. DOI: 10.1016/j.patcog.2011.06.019.
Emergent capabilities / comportamientos emergentes: capacidades observadas al escalar ciertos modelos que no estaban explícitamente programadas ni eran evidentes en modelos menores; su medición depende del benchmark, la forma de evaluación y el umbral usado para considerar que una capacidad está presente. Referencia: Schaeffer, Miranda y Koyejo (2023), Are Emergent Abilities of Large Language Models a Mirage?, NeurIPS 2023, arXiv:2304.15004.
Ensemble: combinación de las predicciones de varios modelos independientes para mejorar robustez o rendimiento frente a cualquier modelo individual. Referencia: Dietterich (2000), Ensemble Methods in Machine Learning, Multiple Classifier Systems. DOI: 10.1007/3-540-45014-9_1.
Explainability: capacidad de explicar en lenguaje comprensible por qué un modelo produjo una salida concreta, orientada a usuarios finales o reguladores. Referencia: Miller (2019), Explanation in Artificial Intelligence: Insights from the Social Sciences, Artificial Intelligence, 267, 1–38. DOI: 10.1016/j.artint.2018.07.007.
GAN / Generative Adversarial Network: arquitectura generativa con un generador y un discriminador entrenados con objetivos adversariales. El generador intenta producir muestras que el discriminador no distinga de las reales, sin que el entrenamiento garantice indistinguibilidad perfecta. Referencia: Goodfellow et al. (2014), Generative Adversarial Nets, Advances in Neural Information Processing Systems 27, arXiv:1406.2661.
Ground truth: respuesta, etiqueta o anotación considerada correcta y usada como referencia para entrenamiento o evaluación. Referencia: Aroyo y Welty (2015), Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation, AI Magazine, 36(1), 15–24. DOI: 10.1609/aimag.v36i1.2564.
Hallucination / alucinación: salida generada por un modelo que parece plausible y fluida pero contiene información falsa, inventada, no verificada o no sustentada por el contexto, las fuentes disponibles o la realidad. Referencia: Ji et al. (2023), Survey of Hallucination in Natural Language Generation, ACM Computing Surveys, 55(12). DOI: 10.1145/3571730.
Interpretability: capacidad de entender los mecanismos internos de un modelo —qué representaciones aprende, cómo toma decisiones— más allá de observar entradas y salidas. Referencia: Lipton (2018), The Mythos of Model Interpretability, Communications of the ACM, 61(10). DOI: 10.1145/3236386.3241340.
LSTM / Long Short-Term Memory: variante de RNN con compuertas de entrada, salida y olvido que facilita conservar o descartar información a lo largo de una secuencia y mitiga, sin eliminar por completo, el problema del gradiente evanescente. Referencia: Hochreiter y Schmidhuber (1997), Long Short-Term Memory, Neural Computation, 9(8), 1735–1780. DOI: 10.1162/neco.1997.9.8.1735.
Mean squared error / MSE: función de pérdida habitual en regresión que calcula la media del cuadrado de las diferencias entre predicciones y valores reales. Referencia: Chai y Draxler (2014), Root Mean Square Error (RMSE) or Mean Absolute Error (MAE)?—Arguments Against Avoiding RMSE in the Literature, Geoscientific Model Development, 7, 1247–1250. DOI: 10.5194/gmd-7-1247-2014.
Memory: información persistente o recuperable que un sistema utiliza entre interacciones o pasos de inferencia para mantener contexto, preferencias o estado. Referencia: Packer et al. (2023), MemGPT: Towards LLMs as Operating Systems, arXiv:2310.08560.
Model: sistema entrenado que transforma entradas en salidas mediante parámetros aprendidos a partir de datos. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260. DOI: 10.1126/science.aaa8415.
Model card: documento estructurado que describe usos previstos, capacidades, limitaciones, evaluaciones, riesgos y otra información relevante de un modelo. No existe un único formato obligatorio para todos los contextos. Referencia: Mitchell et al. (2019), Model Cards for Model Reporting, Proceedings of FAT* 2019, 220–229. DOI: 10.1145/3287560.3287596.
Model drift: cambio del comportamiento o rendimiento de un modelo en producción a lo largo del tiempo, asociado a cambios en datos, relaciones objetivo, entorno, usuarios o pipeline. Referencia: Gama et al. (2014), A Survey on Concept Drift Adaptation, ACM Computing Surveys, 46(4), artículo 44. DOI: 10.1145/2523813.
Multi-hop reasoning: razonamiento que requiere encadenar varias evidencias, recuperaciones o pasos de inferencia para llegar a una conclusión que ningún dato individual proporciona directamente. Referencia: Yang et al. (2018), HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering, EMNLP 2018. DOI: 10.18653/v1/D18-1259.
Reasoning model: modelo ajustado o configurado para dedicar más cómputo de inferencia a tareas de lógica, planificación, matemáticas, código u otros problemas multietapa. El proceso interno no tiene por qué exponerse como una cadena de pensamiento legible. Referencia: Snell et al. (2025), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, ICLR 2025, arXiv:2408.03314.
RNN / Recurrent Neural Network: red neuronal con conexiones cíclicas que procesa secuencias paso a paso, manteniendo un estado oculto que se actualiza en cada paso; precursora de los transformers en tareas de lenguaje. Referencia: Elman (1990), Finding Structure in Time, Cognitive Science, 14(2), 179–211. DOI: 10.1207/s15516709cog1402_1.
Sequence-to-sequence / seq2seq: modelo que transforma una secuencia de entrada en una secuencia de salida de longitud potencialmente distinta, como en traducción automática o resumen. Referencia: Sutskever, Vinyals y Le (2014), Sequence to Sequence Learning with Neural Networks, Advances in Neural Information Processing Systems 27, arXiv:1409.3215.
User intent: objetivo real que se infiere de una petición del usuario, que puede diferir de su formulación literal. Referencia: Wu et al. (2025), Multi-Intent Spoken Language Understanding: Methods, Trends, and Challenges. DOI: 10.1007/s44336-025-00029-6.
VAE / Variational Autoencoder: autoencoder generativo que aprende parámetros de una distribución latente y se entrena combinando reconstrucción y regularización probabilística, lo que permite muestrear nuevas representaciones y generar datos. Referencia: Kingma y Welling (2014), Auto-Encoding Variational Bayes, ICLR 2014, arXiv:1312.6114.
XAI / Explainable AI: conjunto de técnicas y marcos metodológicos para hacer los sistemas de IA más explicables, interpretables y auditables. Referencia: Barredo Arrieta et al. (2020), Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges Toward Responsible AI, Information Fusion, 58, 82–115. DOI: 10.1016/j.inffus.2019.12.012.

Modelos, arquitecturas y componentes internos

Partes internas de modelos neuronales y arquitecturas habituales.

Activation function: función aplicada a la salida de una unidad o capa; suele ser no lineal para permitir que la red represente relaciones complejas. Ejemplos: ReLU, GELU, sigmoid y tanh. Referencia: Glorot, Bordes y Bengio (2011), Deep Sparse Rectifier Neural Networks, Proceedings of AISTATS, PMLR 15, 315–323.
Attention: mecanismo que permite a un modelo ponderar dinámicamente qué partes de la entrada son más relevantes para producir cada elemento de la salida, operando sobre tripletas de vectores query, key y value. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Autoencoder: red neuronal que aprende a comprimir datos en una representación compacta —encoder— y a reconstruirlos desde esa representación —decoder—, usada en reducción de dimensionalidad y detección de anomalías. Referencia: Hinton y Salakhutdinov (2006), Reducing the Dimensionality of Data with Neural Networks, Science, 313(5786), 504–507. DOI: 10.1126/science.1127647.
Cross-attention: mecanismo de atención entre dos secuencias distintas —por ejemplo, la entrada y la salida parcial— que permite al decoder consultar representaciones del encoder. Referencia: Vaswani et al. (2017), Attention Is All You Need, especialmente la atención del decoder sobre la salida del encoder, arXiv:1706.03762.
Decoder: componente de un modelo que genera una secuencia de salida token a token, condicionado en su propia salida previa y, en modelos encoder-decoder, en la representación del encoder. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Deep learning: subcampo del aprendizaje automático basado en redes neuronales con múltiples capas que aprenden representaciones jerárquicas de los datos. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539.
Encoder: componente que transforma una entrada en una o varias representaciones internas. En secuencias suele producir un vector por posición, aunque algunas arquitecturas generan una representación agregada. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Encoder-decoder transformer: arquitectura transformer con un encoder que codifica la entrada completa y un decoder autoregresivo que genera la salida, usado en traducción, resumen y sistemas de diálogo. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Foundation model: modelo grande preentrenado con grandes volúmenes de datos diversos y adaptable a múltiples tareas mediante prompting, fine-tuning o integración con herramientas; puede ser textual, visual, de audio, de vídeo o multimodal. Referencia: Bommasani et al. (2021), On the Opportunities and Risks of Foundation Models, arXiv:2108.07258.
Fully connected layer / dense layer: capa en la que cada unidad de salida recibe una combinación de todas las activaciones de entrada. Se usa tanto en clasificadores como dentro de bloques feed-forward y otras partes de redes neuronales. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Graph neural network / GNN: red neuronal diseñada para datos estructurados como grafos, que propaga información entre nodos vecinos iterativamente. Referencia: Zhou et al. (2020), Graph Neural Networks: A Review of Methods and Applications, AI Open, 1, 57–81; versión inicial arXiv:1812.08434.
Hidden layer: capa intermedia de una red neuronal situada entre la entrada y la salida, responsable de aprender representaciones internas. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Language model: modelo que asigna probabilidades a secuencias de texto o que, condicionado en un contexto, predice, genera o analiza lenguaje. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155.
Latent space: espacio de representaciones internas aprendidas por un modelo. La proximidad puede reflejar similitud útil para el objetivo de entrenamiento, aunque no garantiza una semántica interpretable en todas sus regiones. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50.
Layer: componente modular de una red neuronal que aplica una transformación matemática a su entrada para producir una salida. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539.
Layer normalization / LayerNorm: técnica de normalización que estandariza las activaciones dentro de cada capa —a lo largo de la dimensión de características, no del batch— estabilizando el entrenamiento de transformers y redes profundas. Referencia: Ba, Kiros y Hinton (2016), Layer Normalization, arXiv:1607.06450.
Logit: valor numérico sin normalizar producido por la última capa del modelo, previo a la conversión en probabilidades mediante softmax u otras funciones. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28.
Masked language model: modelo de lenguaje entrenado para predecir tokens enmascarados dentro de una secuencia, usando contexto bidireccional; paradigma de BERT y sus variantes. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423.
Mixture of Experts / MoE: arquitectura con varios módulos expertos y un router que selecciona uno o varios para cada token o ejemplo. Permite aumentar el número total de parámetros manteniendo activo solo un subconjunto por operación; los expertos no siempre presentan especializaciones interpretables. Referencia: Shazeer et al. (2017), Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, ICLR 2017, arXiv:1701.06538.
Model weights: conjunto de parámetros numéricos aprendidos durante el entrenamiento que definen el comportamiento del modelo. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Multi-head attention: extensión del mecanismo de atención que aplica múltiples cabezas de atención en paralelo, cada una con sus propias proyecciones query, key y value, permitiendo al modelo capturar distintos tipos de relaciones simultáneamente; componente central del transformer. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Neural network: modelo compuesto por capas de unidades computacionales conectadas que aprenden transformaciones no lineales mediante optimización por gradiente. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Neuron: unidad computacional básica de una red neuronal que aplica una suma ponderada de sus entradas seguida de una función de activación. Referencia: McCulloch y Pitts (1943), A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, 5, 115–133. DOI: 10.1007/BF02478259.
Open weights: modelos cuyos pesos están disponibles públicamente para descarga o inspección; no implica necesariamente licencia open source, permiso de uso comercial, derecho de modificación ni redistribución. Referencia: White et al. (2024), The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence, arXiv:2403.13784.
Parameter: valor escalar aprendido por el modelo durante el entrenamiento; el número total de parámetros es una métrica habitual del tamaño del modelo. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Positional encoding: mecanismo que incorpora información de orden o posición a las representaciones de entrada o a la atención. Sin esa información, la self-attention es equivariante a permutaciones y no distingue por sí sola el orden de los tokens. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Residual connection / skip connection: conexión que combina la entrada de un bloque con su salida, normalmente mediante suma. Facilita el flujo de gradientes y el entrenamiento de redes profundas, aunque no evita por sí sola todos los problemas de optimización. Referencia: He, Zhang, Ren y Sun (2016), Deep Residual Learning for Image Recognition, Proceedings of CVPR 2016, 770–778. DOI: 10.1109/CVPR.2016.90.
RoPE / Rotary Position Embedding: método de codificación posicional que rota componentes de query y key según la posición, haciendo que sus productos internos incorporen posiciones relativas. La extrapolación a longitudes mayores no está garantizada y suele requerir escalado o ajustes específicos. Referencia: Su et al. (2021), RoFormer: Enhanced Transformer with Rotary Position Embedding, arXiv:2104.09864.
Router model: modelo o módulo que decide a qué experto, herramienta, modelo especializado o ruta de procesamiento enviar una petición según su contenido. Referencia: Ong et al. (2024), RouteLLM: Learning to Route LLMs with Preference Data, arXiv:2406.18665.
Self-attention: mecanismo de atención en el que queries, keys y values proceden de la misma secuencia. Cada posición atiende a las posiciones permitidas por la máscara, que pueden incluir toda la secuencia o solo una parte, como el prefijo causal. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Softmax: función que transforma logits finitos en valores positivos que suman 1 mediante exponenciación y normalización. La concentración de la distribución depende de la escala de los logits o de la temperatura. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28.
State Space Model / SSM / Mamba: los state space models son modelos de secuencia basados en una dinámica de estado que puede formularse en tiempo continuo y discretizarse para su cómputo. Mamba es una arquitectura concreta de SSM selectivo; no es sinónimo de toda la familia. Referencia: Gu y Dao (2023), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752.
Transformer: arquitectura introducida con bloques de atención y redes feed-forward, sin recurrencia en su formulación original. Muchas variantes modernas incorporan otros mecanismos, por lo que “transformer” no implica que todo el sistema use únicamente atención. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762.
Weight: parámetro escalar aprendido de una red neuronal que pondera la influencia de una conexión entre neuronas. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0.
Weight decay: regularización que contrae los parámetros durante la actualización. Coincide con añadir una penalización L2 en descenso de gradiente simple, pero puede diferir de L2 cuando se usa con optimizadores adaptativos; AdamW aplica decaimiento desacoplado. Referencia: Loshchilov y Hutter (2019), Decoupled Weight Decay Regularization, ICLR 2019, arXiv:1711.05101.

Entrenamiento, adaptación y optimización

Técnicas para entrenar, ajustar, comprimir o mejorar modelos.

Activation checkpointing: técnica que reduce el consumo de memoria durante entrenamiento recomputando activaciones intermedias en el paso hacia atrás en lugar de almacenarlas todas en GPU. Referencia: Chen, Xu, Zhang y Guestrin (2016), Training Deep Nets with Sublinear Memory Cost, arXiv:1604.06174. (arxiv.org)
Active learning: paradigma donde el modelo identifica activamente los ejemplos sin etiquetar más informativos para solicitar su anotación, reduciendo el coste de etiquetado. Referencia: Cohn, Atlas y Ladner (1994), Improving Generalization with Active Learning, Machine Learning, 15, 201–221. DOI: 10.1007/BF00993277. (link.springer.com)
Adapter: módulo pequeño incorporado a un modelo preentrenado para adaptarlo a una tarea o dominio entrenando pocos parámetros. Habitualmente se congelan los pesos base, aunque no es un requisito de todas las variantes. Referencia: Houlsby et al. (2019), Parameter-Efficient Transfer Learning for NLP, Proceedings of ICML 2019, PMLR 97, 2790–2799. (arxiv.org)
Backpropagation: algoritmo que calcula los gradientes de la función de pérdida respecto a cada parámetro del modelo propagando el error desde la salida hacia las capas anteriores mediante la regla de la cadena. Referencia: Rumelhart, Hinton y Williams (1986), Learning Representations by Back-Propagating Errors, Nature, 323, 533–536. DOI: 10.1038/323533a0. (nature.com)
Batch: conjunto de ejemplos procesados conjuntamente en una misma pasada por el modelo, durante entrenamiento o inferencia. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Batch size: número de ejemplos incluidos en cada batch; determina el compromiso entre estabilidad del gradiente y eficiencia computacional. Referencia: Keskar et al. (2017), On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima, ICLR 2017, arXiv:1609.04836. (arxiv.org)
Distillation: entrenamiento de un modelo pequeño —estudiante— para imitar las distribuciones de salida o representaciones de un modelo mayor —profesor—, transfiriendo conocimiento de forma compacta. Referencia: Hinton, Vinyals y Dean (2015), Distilling the Knowledge in a Neural Network, arXiv:1503.02531. (arxiv.org)
DPO / Direct Preference Optimization: método de ajuste que aprende de pares de respuestas preferida y no preferida mediante una pérdida de clasificación relativa respecto a una política de referencia, sin entrenar un modelo de recompensa separado ni ejecutar RL online. Referencia: Rafailov et al. (2023), Direct Preference Optimization: Your Language Model Is Secretly a Reward Model, Advances in Neural Information Processing Systems 36, arXiv:2305.18290. (arxiv.org)
Dropout: técnica de regularización que pone aleatoriamente a cero ciertas activaciones durante el entrenamiento y aplica el escalado correspondiente, reduciendo dependencias excesivas entre unidades. Referencia: Srivastava et al. (2014), Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine Learning Research, 15, 1929–1958. (jmlr.org)
Early stopping: interrupción del entrenamiento cuando el rendimiento en el conjunto de validación deja de mejorar durante un número determinado de épocas, evitando el sobreajuste. Referencia: Prechelt (1998), Automatic Early Stopping Using Cross Validation: Quantifying the Criteria, Neural Networks, 11(4), 761–767. DOI: 10.1016/S0893-6080(98)00010-0. (sciencedirect.com)
Epoch: pasada completa sobre el conjunto de entrenamiento. Un proceso puede usar una, varias o fracciones de época según el tamaño del corpus y el régimen de optimización. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Fine-tuning: ajuste adicional de un modelo preentrenado usando datos específicos de una tarea o dominio, modificando todos o algunos de sus parámetros. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423. (arxiv.org)
Gradient: vector de derivadas parciales de la función de pérdida respecto a los parámetros del modelo; indica la dirección de máximo crecimiento local de la pérdida. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Gradient clipping: técnica que limita la magnitud del gradiente a un umbral máximo antes de actualizar los parámetros, previniendo explosiones de gradiente en redes profundas o recurrentes. Referencia: Pascanu, Mikolov y Bengio (2013), On the Difficulty of Training Recurrent Neural Networks, Proceedings of ICML 2013, PMLR 28, 1310–1318. (arxiv.org)
Gradient descent: algoritmo de optimización iterativo que actualiza los parámetros en la dirección opuesta al gradiente para minimizar la función de pérdida. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
GRPO / Group Relative Policy Optimization: algoritmo de RL que optimiza la política del modelo comparando grupos de respuestas entre sí para estimar ventajas relativas, sin necesitar un modelo crítico separado. Referencia: Shao et al. (2024), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300. (arxiv.org)
KL divergence / divergencia KL: medida asimétrica de cuánto difiere una distribución de probabilidad de una distribución de referencia; usada en RLHF como penalización para evitar que el modelo se aleje demasiado de la política base durante el ajuste. Referencia: Kullback y Leibler (1951), On Information and Sufficiency, The Annals of Mathematical Statistics, 22(1), 79–86. DOI: 10.1214/aoms/1177729694. (projecteuclid.org)
Learning rate: escalar que controla el tamaño del paso con el que se actualizan los parámetros en cada iteración de optimización; un valor demasiado alto causa inestabilidad y uno demasiado bajo ralentiza la convergencia. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
LoRA / Low-Rank Adaptation: técnica PEFT que añade matrices de baja dimensión entrenables en paralelo a capas del modelo preentrenado, reduciendo drásticamente el número de parámetros a actualizar. Referencia: Hu et al. (2022), LoRA: Low-Rank Adaptation of Large Language Models, ICLR 2022, arXiv:2106.09685. (arxiv.org)
LoRA adapter: conjunto de matrices adicionales entrenadas con LoRA que se acoplan a un modelo base sin modificar sus pesos originales y pueden intercambiarse para distintas tareas. Referencia: Hu et al. (2022), LoRA: Low-Rank Adaptation of Large Language Models, ICLR 2022, arXiv:2106.09685. (arxiv.org)
Loss function: función que mide la discrepancia entre las predicciones del modelo y los valores reales durante el entrenamiento, guiando la optimización mediante su gradiente. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Mixed precision training: uso combinado de formatos numéricos, como FP16 o BF16 para parte del cómputo y FP32 para determinadas acumulaciones, estados o copias maestras, con el fin de reducir memoria y acelerar el entrenamiento manteniendo estabilidad. Referencia: Micikevicius et al. (2018), Mixed Precision Training, ICLR 2018, arXiv:1710.03740. (arxiv.org)
Model merging: combinación de los pesos o adaptadores de varios modelos mediante operaciones aritméticas en el espacio de parámetros, sin reentrenar desde cero. Referencia: Wortsman et al. (2022), Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy Without Increasing Inference Time, Proceedings of ICML 2022, PMLR 162, 23965–23998. (arxiv.org)
Online learning: paradigma de aprendizaje donde el modelo se actualiza de forma continua o incremental a medida que llegan nuevos datos, sin un ciclo discreto de reentrenamiento. Referencia: Hoi, Sahoo, Lu y Zhao (2018), Online Learning: A Comprehensive Survey, arXiv:1802.02871. (arxiv.org)
Optimization: proceso iterativo de ajustar los parámetros de un modelo para minimizar una función de pérdida o maximizar una métrica de rendimiento. Referencia: Bottou, Curtis y Nocedal (2018), Optimization Methods for Large-Scale Machine Learning, SIAM Review, 60(2), 223–311. DOI: 10.1137/16M1080173. (epubs.siam.org)
Parameter-efficient fine-tuning / PEFT: familia de técnicas que adapta un modelo entrenando una fracción pequeña de parámetros adicionales o seleccionados. Muchas congelan el modelo base, aunque algunas actualizan subconjuntos de sus parámetros existentes. Referencia: Xu et al. (2023), Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment, arXiv:2312.12148. (arxiv.org)
Policy: en aprendizaje por refuerzo, función que mapea estados u observaciones a acciones; en LLMs, la distribución de probabilidad sobre tokens que define el comportamiento del modelo. Referencia: Sutton, McAllester, Singh y Mansour (1999), Policy Gradient Methods for Reinforcement Learning with Function Approximation, Advances in Neural Information Processing Systems 12. (papers.nips.cc)
Post-training: fase posterior al preentrenamiento donde se aplican técnicas como SFT, RLHF o DPO para alinear el modelo con preferencias humanas y hacerlo útil en aplicaciones prácticas. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
PPO / Proximal Policy Optimization: algoritmo de RL que actualiza la política del modelo con pasos controlados usando una función de pérdida recortada, estabilizando el entrenamiento; usado en la fase RL de RLHF. Referencia: Schulman et al. (2017), Proximal Policy Optimization Algorithms, arXiv:1707.06347. (arxiv.org)
Pretraining: entrenamiento inicial de gran escala sobre datos masivos y diversos para que el modelo aprenda representaciones generales del lenguaje antes de cualquier especialización. Referencia: Devlin, Chang, Lee y Toutanova (2019), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Proceedings of NAACL-HLT 2019, 4171–4186. DOI: 10.18653/v1/N19-1423. (arxiv.org)
QLoRA: variante de LoRA que cuantiza el modelo base a 4 bits para reducir consumo de memoria, permitiendo fine-tuning de modelos grandes en hardware con memoria limitada. Referencia: Dettmers, Pagnoni, Holtzman y Zettlemoyer (2023), QLoRA: Efficient Finetuning of Quantized LLMs, Advances in Neural Information Processing Systems 36, arXiv:2305.14314. (arxiv.org)
Regularization: conjunto de técnicas que restringen o modifican el proceso de aprendizaje para reducir el sobreajuste y mejorar la generalización. Referencia: Kukačka, Golkov y Cremers (2017), Regularization for Deep Learning: A Taxonomy, arXiv:1710.10686. (arxiv.org)
Reinforcement learning / RL: paradigma de aprendizaje donde un agente aprende a maximizar una señal de recompensa acumulada mediante la interacción con un entorno. Referencia: Mnih et al. (2015), Human-Level Control Through Deep Reinforcement Learning, Nature, 518, 529–533. DOI: 10.1038/nature14236. (nature.com)
Reward hacking / specification gaming: fenómeno donde un modelo optimiza la métrica de recompensa de formas no previstas —explotando sesgos del reward model o del entorno— sin lograr el objetivo real deseado. Referencia: Amodei et al. (2016), Concrete Problems in AI Safety, arXiv:1606.06565. (arxiv.org)
Reward model: modelo entrenado a partir de comparaciones humanas que estima la calidad o preferibilidad de una respuesta; usado en RLHF como función de recompensa proxy. Referencia: Christiano et al. (2017), Deep Reinforcement Learning from Human Preferences, Advances in Neural Information Processing Systems 30, arXiv:1706.03741. (arxiv.org)
RFT / Reinforcement Fine-Tuning: ajuste fino mediante aprendizaje por refuerzo a partir de una señal de recompensa. En tareas verificables puede usar comprobadores automáticos, pero también puede emplear modelos de recompensa u otras funciones de evaluación. Referencia técnica: OpenAI (2026), Reinforcement Fine-Tuning. (developers.openai.com)
RLAIF / Reinforcement Learning from AI Feedback: variante de RLHF donde las señales de preferencia provienen de otro modelo de IA en lugar de anotadores humanos, permitiendo escalar el proceso de alineamiento. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
RLHF / Reinforcement Learning from Human Feedback: familia de procesos que usa evaluaciones, demostraciones o preferencias humanas para ajustar el comportamiento de un modelo. Una implementación clásica entrena un modelo de recompensa y optimiza la política con RL, aunque existen variantes y métodos relacionados sin esa misma secuencia. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Scaling laws: relaciones empíricas cuantitativas que describen cómo mejora el rendimiento de un modelo en función del número de parámetros, volumen de datos de entrenamiento y cómputo utilizado. Referencia: Kaplan et al. (2020), Scaling Laws for Neural Language Models, arXiv:2001.08361. (arxiv.org)
Self-supervised learning: paradigma donde las etiquetas de supervisión se derivan automáticamente de los propios datos —como predecir el siguiente token o reconstruir partes enmascaradas— sin anotación humana. Referencia: Ericsson, Gouk, Loy y Hospedales (2022), Self-Supervised Representation Learning: Introduction, Advances, and Challenges, IEEE Signal Processing Magazine, 39(3), 42–62; versión inicial arXiv:2110.09327. (arxiv.org)
SFT / Supervised Fine-Tuning: ajuste supervisado de un modelo preentrenado con ejemplos de instrucciones y respuestas esperadas; primera etapa habitual del post-training antes de técnicas de alineación como RLHF o DPO. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Supervised learning: paradigma en el que el modelo aprende a partir de ejemplos con objetivos o etiquetas conocidos. Las etiquetas pueden proceder de personas, reglas, sensores, simulaciones u otros sistemas. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Test-time compute / inference-time scaling: uso de más cómputo durante la inferencia —mediante búsqueda, muestreo múltiple o razonamiento extendido— para mejorar la calidad de la respuesta sin cambiar los pesos del modelo. Referencia: Snell, Lee, Xu y Kumar (2024), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, arXiv:2408.03314. (arxiv.org)
Training data: datos utilizados para calcular la pérdida y actualizar los parámetros del modelo. Su calidad, cobertura, distribución y tratamiento influyen de forma importante en el comportamiento resultante. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (cacm.acm.org)
Transfer learning: reutilización del conocimiento representacional aprendido en una tarea o dominio de origen para mejorar el rendimiento en una tarea o dominio distinto. Referencia: Pan y Yang (2010), A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359. DOI: 10.1109/TKDE.2009.191. (doi.org)
Unsupervised learning: paradigma de aprendizaje sin etiquetas explícitas donde el modelo descubre estructura, patrones o representaciones en los datos. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50. (arxiv.org)
Warmup schedule: estrategia de tasa de aprendizaje que comienza con valores muy bajos y los incrementa gradualmente durante los primeros pasos del entrenamiento, estabilizando la inicialización antes de la fase principal de optimización. Referencia: Kalra y Barkeshli (2024), Why Warmup the Learning Rate? Underlying Mechanisms and Improvements, arXiv:2406.09405. (arxiv.org)
World model: representación interna que permite a un sistema modelar cómo evoluciona un entorno en respuesta a acciones, usada en planificación y RL basado en modelo. Referencia: Ha y Schmidhuber (2018), World Models, arXiv:1803.10122. (arxiv.org)

Datos, datasets y preparación

Conceptos de datos, etiquetas, variables y preparación de corpus.

Class imbalance: situación donde algunas clases del dataset tienen muchos más ejemplos que otras, lo que puede sesgar el modelo hacia las clases mayoritarias. Referencia: He y Garcia (2009), Learning from Imbalanced Data, IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263–1284. DOI: 10.1109/TKDE.2008.239. (doi.org)
Consent management: gestión de la obtención, registro, finalidad, vigencia y retirada del consentimiento asociado al tratamiento de datos personales, junto con la trazabilidad de la base jurídica aplicable. El consentimiento es una posible base jurídica, no un requisito universal para todo tratamiento. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, especialmente artículos 4.11, 6 y 7. (eur-lex.europa.eu)
Copyrighted data: datos o contenidos protegidos por derechos de autor o derechos conexos, cuyo uso para entrenamiento, evaluación o generación puede requerir licencia, excepción legal o análisis jurídico específico. Referencia normativa: Unión Europea (2019), Directiva (UE) 2019/790 sobre los derechos de autor en el mercado único digital, especialmente artículos 3 y 4 sobre minería de textos y datos. (eur-lex.europa.eu)
Data augmentation: generación de variaciones de ejemplos existentes —como rotaciones, ruido, recortes o paráfrasis— para ampliar la diversidad del dataset y mejorar la generalización o robustez del modelo. Referencia: Shorten y Khoshgoftaar (2019), A Survey on Image Data Augmentation for Deep Learning, Journal of Big Data, 6, artículo 60. DOI: 10.1186/s40537-019-0197-0. (link.springer.com)
Data curation: proceso de selección, limpieza, deduplicación, filtrado, documentación y organización de datos para mejorar su calidad, relevancia y adecuación al uso previsto. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Data deletion: eliminación de datos de sistemas de almacenamiento, índices, logs, datasets o memorias. Cuando los datos se utilizaron para entrenar un modelo, retirarlos del almacenamiento no elimina necesariamente su influencia sobre los parámetros y puede requerir reentrenamiento o machine unlearning. Referencia: Bourtoule et al. (2021), Machine Unlearning, IEEE Symposium on Security and Privacy, 141–159. DOI: 10.1109/SP40001.2021.00019. (arxiv.org)
Data drift: cambio en la distribución estadística de los datos de entrada en producción respecto a una distribución de referencia, como la observada durante el entrenamiento. Puede ser abrupto, gradual, incremental o recurrente y no implica necesariamente una degradación, aunque puede provocarla. Referencia: Ackerman, Raz, Zalmanovici y Zlotnick (2021), Automatically Detecting Data Drift in Machine Learning Classifiers, arXiv:2111.05672. (arxiv.org)
Data labeling: proceso de asignar categorías, valores, relaciones, segmentos u otras anotaciones a datos en bruto para utilizarlos en entrenamiento o evaluación supervisada. Puede ser realizado por personas, reglas, sensores, modelos u otros sistemas. Referencia: Snow et al. (2008), Cheap and Fast—But Is It Good? Evaluating Non-Expert Annotations for Natural Language Tasks, Proceedings of EMNLP 2008, 254–263. (aclanthology.org)
Data lineage: registro del recorrido de los datos desde su origen hasta su uso final, incluyendo transformaciones, filtrados, versiones, responsables, sistemas y dependencias. Referencia técnica: W3C (2013), PROV-O: The PROV Ontology, W3C Recommendation. (w3.org)
Data pipeline: flujo automatizado o semiautomatizado que coordina la ingestión, transformación, validación, almacenamiento y entrega de datos para entrenamiento, evaluación o inferencia. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems, Advances in Neural Information Processing Systems 28. (proceedings.neurips.cc)
Data provenance: información sobre el origen de un dato o dataset, las entidades y procesos que intervinieron en su creación, sus transformaciones y, cuando se conoce, su titularidad y condiciones de uso. Referencia técnica: W3C (2013), PROV-DM: The PROV Data Model, W3C Recommendation. (w3.org)
Data retention: política que define durante cuánto tiempo se conservan datos, logs, prompts, respuestas o artefactos, para qué finalidades y bajo qué condiciones se archivan o eliminan. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 5.1.e, principio de limitación del plazo de conservación. (eur-lex.europa.eu)
Data versioning / versionado de datos: práctica de identificar, registrar y gestionar versiones de datasets para facilitar reproducibilidad, auditoría, comparación, recuperación y rastreo de cambios. Referencia: Halchenko et al. (2021), DataLad: Distributed System for Joint Management of Code, Data, and Their Relationship, Journal of Open Source Software, 6(63), 3262. DOI: 10.21105/joss.03262. (joss.theoj.org)
Dataset: colección organizada de datos y, cuando corresponda, etiquetas, particiones y metadatos, utilizada para entrenamiento, validación, evaluación o análisis. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Dataset card: documento estructurado que describe el origen, composición, metodología de recolección, procesos de anotación, usos previstos, limitaciones y riesgos potenciales de un dataset. Referencia: Pushkarna, Zaldivar y Kjartansson (2022), Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI, Proceedings of FAccT 2022, 1776–1826. DOI: 10.1145/3531146.3533231. (arxiv.org)
Feature: variable o representación utilizada como entrada por un modelo. Puede proceder directamente de los datos, construirse mediante transformaciones o aprenderse automáticamente mediante representation learning. Referencia: Guyon y Elisseeff (2003), An Introduction to Variable and Feature Selection, Journal of Machine Learning Research, 3, 1157–1182. (jmlr.org)
Feature engineering: diseño, selección o transformación manual o semiautomática de variables de entrada para facilitar que un modelo capture relaciones predictivas relevantes. Referencia: Guyon y Elisseeff (2003), An Introduction to Variable and Feature Selection, Journal of Machine Learning Research, 3, 1157–1182. (jmlr.org)
Golden dataset: conjunto de datos de referencia de alta calidad, sometido a controles de anotación y revisión, utilizado como estándar para evaluación, calibración o ajuste crítico. También se denomina gold-standard dataset; no existe un umbral universal que determine cuándo un dataset merece esta denominación. Referencia metodológica: Artstein y Poesio (2008), Inter-Coder Agreement for Computational Linguistics, Computational Linguistics, 34(4), 555–596. DOI: 10.1162/coli.07-034-R2. (aclanthology.org)
Label: categoría, valor, estructura o respuesta objetivo asociada a un ejemplo de datos y utilizada como señal de supervisión o como referencia de evaluación. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Label noise: presencia de errores, inconsistencias, desacuerdos o ambigüedades en las etiquetas de un dataset, que puede introducir sesgos y degradar el modelo entrenado. Referencia: Frénay y Verleysen (2014), Classification in the Presence of Label Noise: A Survey, IEEE Transactions on Neural Networks and Learning Systems, 25(5), 845–869. DOI: 10.1109/TNNLS.2013.2292894. (doi.org)
Licensed data: datos utilizados bajo una licencia o contrato que define permisos, restricciones, duración, atribución, redistribución y usos autorizados. La existencia de una licencia no implica que permita cualquier uso relacionado con IA. Referencia: Ball (2014), How to License Research Data, Digital Curation Centre. (dcc.ac.uk)
Metadata: datos que describen otros datos o recursos, como su título, fecha de creación, fuente, autoría, formato, esquema, licencia, versión o relaciones con otros elementos. Referencia técnica: W3C (2024), Data Catalog Vocabulary — DCAT Version 3, W3C Recommendation. (w3.org)
Multilabel classification: variante de clasificación donde cada ejemplo puede pertenecer simultáneamente a varias categorías no excluyentes. Referencia: Tsoumakas y Katakis (2007), Multi-Label Classification: An Overview, International Journal of Data Warehousing and Mining, 3(3), 1–13. DOI: 10.4018/jdwm.2007070101. (doi.org)
Normalization: transformación que lleva variables o vectores a una escala, intervalo o norma definida, como el intervalo [0, 1] o la norma unitaria. Llevar una variable a media cero y desviación típica uno se denomina habitualmente estandarización. Referencia: Sola y Sevilla (1997), Importance of Input Data Normalization for the Application of Neural Networks to Complex Industrial Problems, IEEE Transactions on Nuclear Science, 44(3), 1464–1468. DOI: 10.1109/23.589532. (doi.org)
One-hot encoding: representación de una variable categórica mediante vectores binarios con un único componente activo y el resto a cero. Su dimensionalidad crece con el número de categorías y no representa por sí misma relaciones de similitud entre ellas. Referencia: Cerda, Varoquaux y Kégl (2018), Similarity Encoding for Learning with Dirty Categorical Variables, Machine Learning, 107, 1477–1494. DOI: 10.1007/s10994-018-5724-2. (arxiv.org)
PII detection: identificación automática o asistida de información personal identificable en texto, imágenes, audio, tablas, logs o datasets. La definición de PII depende del marco jurídico y puede ser más estrecha que el concepto europeo de dato personal. Referencia técnica: McCallister, Grance y Scarfone (2010), Guide to Protecting the Confidentiality of Personally Identifiable Information — NIST SP 800-122. (nist.gov)
PII scrubbing: proceso de detectar y eliminar, redactar, enmascarar, seudonimizar o anonimizar información personal antes de almacenar, indexar, entrenar o compartir datos. Estas operaciones ofrecen grados de protección diferentes y no todas producen anonimización irreversible. Referencia técnica: Garfinkel (2015), De-Identification of Personal Information — NIST IR 8053. (nist.gov)
Proprietary data: datos controlados por una organización o persona y sujetos a derechos contractuales, de propiedad intelectual, confidencialidad o secreto empresarial. Su carácter no público no determina por sí solo qué derechos concretos resultan aplicables. Referencia normativa: Unión Europea (2016), Directiva (UE) 2016/943 sobre la protección de los conocimientos técnicos y la información empresarial no divulgados. (eur-lex.europa.eu)
Public data: datos accesibles públicamente. Su disponibilidad pública no implica ausencia de copyright, derechos sobre bases de datos, condiciones de licencia, obligaciones de atribución o riesgos para la privacidad. Referencia normativa: Unión Europea (2019), Directiva (UE) 2019/1024 relativa a los datos abiertos y la reutilización de la información del sector público. (eur-lex.europa.eu)
Right to erasure: derecho de una persona a solicitar la eliminación de sus datos personales cuando concurre alguno de los supuestos previstos por la regulación aplicable. No es un derecho absoluto y admite excepciones. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 17. (eur-lex.europa.eu)
Synthetic data: datos generados artificialmente mediante modelos, reglas o simulaciones para reproducir determinadas propiedades de datos reales, ampliar cobertura, proteger privacidad o representar casos poco frecuentes. Los datos sintéticos no son automáticamente anónimos ni privados. Referencia: Jordon et al. (2022), Synthetic Data—What, Why and How?, arXiv:2205.03257. (arxiv.org)
Synthetic data contamination: presencia no controlada o no identificada de contenido generado artificialmente dentro de datasets tratados como datos reales, que puede alterar su distribución, introducir artefactos y afectar a procesos posteriores de entrenamiento o evaluación. Referencia: Shumailov et al. (2024), AI Models Collapse When Trained on Recursively Generated Data, Nature, 631, 755–759. DOI: 10.1038/s41586-024-07566-y. (nature.com)
Synthetic data detection: clasificación o estimación de si un dato fue generado total o parcialmente por un modelo, una regla o una simulación. Su fiabilidad depende de la modalidad, el generador, las transformaciones aplicadas y la distribución de evaluación. Referencia: Crothers, Japkowicz y Viktor (2023), Machine-Generated Text: A Comprehensive Survey of Threat Models and Detection Methods, arXiv:2210.07321. (arxiv.org)
Synthetic data generation: creación de datos artificiales mediante modelos generativos, reglas, procedimientos estadísticos o simuladores para ampliar cobertura, proteger privacidad, equilibrar clases o representar casos raros. Referencia: Jordon et al. (2022), Synthetic Data—What, Why and How?, arXiv:2205.03257. (arxiv.org)
Test set: partición reservada que no se utiliza para entrenar parámetros, seleccionar modelos ni tomar decisiones repetidas de desarrollo y que sirve para estimar el rendimiento final bajo un protocolo definido. Consultarlo repetidamente puede introducir sesgo de selección. Referencia: Cawley y Talbot (2010), On Over-Fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079–2107. (jmlr.org)
Training data transparency: prácticas de documentación y divulgación que describen, normalmente de forma agregada, qué tipos de datos se utilizaron para entrenar un modelo, sus fuentes, criterios de selección, filtros, limitaciones y condiciones relevantes. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689 — AI Act, artículo 53.1.d, sobre la publicación de un resumen suficientemente detallado del contenido utilizado para entrenar modelos de IA de propósito general. (eur-lex.europa.eu)
Validation set: conjunto separado de los datos de entrenamiento utilizado durante el desarrollo para seleccionar modelos, ajustar hiperparámetros, establecer umbrales o aplicar early stopping sin utilizar el test set para esas decisiones. Referencia: Cawley y Talbot (2010), On Over-Fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 11, 2079–2107. (jmlr.org)

LLMs, prompts, contexto y generación

Términos propios de modelos de lenguaje, prompting, contexto, tokens y decodificación.

A/B testing: comparación controlada entre dos versiones de un modelo, prompt, interfaz o flujo para determinar cuál produce mejores resultados según métricas definidas. Referencia: Kohavi, Longbotham, Sommerfield y Henne (2009), Controlled Experiments on the Web: Survey and Practical Guide, Data Mining and Knowledge Discovery, 18, 140–181. DOI: 10.1007/s10618-008-0114-1. (link.springer.com)
Assistant message: mensaje atribuido al asistente dentro de una conversación estructurada por roles. Puede haber sido generado por el modelo o incorporado por la aplicación como parte del historial. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y mensajes. (model-spec.openai.com)
Attention head: subcomponente del mecanismo de multi-head attention que opera con sus propias proyecciones de query, key y value y puede capturar relaciones diferentes entre posiciones de la secuencia. Estas relaciones no tienen por qué ser interpretables ni corresponder a una única función estable. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762. (arxiv.org)
Attention mask: estructura que modifica las puntuaciones de atención para impedir o limitar determinadas conexiones, por ejemplo hacia padding o tokens futuros. Suele representarse mediante valores booleanos o sesgos aditivos, como cero y menos infinito. Referencia: Vaswani et al. (2017), Attention Is All You Need, Advances in Neural Information Processing Systems 30, arXiv:1706.03762. (arxiv.org)
Autoregressive model: modelo que factoriza la probabilidad de una secuencia condicionando cada elemento en los elementos anteriores. Durante la generación produce normalmente la salida token a token. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155. (jmlr.org)
Beam search / greedy decoding: greedy decoding elige en cada paso el token con mayor puntuación. Beam search conserva varias hipótesis parciales, las expande y descarta las menos prometedoras; puede encontrar secuencias con mayor puntuación que greedy, pero no garantiza el óptimo global ni necesariamente una salida de mayor calidad para personas. Referencia: Stahlberg y Byrne (2019), On NMT Search Errors and Model Errors: Cat Got Your Tongue?, Proceedings of EMNLP-IJCNLP 2019, 3356–3362. (aclanthology.org)
BPE / Byte Pair Encoding: familia de algoritmos de tokenización que construye un vocabulario fusionando iterativamente pares frecuentes de símbolos. Según la implementación, los símbolos iniciales pueden ser bytes, caracteres u otras unidades. Referencia: Sennrich, Haddow y Birch (2016), Neural Machine Translation of Rare Words with Subword Units, Proceedings of ACL 2016, 1715–1725. DOI: 10.18653/v1/P16-1162. (aclanthology.org)
Causal language model: modelo de lenguaje entrenado con una máscara causal que impide a cada posición utilizar tokens posteriores de la misma secuencia, forzando la predicción de cada token a partir del contexto precedente. Referencia: Radford et al. (2019), Language Models Are Unsupervised Multitask Learners. (openai.com)
Chain-of-thought: secuencia de pasos intermedios producida o inducida durante la resolución de una tarea. Puede mejorar el rendimiento en ciertos problemas complejos, pero no garantiza corrección, fidelidad causal ni acceso al razonamiento interno completo del modelo. Referencia: Wei et al. (2022), Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Advances in Neural Information Processing Systems 35, arXiv:2201.11903. (arxiv.org)
Completion: continuación generada por un modelo a partir de una entrada o prefijo. El término se utiliza también para nombrar determinados endpoints y objetos de APIs, por lo que su estructura concreta depende del proveedor. Referencia técnica: OpenAI, Completions API Reference. (platform.openai.com)
Constrained decoding: generación en la que el conjunto de tokens permitidos en cada paso se restringe mediante reglas, gramáticas, autómatas, esquemas JSON u otras condiciones formales. Referencia: Geng et al. (2023), Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning, Proceedings of EMNLP 2023, arXiv:2305.13971. (arxiv.org)
Context: información puesta a disposición del modelo para producir una respuesta, como instrucciones, mensajes anteriores, documentos, resultados de herramientas, memoria recuperada y otros elementos incluidos en la entrada efectiva. No incluye necesariamente todo el estado interno de la aplicación. Referencia: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context engineering: disciplina de seleccionar, construir, organizar y gestionar la información entregada al modelo en cada operación —instrucciones, historial, documentos recuperados, herramientas y memoria— para mejorar el rendimiento del sistema. Referencia: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context rot: término informal para describir la degradación del rendimiento cuando el contexto aumenta, contiene información irrelevante o sitúa la información necesaria en posiciones que el modelo utiliza de forma deficiente. No designa un único mecanismo técnico demostrado. Referencia relacionada: Liu et al. (2023), Lost in the Middle: How Language Models Use Long Contexts, Transactions of the Association for Computational Linguistics, arXiv:2307.03172. (arxiv.org)
Context stuffing: práctica de introducir grandes volúmenes de información en el contexto sin suficiente selección, organización o priorización. Puede aumentar el coste y dificultar la recuperación o integración de la información relevante. Referencia relacionada: Mei et al. (2025), A Survey of Context Engineering for Large Language Models, arXiv:2507.13334. (arxiv.org)
Context window: cantidad máxima de tokens que un modelo o una API admite en una operación. Puede existir un límite conjunto de entrada y salida, límites independientes o restricciones adicionales según el proveedor y la modalidad. Referencia: Dai et al. (2019), Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Proceedings of ACL 2019, 2978–2988. DOI: 10.18653/v1/P19-1285. (aclanthology.org)
Cost per token: métrica comercial que expresa el precio asociado al procesamiento de tokens. Los proveedores pueden aplicar tarifas diferentes a tokens de entrada, salida, caché, audio, razonamiento u otras categorías. Referencia técnica: OpenAI, API Pricing. (openai.com)
Cross-entropy loss: función de pérdida que penaliza la discrepancia entre una distribución objetivo y la distribución de probabilidad predicha. En predicción de tokens suele equivaler al negativo del logaritmo de la probabilidad asignada al token objetivo. Referencia: Bridle (1990), Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition, en Neurocomputing: Algorithms, Architectures and Applications, 227–236. DOI: 10.1007/978-3-642-76153-9_28. (link.springer.com)
Decoder-only transformer: arquitectura transformer formada por bloques de decoder con atención causal y sin un encoder separado. Procesa el contexto precedente y genera continuaciones de forma autoregresiva; es el paradigma utilizado por GPT y numerosas familias de LLM. Referencia: Radford et al. (2018), Improving Language Understanding by Generative Pre-Training. (openai.com)
Delimiter: separador textual o estructural —como ###, <tag> o ---— usado en prompts para distinguir instrucciones, datos, ejemplos o secciones. Su eficacia depende del modelo y no constituye una frontera de seguridad. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Developer message: rol de instrucciones utilizado por algunas plataformas para que el desarrollador de la aplicación defina comportamiento, restricciones y contexto operativo. Su disponibilidad y precedencia dependen de la API. Referencia técnica: OpenAI (2025), Model Spec, sección sobre niveles de autoridad y mensajes. (model-spec.openai.com)
Extended thinking / pensamiento extendido: nombre de producto o modalidad utilizada por algunos proveedores para permitir que el modelo dedique más cómputo o tokens internos a resolver una petición antes de emitir la respuesta final. La implementación, facturación y visibilidad dependen del servicio. Referencia técnica: Anthropic, Extended Thinking. (docs.anthropic.com)
Few-shot example: ejemplo demostrativo incluido en el contexto para mostrar al modelo una tarea, correspondencia entrada-salida, formato o comportamiento esperado. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Few-shot prompting: técnica que incluye un número reducido de ejemplos demostrativos en el contexto para orientar la tarea o el formato sin actualizar los pesos del modelo. No existe un número universal que delimite el término. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Human evaluation: evaluación en la que personas juzgan propiedades de las respuestas, como corrección, relevancia, utilidad, seguridad, fluidez o preferencia. Su validez depende del protocolo, la selección de evaluadores, las instrucciones y el acuerdo entre anotadores. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research, arXiv:2211.09110. (arxiv.org)
Human-in-the-loop: diseño en el que una persona aporta supervisión, correcciones, decisiones, aprobaciones o datos durante alguna fase del funcionamiento o aprendizaje del sistema. La mera presencia de una interfaz humana no garantiza control efectivo. Referencia: Amershi et al. (2014), Power to the People: The Role of Humans in Interactive Machine Learning, AI Magazine, 35(4), 105–120. DOI: 10.1609/aimag.v35i4.2513. (ojs.aaai.org)
Hyperparameter: valor de configuración que no se aprende directamente mediante el procedimiento ordinario de optimización de los parámetros del modelo, como learning rate, batch size, profundidad, temperatura o coeficientes de regularización. Referencia: Bergstra y Bengio (2012), Random Search for Hyper-Parameter Optimization, Journal of Machine Learning Research, 13, 281–305. (jmlr.org)
In-context learning: capacidad de modificar el comportamiento ante una tarea mediante instrucciones o demostraciones incluidas en el contexto, sin una actualización explícita de los pesos durante esa interacción. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Instruction following: capacidad de un modelo para interpretar y ejecutar instrucciones expresadas en lenguaje natural, incluyendo objetivos, restricciones, formatos y tareas compuestas. Referencia: Ouyang et al. (2022), Training Language Models to Follow Instructions with Human Feedback, Advances in Neural Information Processing Systems 35, arXiv:2203.02155. (arxiv.org)
Instruction hierarchy: regla de precedencia entre instrucciones procedentes de fuentes o niveles de confianza diferentes. Los niveles concretos y su orden dependen de la plataforma y de la arquitectura de la aplicación. Referencia: Wallace et al. (2024), The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions, arXiv:2404.13208. (arxiv.org)
Instruction tuning: ajuste supervisado de un modelo sobre colecciones de tareas formuladas como instrucciones y respuestas, orientado a mejorar su capacidad de seguir instrucciones nuevas. Referencia: Wei et al. (2022), Finetuned Language Models Are Zero-Shot Learners, ICLR 2022, arXiv:2109.01652. (arxiv.org)
JSON mode: modalidad de determinadas APIs que condiciona o restringe la salida para que sea JSON válido. No garantiza por sí sola que el resultado respete un esquema concreto, incluya todos los campos esperados o sea semánticamente correcto. Referencia técnica: OpenAI, Structured Outputs Guide, comparación con JSON mode. (platform.openai.com)
JSON Schema: lenguaje declarativo para describir, anotar y validar la estructura, los tipos y las restricciones de documentos JSON. Referencia técnica: JSON Schema (2022), JSON Schema Draft 2020-12. (json-schema.org)
k-shot prompting: prompting que incluye exactamente k ejemplos demostrativos en el contexto. Es una formulación general que incluye one-shot y otras cantidades de ejemplos. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
LLM / Large Language Model: modelo de lenguaje de gran escala entrenado con grandes cantidades de datos, parámetros y cómputo, capaz de realizar diversas tareas lingüísticas y, en algunos casos, multimodales. No existe un umbral universal de parámetros que determine cuándo un modelo es un LLM. Referencia: Zhao et al. (2023), A Survey of Large Language Models, arXiv:2303.18223. (arxiv.org)
LLMOps: conjunto de prácticas, herramientas y procesos para desarrollar, evaluar, desplegar y operar sistemas basados en LLM en producción, incluyendo gestión de prompts, datos, modelos, observabilidad, costes, seguridad y evaluaciones. Referencia: Balis et al. (2024), LLMOps: Definitions, Framework and Best Practices, IEEE. (ieeexplore.ieee.org)
Logprob: logaritmo de la probabilidad que el modelo asigna a un token condicionado por el contexto. Puede utilizarse para ranking, análisis y algunas medidas de incertidumbre, pero no representa por sí solo una probabilidad calibrada de que una respuesta completa sea correcta. Referencia relacionada: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017, PMLR 70, 1321–1330. (proceedings.mlr.press)
Long-context model: modelo capaz de admitir una ventana de contexto considerablemente mayor que la habitual en modelos comparables. La longitud nominal no garantiza recuperación uniforme, integración correcta ni razonamiento eficaz en toda la ventana. Referencia: Liu et al. (2023), Lost in the Middle: How Language Models Use Long Contexts, arXiv:2307.03172. (arxiv.org)
Max output tokens: límite configurado o impuesto al número máximo de tokens que el modelo puede generar en una operación. Puede incluir o excluir determinadas categorías internas según la API. Referencia técnica: OpenAI, Responses API Reference. (platform.openai.com)
N-shot prompting: uso de N ejemplos demostrativos en el prompt. Incluye zero-shot cuando N = 0, one-shot cuando N = 1 y configuraciones con varios ejemplos. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Named entity recognition / NER: tarea de detectar menciones de entidades en texto y clasificarlas en categorías como persona, organización, lugar, fecha o cantidad. Las categorías y reglas de anotación dependen del dataset y del dominio. Referencia: Tjong Kim Sang y De Meulder (2003), Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition, Proceedings of CoNLL 2003, 142–147. (aclanthology.org)
Needle in a haystack: prueba que inserta uno o varios elementos identificables dentro de contextos largos y mide si el modelo puede recuperarlos. Evalúa localización y recuperación, pero no sustituye pruebas de integración, comprensión o razonamiento sobre contextos largos. Referencia: Hsieh et al. (2024), RULER: What’s the Real Context Size of Your Long-Context Language Models?, arXiv:2404.06654. (arxiv.org)
Negative sampling: técnica que entrena un modelo usando un subconjunto de ejemplos negativos seleccionados o generados, evitando evaluar todos los negativos posibles y enseñando al modelo a diferenciar pares positivos y negativos. Referencia: Mikolov et al. (2013), Distributed Representations of Words and Phrases and Their Compositionality, Advances in Neural Information Processing Systems 26, arXiv:1310.4546. (arxiv.org)
Persona prompt: instrucción que pide al modelo adoptar un rol, perspectiva, especialidad o estilo determinados. Puede modificar la forma de la respuesta, pero no confiere conocimientos, permisos o capacidades que el modelo no posea. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Prompt: entrada textual, visual, sonora o multimodal proporcionada a un modelo para comunicar una tarea, datos, contexto, restricciones o el formato esperado de la respuesta. Referencia: Sahoo et al. (2024), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv:2402.07927. (arxiv.org)
Prompt caching: mecanismo que reutiliza representaciones o cómputos asociados a prefijos repetidos entre peticiones, con el objetivo de reducir latencia o coste. Los requisitos, tiempos de conservación y garantías dependen del proveedor. Referencia técnica: Anthropic, Prompt Caching. (docs.anthropic.com)
Prompt chaining: patrón que divide una tarea en varias llamadas al modelo, utilizando la salida de una etapa como entrada, evidencia o condición de una etapa posterior. Referencia: Zhou et al. (2023), Least-to-Most Prompting Enables Complex Reasoning in Large Language Models, ICLR 2023, arXiv:2205.10625. (arxiv.org)
Prompt compression: reducción del número de tokens de un prompt mediante filtrado, extracción, resumen, reformulación o codificación aprendida, intentando conservar la información necesaria para la tarea. Referencia: Jiang et al. (2023), LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models, Proceedings of EMNLP 2023, arXiv:2310.05736. (arxiv.org)
Prompt engineering: proceso de diseñar, estructurar, probar y refinar las entradas de un modelo para obtener resultados adecuados a una tarea y a unos criterios de evaluación. Referencia: Sahoo et al. (2024), A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, arXiv:2402.07927. (arxiv.org)
Prompt leaking: vulnerabilidad o comportamiento mediante el que una aplicación revela total o parcialmente instrucciones internas, prompts de sistema u otro contexto que se pretendía mantener oculto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Prompt optimization: proceso sistemático, manual o automatizado, de buscar prompts que maximicen una métrica de evaluación sobre un conjunto de tareas o ejemplos. Referencia: Yang et al. (2023), Large Language Models as Optimizers, arXiv:2309.03409. (arxiv.org)
Prompt registry: repositorio que almacena prompts y sus metadatos, versiones, responsables, resultados de evaluación, modelos compatibles y estados de despliegue. Es una práctica operativa, no una interfaz estandarizada entre proveedores. Referencia: Balis et al. (2024), LLMOps: Definitions, Framework and Best Practices, IEEE. (ieeexplore.ieee.org)
Prompt regression: degradación medible del rendimiento de un prompt o flujo tras modificar el prompt, el modelo, la API, el contexto, las herramientas o el formato de salida. Referencia: Ma et al. (2024), (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs, arXiv:2311.11123. (arxiv.org)
Prompt template: estructura parametrizable que combina texto fijo, instrucciones y marcadores de posición para construir prompts de forma repetible a partir de variables. Referencia: White et al. (2023), A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT, arXiv:2302.11382. (arxiv.org)
Prompt versioning: práctica de identificar y conservar versiones de prompts junto con sus cambios, dependencias y resultados de evaluación para permitir comparación, auditoría y reversión. Referencia: Ma et al. (2024), (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs, arXiv:2311.11123. (arxiv.org)
Reasoning tokens: categoría de uso o contabilidad empleada por algunas APIs para representar procesamiento interno adicional anterior o intercalado con la salida visible. No implica que esos tokens formen una cadena de pensamiento textual accesible, completa o fiel. Referencia técnica: OpenAI, Reasoning Models Guide. (platform.openai.com)
Response format: configuración o especificación que define la forma esperada de la salida, como texto, JSON, JSON validado contra un esquema, código o una estructura propia de la API. Referencia técnica: OpenAI, Structured Outputs Guide. (platform.openai.com)
Role: categoría asignada a un mensaje o participante dentro de una conversación estructurada, como sistema, desarrollador, usuario, asistente o herramienta. Los roles disponibles y sus efectos dependen de la plataforma. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y niveles de autoridad. (model-spec.openai.com)
Sampling: proceso estocástico de seleccionar el siguiente token a partir de la distribución de probabilidad del modelo, posiblemente transformada mediante temperatura, top-k, top-p u otras estrategias. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Schema: descripción formal de los campos, tipos, relaciones y restricciones que debe cumplir una estructura de datos. Su lenguaje y capacidad expresiva dependen de la especificación utilizada. Referencia técnica: JSON Schema (2022), JSON Schema Draft 2020-12. (json-schema.org)
Seed: valor utilizado para inicializar un generador pseudoaleatorio. Puede favorecer la repetibilidad cuando el entorno lo admite, pero no garantiza resultados idénticos entre versiones de software, hardware, algoritmos, configuraciones o servicios distribuidos. Referencia: Pineau et al. (2021), Improving Reproducibility in Machine Learning Research, Journal of Machine Learning Research, 22(164), 1–20. (jmlr.org)
Shot: cada ejemplo demostrativo incluido en el contexto para orientar al modelo sobre una tarea, una correspondencia entrada-salida o un formato esperado. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)
Speculative decoding: familia de técnicas que acelera la generación haciendo que un modelo auxiliar o procedimiento más barato proponga varios tokens que el modelo objetivo evalúa en paralelo. Referencia: Leviathan, Kalman y Matias (2023), Fast Inference from Transformers via Speculative Decoding, Proceedings of ICML 2023, arXiv:2211.17192. (arxiv.org)
Speculative sampling: variante de generación especulativa en la que un modelo auxiliar propone tokens y el modelo objetivo los acepta o rechaza mediante un procedimiento probabilístico diseñado para conservar la distribución del modelo objetivo. Referencia: Chen et al. (2023), Accelerating Large Language Model Decoding with Speculative Sampling, arXiv:2302.01318. (arxiv.org)
Step-back prompting / query decomposition: step-back prompting formula primero una pregunta más abstracta sobre los principios relevantes; query decomposition divide una consulta en subconsultas o subtareas. Son técnicas relacionadas, pero diferentes. Referencias: Zheng et al. (2023), Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, arXiv:2310.06117; y Khot et al. (2023), Decomposed Prompting: A Modular Approach for Solving Complex Tasks, ICLR 2023, arXiv:2210.02406. (arxiv.org, arxiv.org)
Stop sequence: secuencia configurada para interrumpir la generación cuando aparece en la salida. Su inclusión en el texto devuelto, el número de secuencias permitidas y el tratamiento de coincidencias dependen de la API. Referencia técnica: OpenAI, API Reference: stop. (platform.openai.com)
Streaming: entrega progresiva de eventos o fragmentos de la respuesta mientras se genera, sin esperar a que finalice toda la operación. No implica necesariamente que cada fragmento corresponda exactamente a un token. Referencia técnica: OpenAI, Streaming API Responses. (platform.openai.com)
Structured Outputs: generación restringida o validada contra una estructura formal, como una gramática o JSON Schema. El grado de garantía depende del mecanismo utilizado; “Structured Outputs” también es un nombre de producto en algunas APIs. Referencia técnica: OpenAI, Structured Outputs Guide. (platform.openai.com)
System instruction: instrucción de alto nivel introducida por la plataforma o la aplicación para configurar el comportamiento del modelo. Su alcance, prioridad, persistencia y representación dependen del proveedor. Referencia técnica: OpenAI (2025), Model Spec, sección sobre niveles de autoridad. (model-spec.openai.com)
System prompt: conjunto de instrucciones o contexto de alto nivel proporcionado antes o junto a los mensajes del usuario para orientar el comportamiento del sistema. No todas las plataformas utilizan este nombre ni garantizan que su contenido permanezca secreto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Temperature: parámetro que divide o reescala los logits antes de calcular la distribución de muestreo. Valores menores suelen concentrar la probabilidad y valores mayores suelen distribuirla entre más candidatos; un valor bajo no garantiza determinismo. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Thinking budget: límite de tokens, tiempo, esfuerzo o cómputo asignado por una API a una fase interna de procesamiento antes de producir la respuesta visible. Es un término dependiente del proveedor y no describe una unidad universal. Referencia técnica: Anthropic, Extended Thinking. (docs.anthropic.com)
Throughput: cantidad de trabajo completado por unidad de tiempo, expresada en sistemas de inferencia mediante métricas como tokens por segundo, peticiones por segundo o secuencias completadas por segundo. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023, arXiv:2309.06180. (arxiv.org)
Token budget: límite o asignación de tokens disponible para una entrada, una salida, una etapa de razonamiento o un flujo completo. Se utiliza para controlar coste, latencia y uso de la ventana de contexto. Referencia relacionada: Snell et al. (2024), Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters, arXiv:2408.03314. (arxiv.org)
Tokenization: proceso de transformar texto u otros datos discretizables en una secuencia de unidades que el modelo representa mediante identificadores. La segmentación depende del vocabulario y del algoritmo del tokenizador. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Tokenizer: componente que segmenta una entrada, asigna identificadores a los tokens y realiza la operación inversa de decodificación. Puede incorporar normalización, tratamiento de bytes, tokens especiales y reglas de preprocesamiento. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Top-k sampling: estrategia que restringe el muestreo en cada paso a los k tokens con mayor probabilidad y renormaliza la distribución sobre ese conjunto. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
Top-p / nucleus sampling: estrategia que restringe el muestreo al conjunto más pequeño de tokens cuya probabilidad acumulada alcanza al menos el umbral p, adaptando el número de candidatos a la distribución de cada paso. Referencia: Holtzman et al. (2020), The Curious Case of Neural Text Degeneration, ICLR 2020, arXiv:1904.09751. (arxiv.org)
TPM / tokens per minute: métrica o límite operativo que expresa el número de tokens procesados dentro de una ventana temporal de un minuto. El método de cómputo y las categorías incluidas dependen de la API. Referencia técnica: OpenAI, Rate Limits Guide. (platform.openai.com)
Tree of thought: familia de métodos que representa la resolución como una búsqueda entre varios estados o continuaciones intermedias, evaluando y seleccionando ramas antes de producir una respuesta. Referencia: Yao et al. (2023), Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Advances in Neural Information Processing Systems 36, arXiv:2305.10601. (arxiv.org)
Upsampling: aumento de la representación de ejemplos pertenecientes a una clase o región minoritaria mediante repetición, ponderación, interpolación o generación sintética. Puede reducir el desbalance, pero también introducir duplicación o artefactos. Referencia: Chawla, Bowyer, Hall y Kegelmeyer (2002), SMOTE: Synthetic Minority Over-Sampling Technique, Journal of Artificial Intelligence Research, 16, 321–357. DOI: 10.1613/jair.953. (jair.org)
User prompt: mensaje o entrada atribuida al usuario que contiene su petición, información o instrucciones. Su prioridad y relación con otros mensajes dependen de la plataforma. Referencia técnica: OpenAI (2025), Model Spec, sección sobre conversaciones y niveles de autoridad. (model-spec.openai.com)
Versioning: práctica de identificar y gestionar versiones de modelos, prompts, datasets, configuraciones, evaluaciones y código para facilitar reproducibilidad, comparación, trazabilidad y reversión. Referencia: Vartak et al. (2016), ModelDB: A System for Machine Learning Model Management, Proceedings of HILDA 2016. DOI: 10.1145/2939502.2939516. (dl.acm.org)
Zero-shot classification: clasificación de ejemplos en categorías para las que no se proporcionan ejemplos demostrativos específicos durante la inferencia. El modelo puede haber aprendido conceptos, descripciones de etiquetas o tareas relacionadas durante el entrenamiento. Referencia: Yin, Hay y Roth (2019), Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach, Proceedings of EMNLP-IJCNLP 2019, 3914–3923. (aclanthology.org)
Zero-shot prompting: petición que describe una tarea sin incluir ejemplos demostrativos de entradas y salidas en el contexto. Referencia: Brown et al. (2020), Language Models Are Few-Shot Learners, Advances in Neural Information Processing Systems 33, arXiv:2005.14165. (arxiv.org)

RAG, búsqueda, embeddings y conocimiento

Recuperación de información, bases vectoriales, conocimiento externo y atribución.

ANN / Approximate Nearest Neighbor: búsqueda aproximada de vecinos cercanos en espacios vectoriales de alta dimensión mediante algoritmos o índices como HNSW, IVF o product quantization, intercambiando parte del recall por velocidad, memoria y escalabilidad. Referencia: Aumüller, Bernhardsson y Faithfull (2020), ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms, Information Systems, 87, 101374. DOI: 10.1016/j.is.2019.02.006. (arxiv.org)
Annotation: proceso de asignar etiquetas, relaciones, segmentos, explicaciones u otros metadatos a datos para su uso en entrenamiento, evaluación o búsqueda. Puede realizarse manualmente, mediante reglas o con asistencia de modelos. Referencia: Snow et al. (2008), Cheap and Fast—But Is It Good? Evaluating Non-Expert Annotations for Natural Language Tasks, Proceedings of EMNLP 2008, 254–263. (aclanthology.org)
Bi-encoder: arquitectura que codifica consulta y documento por separado para obtener representaciones comparables. Puede compartir pesos entre ambos encoders o usar encoders distintos, y permite precomputar los vectores de los documentos. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019, 3982–3992. DOI: 10.18653/v1/D19-1410. (aclanthology.org)
BM25: función de ranking léxica basada en coincidencia de términos, frecuencia en el documento, frecuencia inversa en la colección y normalización por longitud, con saturación de la frecuencia de término. Referencia: Robertson y Zaragoza (2009), The Probabilistic Relevance Framework: BM25 and Beyond, Foundations and Trends in Information Retrieval, 3(4), 333–389. DOI: 10.1561/1500000019. (nowpublishers.com)
Candidate generation: primera fase de un sistema de recuperación en varias etapas que obtiene rápidamente un conjunto amplio de candidatos, posteriormente evaluado por modelos de ranking más precisos y costosos. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Chunk: fragmento de un documento utilizado como unidad de indexación, embedding, recuperación o incorporación al contexto. Su tamaño y límites pueden definirse por tokens, estructura documental o coherencia semántica. Referencia: Gao et al. (2023), Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv:2312.10997. (arxiv.org)
Chunking: proceso de dividir documentos en unidades recuperables, equilibrando granularidad, continuidad semántica, cobertura de información y coste de contexto. Puede utilizar tamaño fijo, solapamiento, estructura documental o detección semántica de límites. Referencia: Duarte et al. (2024), LumberChunker: Long-Form Narrative Document Segmentation, Findings of EMNLP 2024. (aclanthology.org)
Citation: referencia explícita a una fuente que pretende sustentar una afirmación o fragmento de una respuesta generada. Una cita correcta debe señalar una fuente pertinente y respaldar realmente el contenido atribuido. Referencia: Gao, Yen, Yu y Chen (2023), Enabling Large Language Models to Generate Text with Citations, Proceedings of EMNLP 2023, 6465–6488. DOI: 10.18653/v1/2023.emnlp-main.398. (aclanthology.org)
Contextual retrieval: técnica que añade a cada chunk una breve descripción derivada del documento completo antes de generar su embedding y su representación léxica. Su finalidad es conservar información contextual que el fragmento aislado no expresa. Referencia técnica: Anthropic (2024), Introducing Contextual Retrieval. (anthropic.com)
Corpus: colección de documentos, pasajes u otros objetos sobre la que se construye un índice y se ejecutan consultas de recuperación. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, Cambridge University Press. (nlp.stanford.edu)
Cosine similarity: medida que compara dos vectores mediante el coseno del ángulo que forman. Es invariante a la multiplicación de un vector por un escalar positivo, por lo que compara orientación y no magnitud absoluta. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. DOI: 10.1145/361219.361220. (dl.acm.org)
Coverage: grado en que un corpus, conjunto de evaluación o sistema de recuperación incluye los documentos, casos, entidades o aspectos necesarios para la tarea. Debe definirse respecto a una población o conjunto de relevancia concreto. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulos sobre recall y evaluación. (nlp.stanford.edu)
Cross-encoder: modelo que procesa conjuntamente una consulta y un candidato para producir una puntuación de relevancia. Permite interacciones detalladas entre sus tokens, pero requiere ejecutar el modelo para cada par y no permite precomputar completamente las puntuaciones de los documentos. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Data deduplication: identificación y eliminación o agrupación de elementos duplicados y casi duplicados en datasets, índices o corpus. Puede reducir contaminación entre particiones, memorización, redundancia y coste computacional. Referencia: Lee et al. (2022), Deduplicating Training Data Makes Language Models Better, Proceedings of ACL 2022, 8424–8445. DOI: 10.18653/v1/2022.acl-long.577. (aclanthology.org)
Dense retrieval: recuperación que representa consultas y documentos mediante vectores densos aprendidos y utiliza una función de similitud para encontrar candidatos. Puede recuperar relaciones no basadas en coincidencia literal, aunque su comportamiento depende de los datos y del objetivo de entrenamiento. Referencia: Karpukhin et al. (2020), Dense Passage Retrieval for Open-Domain Question Answering, Proceedings of EMNLP 2020, 6769–6781. DOI: 10.18653/v1/2020.emnlp-main.550. (aclanthology.org)
Dense vector: vector en el que una proporción alta de sus componentes contiene valores distintos de cero. Es habitual en representaciones neuronales aprendidas, donde cada dimensión no suele corresponder directamente a una palabra o atributo interpretable. Referencia: Karpukhin et al. (2020), Dense Passage Retrieval for Open-Domain Question Answering, Proceedings of EMNLP 2020. (aclanthology.org)
Dimensionality: número de componentes de un vector. Una dimensionalidad mayor puede aumentar la capacidad representacional, pero también incrementa memoria y cómputo y no garantiza una mejor recuperación. Referencia: Johnson, Douze y Jégou (2019), Billion-Scale Similarity Search with GPUs, IEEE Transactions on Big Data, 7(3), 535–547. DOI: 10.1109/TBDATA.2019.2921572. (arxiv.org)
Document loader: componente de integración que obtiene documentos desde archivos, URLs, bases de datos o APIs y los transforma a una representación común con contenido y metadatos para su procesamiento posterior. No existe una interfaz universal para este componente. Referencia técnica: LangChain, Document loaders. (python.langchain.com)
Document retrieval: proceso de identificar, ordenar y devolver documentos considerados relevantes para una consulta dentro de un corpus indexado. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Embedding: representación vectorial aprendida de un objeto. Su geometría refleja las relaciones favorecidas por los datos, la arquitectura y el objetivo de entrenamiento; la proximidad no equivale universalmente a similitud semántica. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. DOI: 10.1109/TPAMI.2013.50. (arxiv.org)
Embedding drift: cambio en la distribución, orientación o utilidad práctica de los embeddings causado por actualizaciones del modelo, cambios en los datos o evolución del dominio. Puede invalidar índices, umbrales o comparaciones construidos con una versión anterior. Referencia relacionada: Gama et al. (2014), A Survey on Concept Drift Adaptation, ACM Computing Surveys, 46(4), artículo 44. DOI: 10.1145/2523813. (dl.acm.org)
Embedding model: modelo que transforma entradas —como texto, imágenes, audio o productos— en vectores de dimensión fija o controlada para tareas de similitud, clasificación, clustering o recuperación. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Embedding space: espacio vectorial en el que los objetos se representan como puntos. Distancias, ángulos y direcciones pueden reflejar relaciones aprendidas, pero su interpretación depende del modelo, la métrica y la región del espacio considerada. Referencia: Bengio, Courville y Vincent (2013), Representation Learning: A Review and New Perspectives, IEEE TPAMI, 35(8), 1798–1828. (arxiv.org)
Faithfulness: grado en que las afirmaciones de una respuesta están respaldadas por el contexto o las fuentes que el sistema presenta como evidencia, sin introducir información incompatible o no sustentada. Referencia: Es et al. (2023), Ragas: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217. (arxiv.org)
GraphRAG: familia de sistemas RAG que utiliza grafos de entidades, relaciones, comunidades u otras estructuras para organizar, recuperar y sintetizar información. El término abarca implementaciones diferentes y no designa una arquitectura única. Referencia: Edge et al. (2024), From Local to Global: A Graph RAG Approach to Query-Focused Summarization, arXiv:2404.16130. (arxiv.org)
Groundedness: grado en que una salida está respaldada por datos, documentos, observaciones o resultados de herramientas suministrados al modelo. Su medición requiere definir qué fuentes se consideran válidas y qué nivel de inferencia está permitido. Referencia: Es et al. (2023), Ragas: Automated Evaluation of Retrieval Augmented Generation, arXiv:2309.15217. (arxiv.org)
Grounding: proceso de conectar la generación del modelo con datos externos, documentos, observaciones o herramientas verificables que condicionan o respaldan la respuesta. El grounding reduce algunos errores factuales, pero no garantiza que el modelo interprete correctamente la evidencia. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33, 9459–9474. (arxiv.org)
HNSW / FAISS: HNSW es un algoritmo de búsqueda aproximada basado en un grafo jerárquico navegable. FAISS es una biblioteca para búsqueda y clustering vectorial que incluye índices exactos y aproximados, como IVF, HNSW y product quantization. Referencias: Malkov y Yashunin (2020), Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, IEEE TPAMI, 42(4), 824–836; y Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org, arxiv.org)
Hybrid search: combinación de recuperación léxica y recuperación vectorial, normalmente mediante fusión de puntuaciones o de rankings. Su objetivo es combinar coincidencia exacta de términos con correspondencias semánticas aprendidas. Referencia: Lin et al. (2021), Pyserini: An Easy-to-Use Python Toolkit to Support Replicable IR Research with Sparse and Dense Representations, SIGIR 2021, 2356–2362. (arxiv.org)
HyDE / Hypothetical Document Embedding: técnica de recuperación sin supervisión en la que un modelo genera uno o varios documentos hipotéticos relacionados con la consulta, se calculan sus embeddings y se utilizan para recuperar documentos reales próximos en el espacio vectorial. Referencia: Gao et al. (2023), Precise Zero-Shot Dense Retrieval without Relevance Labels, Proceedings of ACL 2023, 1762–1777. DOI: 10.18653/v1/2023.acl-long.99. (aclanthology.org)
Index: estructura de datos que organiza documentos, términos, metadatos o vectores para reducir el coste de las búsquedas. Ejemplos habituales son los índices invertidos, grafos ANN, listas invertidas vectoriales y árboles. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulos sobre índices invertidos. (nlp.stanford.edu)
Indexing pipeline: flujo que obtiene documentos, extrae contenido y metadatos, limpia y fragmenta los datos, calcula representaciones y actualiza uno o varios índices recuperables. También debe gestionar versiones, errores, borrados y actualizaciones. Referencia: Gao et al. (2023), Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv:2312.10997. (arxiv.org)
Knowledge base: repositorio de información que una aplicación puede consultar. Puede contener texto no estructurado, registros, documentos, tablas, grafos o combinaciones de estos formatos. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33. (arxiv.org)
Knowledge cutoff: fecha declarada hasta la que llega una parte sustancial de los datos utilizados para entrenar o actualizar un modelo. No implica conocimiento completo de los hechos anteriores ni ignorancia total de cualquier información posterior. Referencia: OpenAI (2023), GPT-4 Technical Report, arXiv:2303.08774. (arxiv.org)
Knowledge distillation: entrenamiento de un modelo estudiante para aproximar las distribuciones de salida, representaciones u otros comportamientos de un modelo profesor, con el objetivo habitual de reducir tamaño o coste de inferencia. Referencia: Hinton, Vinyals y Dean (2015), Distilling the Knowledge in a Neural Network, arXiv:1503.02531. (arxiv.org)
Knowledge graph: estructura que representa entidades y relaciones mediante un grafo, normalmente acompañada de identificadores, tipos, propiedades y semántica explícita o implícita. Referencia: Hogan et al. (2021), Knowledge Graphs, ACM Computing Surveys, 54(4), artículo 71. DOI: 10.1145/3447772. (arxiv.org)
KV cache / Key-Value cache: estructura que conserva los vectores key y value calculados para tokens anteriores durante la generación autoregresiva, evitando recalcularlos en cada paso. Su tamaño crece con la longitud de la secuencia, el batch y la arquitectura. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023, 611–626. (arxiv.org)
Late interaction: paradigma que codifica consulta y documento por separado a nivel de token y calcula sus interacciones durante el ranking. ColBERT agrega normalmente, para cada token de consulta, la máxima similitud obtenida con los tokens del documento. Referencia: Khattab y Zaharia (2020), ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT, Proceedings of SIGIR 2020, 39–48. DOI: 10.1145/3397271.3401075. (arxiv.org)
Long-context retrieval: estrategia que recupera unidades documentales relativamente largas o combina recuperación selectiva con modelos capaces de procesar contextos extensos. Busca conservar relaciones globales que pueden perderse al recuperar fragmentos pequeños. Referencia: Jiang, Ma y Chen (2024), LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs, arXiv:2406.15319. (arxiv.org)
Metadata filtering: restricción de una búsqueda vectorial o documental mediante condiciones sobre atributos estructurados, como fecha, autor, organización, categoría, permisos o estado. Puede aplicarse antes, durante o después de la búsqueda aproximada. Referencia: Iff, Bruegger, Chrapek, Besta y Hoefler (2025), Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors, arXiv:2507.21989. (arxiv.org)
MMR / Maximal Marginal Relevance: criterio de selección que combina relevancia respecto a la consulta y novedad respecto a los resultados ya elegidos, reduciendo redundancia mediante un parámetro que controla el equilibrio entre ambos objetivos. Referencia: Carbonell y Goldstein (1998), The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Proceedings of SIGIR 1998, 335–336. DOI: 10.1145/290941.291025. (dl.acm.org)
Multimodal embedding: representación que proyecta objetos de modalidades diferentes —como texto e imagen— a espacios alineados o comparables. La proximidad refleja las relaciones aprendidas durante el entrenamiento, no una equivalencia semántica universal. Referencia: Radford et al. (2021), Learning Transferable Visual Models From Natural Language Supervision, Proceedings of ICML 2021, PMLR 139, 8748–8763. (arxiv.org)
Multimodal RAG: variante de RAG que recupera o utiliza evidencia en varias modalidades, como texto, imágenes, tablas, audio o vídeo. Puede requerir modelos de embedding, ranking y generación capaces de alinear esas modalidades. Referencia: Abootorabi et al. (2025), Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation, arXiv:2502.08826. (arxiv.org)
Query: representación de una necesidad de información enviada a un motor de búsqueda, índice, base de datos o retriever. Puede consistir en texto, vectores, filtros, imágenes o una combinación de ellos. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Query expansion: modificación de una consulta mediante la incorporación de términos, entidades o formulaciones relacionadas para aumentar la probabilidad de recuperar documentos relevantes. Puede mejorar recall e introducir deriva respecto a la intención original. Referencia: Carpineto y Romano (2012), A Survey of Automatic Query Expansion in Information Retrieval, ACM Computing Surveys, 44(1), artículo 1. DOI: 10.1145/2071389.2071390. (dl.acm.org)
Query rewriting: reformulación de una consulta para hacerla más clara, autocontenida o compatible con un sistema de recuperación. En conversaciones suele incorporar información del historial para resolver referencias, elipsis o ambigüedades. Referencia: Elgohary, Peskov y Boyd-Graber (2019), Can You Unpack That? Learning to Rewrite Questions-in-Context, Proceedings of EMNLP-IJCNLP 2019, 5918–5924. (aclanthology.org)
RAG / Retrieval-Augmented Generation: arquitectura que recupera información desde una fuente externa y la incorpora al proceso de generación. Permite utilizar conocimiento actualizable o específico sin incorporarlo íntegramente a los parámetros, aunque no elimina las alucinaciones ni garantiza que la evidencia recuperada sea correcta. Referencia: Lewis et al. (2020), Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Advances in Neural Information Processing Systems 33, 9459–9474. (arxiv.org)
Reranker: modelo o función que recibe una lista inicial de candidatos y calcula un nuevo orden utilizando señales más detalladas que las empleadas durante la primera recuperación. Los cross-encoders son una implementación habitual. Referencia: Nogueira y Cho (2019), Passage Re-ranking with BERT, arXiv:1901.04085. (arxiv.org)
Retrieval: proceso de identificar y ordenar información potencialmente relevante para una consulta dentro de un corpus, base de datos o índice. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Retrieval latency: tiempo transcurrido desde que un sistema recibe una consulta hasta que devuelve los resultados recuperados. Puede incluir codificación de la consulta, búsqueda, filtros, fusión y reranking. Referencia: Aumüller, Bernhardsson y Faithfull (2020), ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms, Information Systems, 87, 101374. (arxiv.org)
Retrieval precision: proporción de los elementos recuperados que se consideran relevantes bajo unos juicios y una definición de relevancia determinados. Suele medirse en un punto de corte, como Precision@k. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval, capítulo sobre evaluación. (nlp.stanford.edu)
Self-RAG: método en el que el modelo aprende a decidir cuándo recuperar información y genera tokens de reflexión para evaluar la relevancia de los documentos y determinadas propiedades de su propia respuesta. Referencia: Asai et al. (2024), Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, ICLR 2024, arXiv:2310.11511. (arxiv.org)
Semantic chunking: división de un documento en fragmentos cuyos límites intentan coincidir con cambios de tema o unidades de significado, en lugar de depender únicamente de un número fijo de caracteres o tokens. Referencia: Duarte et al. (2024), LumberChunker: Long-Form Narrative Document Segmentation, Findings of EMNLP 2024. (aclanthology.org)
Semantic search: búsqueda basada en representaciones aprendidas que intenta recuperar resultados relacionados con el significado o intención de la consulta, incluso cuando no existe coincidencia literal de términos. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Sentence transformers: familia de modelos transformer ajustados para producir representaciones comparables de frases, párrafos o documentos, normalmente mediante arquitecturas siamesas y objetivos contrastivos, de ranking o similitud. Referencia: Reimers y Gurevych (2019), Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks, Proceedings of EMNLP-IJCNLP 2019. (aclanthology.org)
Similarity search: búsqueda de los elementos más próximos a una consulta según una función de similitud o distancia definida sobre sus representaciones. Puede ser exacta o aproximada. Referencia: Johnson, Douze y Jégou (2019), Billion-Scale Similarity Search with GPUs, IEEE Transactions on Big Data, 7(3), 535–547. (arxiv.org)
Soft prompt / Prefix tuning: prompt tuning aprende embeddings continuos que se concatenan a la entrada. Prefix tuning aprende prefijos continuos que condicionan distintas capas, habitualmente mediante estados key y value. Ambas son técnicas PEFT que suelen mantener congelados los parámetros base. Referencias: Lester, Al-Rfou y Constant (2021), The Power of Scale for Parameter-Efficient Prompt Tuning; y Li y Liang (2021), Prefix-Tuning: Optimizing Continuous Prompts for Generation. (arxiv.org, arxiv.org)
Source attribution: vinculación explícita de afirmaciones o fragmentos de una respuesta con las fuentes que los respaldan. Debe evaluarse tanto la corrección de cada atribución como la cobertura de las afirmaciones que requieren evidencia. Referencia: Gao, Yen, Yu y Chen (2023), Enabling Large Language Models to Generate Text with Citations, Proceedings of EMNLP 2023. (aclanthology.org)
Sparse retrieval: recuperación basada en representaciones de alta dimensionalidad con pocos componentes activos, normalmente asociados a términos o expansiones léxicas. BM25, TF-IDF y SPLADE son ejemplos con mecanismos diferentes. Referencia: Robertson y Zaragoza (2009), The Probabilistic Relevance Framework: BM25 and Beyond, Foundations and Trends in Information Retrieval, 3(4), 333–389. (nowpublishers.com)
Sparse vector: vector en el que la mayoría de componentes son cero. En recuperación léxica, las dimensiones suelen corresponder a términos de un vocabulario y los valores activos representan presencia o peso. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. (dl.acm.org)
Token: unidad discreta utilizada por un modelo o índice para representar una entrada. En modelos de lenguaje puede corresponder a una palabra, subpalabra, byte, carácter, signo o token especial, según el tokenizador. Referencia: Kudo y Richardson (2018), SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing, Proceedings of EMNLP 2018: System Demonstrations, 66–71. (aclanthology.org)
Top-k retrieval: operación que devuelve los k documentos, fragmentos o vectores con mayor puntuación según el retriever. El valor de k controla un compromiso entre cobertura, ruido, latencia y consumo de contexto. Referencia: Manning, Raghavan y Schütze (2008), Introduction to Information Retrieval. (nlp.stanford.edu)
Vector database: sistema de gestión de datos diseñado para almacenar vectores y ejecutar búsquedas de similitud, normalmente junto con identificadores, metadatos, filtros, actualizaciones y mecanismos de persistencia. Referencia: Zhang et al. (2023), VBASE: Unifying Online Vector Similarity Search and Relational Queries via Relaxed Monotonicity, Proceedings of OSDI 2023. (usenix.org)
Vector quantization: aproximación de vectores mediante un conjunto finito de códigos o centroides. Reduce memoria y coste de búsqueda a cambio de introducir error de representación. Referencia: Jégou, Douze y Schmid (2011), Product Quantization for Nearest Neighbor Search, IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(1), 117–128. DOI: 10.1109/TPAMI.2010.57. (hal.science)
Vector search: búsqueda de elementos cercanos a un vector de consulta según una función de distancia o similitud. Puede ejecutarse de forma exacta o mediante índices aproximados. Referencia: Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org)
Vector similarity: función que asigna una puntuación a la relación entre dos vectores, como producto escalar, similitud coseno o una transformación de la distancia euclídea. La elección adecuada depende del entrenamiento y de la normalización de las representaciones. Referencia: Salton, Wong y Yang (1975), A Vector Space Model for Automatic Indexing, Communications of the ACM, 18(11), 613–620. (dl.acm.org)
Vector store: componente que conserva embeddings y sus identificadores o metadatos y ofrece operaciones de inserción, actualización, eliminación y búsqueda por similitud. Puede ser una biblioteca local, un servicio o una función integrada en una base de datos. Referencia técnica: Douze et al. (2024), The Faiss Library, arXiv:2401.08281. (arxiv.org)
Web grounding: uso de búsquedas y contenidos obtenidos de la web durante la inferencia para proporcionar evidencia actual o verificable al modelo. Requiere evaluar la calidad, actualidad y seguridad de las fuentes recuperadas. Referencia: Nakano et al. (2021), WebGPT: Browser-Assisted Question-Answering with Human Feedback, arXiv:2112.09332. (arxiv.org)

Agentes, herramientas y orquestación

Sistemas que planifican, llaman herramientas y coordinan flujos.

Action: operación concreta que un agente decide ejecutar —como consultar una API, escribir un archivo o enviar un mensaje— para modificar su entorno o avanzar hacia un objetivo. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023, arXiv:2210.03629.
Agent / agente: sistema que utiliza uno o varios modelos para seleccionar y ejecutar acciones sobre herramientas o entornos con el fin de alcanzar un objetivo. Puede incluir planificación, memoria, guardrails y bucles iterativos, aunque estos componentes no son obligatorios en todas las definiciones. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models; y OpenAI, Agents SDK: Agents.
Agent loop: ciclo de ejecución en el que el sistema recibe o construye una observación, decide una acción, ejecuta una herramienta, incorpora el resultado y repite el proceso hasta obtener una salida final o alcanzar un criterio de parada. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models; y OpenAI, Agents SDK.
Agent memory: mecanismo que permite conservar y recuperar información relevante entre pasos o ejecuciones, como hechos, estado de tarea, preferencias, resultados anteriores o reflexiones. Puede mantenerse en el contexto, una sesión persistente o un almacén externo. Referencia: Shinn et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, Advances in Neural Information Processing Systems 36.
Agent trace: registro estructurado de los eventos observables de una ejecución de agente, como llamadas al modelo, herramientas, handoffs, validaciones, errores, latencias y resultados. Referencia técnica: OpenAI, Agents SDK: Tracing; y OpenTelemetry, Traces.
Agentic RAG: diseño de RAG en el que uno o varios agentes deciden dinámicamente cuándo recuperar información, qué consultas lanzar, qué fuentes utilizar, cómo evaluar los resultados y si es necesario repetir o modificar la búsqueda. Referencia: Singh et al. (2025), Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG, arXiv:2501.09136.
Agentic workflow: flujo de trabajo en el que uno o varios agentes toman decisiones intermedias sobre la descomposición de la tarea, las herramientas, la delegación o la secuencia de ejecución, dentro de unos límites definidos por la aplicación. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, arXiv:2308.08155.
Approval gate: punto de control que suspende o bloquea una acción hasta recibir una aprobación humana o una autorización explícita, especialmente antes de operaciones sensibles, externas o difíciles de revertir. Referencia técnica: OpenAI, Agents SDK Examples: Human in the Loop with Tool Approval; y MCP, Tools: User Interaction Model.
Autonomous agent: agente diseñado para ejecutar tareas con intervención humana limitada, tomando decisiones sobre estrategia, secuencia de acciones y uso de herramientas. La autonomía es gradual y depende de sus permisos, supervisión y capacidad para gestionar errores. Referencia: Xie et al. (2024), OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Advances in Neural Information Processing Systems 37.
Browser tool: herramienta que permite a un agente buscar en la web, abrir páginas, seguir enlaces, extraer información o interactuar con interfaces de navegación. Referencia: Nakano et al. (2021), WebGPT: Browser-Assisted Question-Answering with Human Feedback, arXiv:2112.09332.
Capability negotiation: intercambio de inicialización mediante el que dos componentes declaran las funciones y versiones que soportan y determinan qué características podrán utilizar durante la comunicación. Referencia técnica: Model Context Protocol (2025), Architecture y Lifecycle.
Cognitive architecture: estructura computacional que organiza capacidades como percepción, memoria, aprendizaje, razonamiento, selección de acciones y planificación, definiendo cómo se relacionan dentro de un agente. Referencia: Kotseruba y Tsotsos (2020), 40 Years of Cognitive Architectures: Core Cognitive Abilities and Practical Applications, Artificial Intelligence Review, 53, 17–94. DOI: 10.1007/s10462-018-9646-y.
Computer use: capacidad de un agente para observar y controlar interfaces gráficas, navegadores o aplicaciones mediante acciones como clics, desplazamientos, escritura, atajos de teclado y capturas de pantalla. Referencia: Xie et al. (2024), OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Advances in Neural Information Processing Systems 37.
Durable execution: modelo de ejecución en el que el estado y el historial de un workflow se persisten para que pueda recuperarse tras fallos, reinicios o periodos de inactividad sin comenzar necesariamente desde el principio. Referencia técnica: Temporal, Workflow Execution Overview.
Elicitation: mecanismo por el que un componente solicita al usuario información, selección o autorización adicional necesaria para continuar una operación. En MCP, el servidor realiza la solicitud a través del cliente, que conserva el control de la interacción y del intercambio de datos. Referencia técnica: Model Context Protocol (2025), Elicitation.
Environment: sistema externo con el que interactúa un agente y del que recibe observaciones. Puede ser una API, un sistema de archivos, un navegador, una aplicación, un simulador o un entorno físico, y determina las acciones disponibles y sus efectos. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models.
Extraction: tarea de transformar contenido no estructurado o semiestructurado en información estructurada, como entidades, relaciones, eventos, atributos, campos o tablas. Referencia: Xu et al. (2023), Large Language Models for Generative Information Extraction: A Survey, arXiv:2312.17617.
Function calling: capacidad de un modelo para producir una solicitud estructurada de invocación de una función externa, indicando su nombre y argumentos. La aplicación valida y ejecuta la función y devuelve el resultado al modelo. Referencia técnica: OpenAI, Function Calling Guide.
Function schema: definición estructurada de una función disponible para el modelo, incluyendo nombre, descripción, parámetros, tipos, campos obligatorios y restricciones. Suele expresarse mediante JSON Schema o un subconjunto compatible. Referencia técnica: OpenAI, Agents SDK: Function Schema.
Handoff: transferencia explícita de la responsabilidad de una conversación o subtarea desde un agente a otro, normalmente para utilizar una especialización, contexto o conjunto de herramientas diferente. Referencia técnica: OpenAI, Agents SDK: Handoffs.
Host: en MCP, aplicación principal con la que interactúa el usuario y que crea clientes, coordina conexiones con servidores, gestiona permisos y decide qué contexto se comparte con cada componente. Referencia técnica: Model Context Protocol (2025), Architecture.
Hosted tool: herramienta ejecutada en infraestructura administrada por una plataforma o proveedor, que controla aspectos como despliegue, aislamiento, escalado y acceso a recursos. Sus permisos y garantías dependen del servicio. Referencia técnica: OpenAI, Agents SDK: Tools and Agent Configuration.
Human review: intervención en la que una persona examina una salida, decisión, evaluación o acción del sistema antes de aceptarla, publicarla, utilizarla o ejecutarla. Referencia: Wu et al. (2022), A Survey of Human-in-the-Loop for Machine Learning, Future Generation Computer Systems, 135, 364–381.
Local tool: herramienta ejecutada dentro del entorno local o controlado por la aplicación, como un proceso, sistema de archivos, base de datos privada o servicio interno. La ejecución local no implica por sí sola que la herramienta sea segura o esté aislada. Referencia técnica: Model Context Protocol, Architecture: los servidores pueden ejecutarse como procesos locales o servicios remotos.
MCP / Model Context Protocol: protocolo abierto que estandariza la comunicación entre aplicaciones con modelos y servidores que exponen herramientas, recursos, prompts y otras capacidades. Utiliza mensajes basados en JSON-RPC y una arquitectura host-cliente-servidor. Referencia técnica: Model Context Protocol (2025), Specification y Architecture Overview.
MCP client: componente creado y gestionado por el host que establece una conexión con un servidor MCP y coordina el intercambio de solicitudes, respuestas, notificaciones y capacidades entre el servidor y la aplicación. Referencia técnica: Model Context Protocol, Understanding MCP Clients.
MCP prompt: plantilla estructurada de mensajes expuesta por un servidor MCP para que un cliente pueda descubrirla, recuperarla y completarla con argumentos. Los prompts están concebidos principalmente como elementos seleccionados por el usuario. Referencia técnica: Model Context Protocol (2025), Prompts.
MCP resource: contenido identificado mediante una URI y expuesto por un servidor MCP para que el cliente pueda leerlo e incorporarlo al contexto cuando corresponda. Puede representar archivos, esquemas, registros o datos específicos de una aplicación. Referencia técnica: Model Context Protocol (2025), Resources.
MCP server: componente que implementa MCP y expone capacidades especializadas, como herramientas ejecutables, recursos consultables o plantillas de prompts. Puede ejecutarse localmente o como servicio remoto. Referencia técnica: Model Context Protocol, Architecture.
MCP tool: operación ejecutable expuesta por un servidor MCP mediante un nombre, metadatos y un esquema de entrada. El modelo puede proponer su invocación, mientras que el cliente o la aplicación controla su autorización y ejecución efectiva. Referencia técnica: Model Context Protocol (2025), Tools.
Multi-agent system: sistema compuesto por varios agentes que interactúan, colaboran, debaten o se delegan tareas para resolver un problema. La presencia de múltiples agentes no garantiza mejores resultados y añade costes de coordinación y validación. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation, arXiv:2308.08155.
Orchestration: coordinación de agentes, modelos, herramientas, memoria, reglas y dependencias para ejecutar un proceso de extremo a extremo, incluyendo control de secuencia, concurrencia, errores y resultados. Referencia: Wu et al. (2023), AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation; y Temporal, Workflow Execution.
Orchestrator: componente que mantiene el control principal de una ejecución, asigna subtareas, invoca agentes o herramientas, gestiona dependencias y combina los resultados. También puede decidir cuándo escalar o solicitar intervención humana. Referencia técnica: OpenAI, Agents SDK: Multi-Agent Patterns.
Parallel tool calls: ejecución concurrente de varias herramientas cuando sus entradas y efectos son independientes. Puede reducir la latencia total, pero requiere gestionar errores, límites de concurrencia, orden de resultados y posibles efectos secundarios. Referencia técnica: OpenAI, Agents SDK Examples: Parallel Agent Execution.
Plan-and-execute: patrón en el que el sistema genera primero un plan o una lista de subtareas y ejecuta después sus pasos. Algunas variantes revisan o modifican el plan durante la ejecución, por lo que la separación entre planificación y acción no siempre es absoluta. Referencia: Wang et al. (2023), Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models, Proceedings of ACL 2023.
Planning: proceso de seleccionar y ordenar acciones o subtareas para avanzar desde un estado inicial hacia un objetivo, teniendo en cuenta restricciones, dependencias y observaciones obtenidas durante la ejecución. Referencia: Huang et al. (2024), Understanding the Planning of LLM Agents: A Survey, arXiv:2402.02716.
Python tool / code execution: herramienta que permite generar y ejecutar código Python en un entorno controlado para realizar cálculos, analizar datos, transformar archivos o verificar resultados. El nivel de aislamiento, acceso a red y persistencia depende de la implementación. Referencia: Haluptzok, Bowers y Kalai (2022), Language Models Can Teach Themselves to Program Better, arXiv:2207.14502.
Query planner: componente que transforma una necesidad de información en un plan de consultas u operaciones, decidiendo qué fuentes utilizar, en qué orden, con qué parámetros y cómo combinar sus resultados. Referencia: Urban y Binnig (2024), CAESURA: Language Models as Multi-Modal Query Planners, CIDR 2024.
ReAct: patrón en el que el modelo intercala pasos de razonamiento textual con acciones sobre herramientas y observaciones del entorno. La trayectoria visible no debe asumirse como una representación completa o fiel del procesamiento interno del modelo. Referencia: Yao et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR 2023, arXiv:2210.03629.
Reflection: patrón en el que el sistema revisa una respuesta, plan o trayectoria anterior y genera comentarios o cambios para una nueva ejecución. Puede detectar algunos errores, pero una evaluación producida por el propio modelo no garantiza corrección. Referencia: Shinn et al. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, Advances in Neural Information Processing Systems 36.
Remote tool: herramienta alojada fuera del proceso o entorno principal del agente y accedida mediante una conexión de red, API o protocolo. Introduce dependencias adicionales de autenticación, disponibilidad, latencia y confianza. Referencia técnica: Model Context Protocol, Architecture.
Resumable execution: capacidad de pausar, interrumpir o recuperar una ejecución y continuarla utilizando el estado y el historial persistidos, sin perder los resultados intermedios confirmados. Referencia técnica: Temporal, Workflow Execution Overview.
Roots: capacidad presente en versiones publicadas de MCP mediante la que un cliente comunica a un servidor URIs de directorios o archivos relevantes. Sirve como orientación sobre el espacio de trabajo y no constituye por sí sola un mecanismo de control de acceso. El borrador actual de MCP la marca como obsoleta y recomienda transmitir ubicaciones mediante parámetros, recursos o configuración del servidor. Referencia técnica: Model Context Protocol, Roots.
Run state: información necesaria para representar el progreso de una ejecución, como el paso actual, variables, mensajes, resultados, errores, intentos, aprobaciones pendientes y estado de las herramientas. Referencia técnica: Temporal, Workflow Execution; y OpenAI, Agents SDK: Results and Resumable State.
Sandbox agent: agente que opera dentro de un entorno aislado con acceso restringido a archivos, procesos, red, credenciales y herramientas. El aislamiento limita el impacto potencial, pero su seguridad depende de la implementación y de los permisos concedidos. Referencia técnica: OpenAI, Agents SDK: Sandbox Agent Concepts; referencia experimental: Xie et al. (2024), OSWorld.
Span: unidad que representa una operación individual dentro de una traza, como una llamada al modelo, una función, una herramienta, una validación o una petición remota. Puede contener tiempos, atributos, eventos, estado y relaciones con otros spans. Referencia técnica: OpenTelemetry, Traces y Span API.
State machine: modelo de ejecución compuesto por estados y transiciones activadas por eventos o condiciones. Permite representar workflows controlables y hacer explícitos sus estados válidos, rutas y criterios de terminación. Referencia: Mukherjee et al. (2019), Reliable State Machines: A Framework for Programming Reliable Cloud Services, arXiv:1902.09502.
Subagent: agente especializado que recibe una subtarea de un agente principal u orquestador y devuelve un resultado. Puede disponer de instrucciones, contexto, herramientas y permisos diferentes a los del agente que delega. Referencia técnica: OpenAI, Agents SDK: Agents as Tools and Handoffs.
Tool calling: capacidad de un modelo para seleccionar una herramienta y generar una solicitud estructurada con los argumentos necesarios. La aplicación conserva la responsabilidad de validar, autorizar y ejecutar la operación. Referencia: Schick et al. (2023), Toolformer: Language Models Can Teach Themselves to Use Tools, Advances in Neural Information Processing Systems 36; y OpenAI, Function Calling Guide.
Tool permissioning: conjunto de políticas que determina qué herramientas puede utilizar un agente, qué operaciones y argumentos están permitidos, qué datos pueden compartirse y qué acciones requieren aprobación. Referencia técnica: Model Context Protocol, Tools: Security and Human Control; y OpenAI, Human-in-the-Loop Tool Approval Examples.
Tool result: salida devuelta después de ejecutar una herramienta y añadida al estado o contexto para que el agente pueda interpretarla y decidir el siguiente paso. Puede contener datos, contenido multimodal, errores o referencias a recursos. Referencia técnica: Model Context Protocol, Schema Reference; y OpenAI, Function Calling Guide.
Tool result validation: comprobación de que la salida de una herramienta tiene el formato esperado, procede de la ejecución correcta, respeta las reglas de seguridad y resulta adecuada antes de utilizarla en pasos posteriores. Referencia técnica: OpenAI, Agents SDK Examples: Tool Input and Output Guardrails.
Tool schema: especificación estructurada que describe una herramienta mediante su nombre, finalidad, argumentos, tipos, restricciones y, cuando corresponde, formato de salida. El esquema ayuda al modelo a decidir cuándo y cómo solicitar su ejecución. Referencia técnica: Model Context Protocol, Tools; y OpenAI, Function Schema.
Tool selection: decisión sobre qué herramienta utilizar, cuándo invocarla y con qué argumentos a partir del objetivo, el contexto y las descripciones disponibles. Puede ser tomada por el modelo, una política externa o un orquestador. Referencia: Schick et al. (2023), Toolformer: Language Models Can Teach Themselves to Use Tools, Advances in Neural Information Processing Systems 36.
Trace: conjunto relacionado de spans y eventos que representa el recorrido observable de una ejecución a través de modelos, agentes, herramientas y servicios. Una traza operativa no debe asumirse como una exposición del razonamiento interno privado del modelo. Referencia técnica: OpenTelemetry, Traces; y OpenAI, Agents SDK: Tracing.
Voice agent: agente conversacional que recibe o produce voz. Puede implementarse mediante una cadena de reconocimiento de voz, modelo de lenguaje y síntesis de voz, o mediante modelos de habla de extremo a extremo. Referencia: Zhang et al. (2025), Recent Advances in Speech Language Models: A Survey, Proceedings of ACL 2025.
Workflow: secuencia organizada, posiblemente condicional o concurrente, de actividades, decisiones, herramientas y transformaciones destinadas a completar una tarea de extremo a extremo. Puede ser determinista o incorporar decisiones tomadas por modelos. Referencia técnica: Temporal, Workflow Execution Overview; y OpenAI, Agents SDK Examples.
Workflow state: conjunto de variables, resultados, eventos y metadatos que representa la situación acumulada de un workflow y permite determinar qué pasos pueden ejecutarse a continuación. En sistemas durables, este estado o su historial se persiste para permitir recuperación. Referencia técnica: Temporal, Workflow Execution y arquitectura de persistencia.

Evaluación, métricas y calidad

Métricas, bancos de prueba, evaluación humana y control de calidad.

Ablation study: experimento que elimina, sustituye o modifica un componente del sistema para medir su contribución al rendimiento o comportamiento final, manteniendo controladas las demás condiciones relevantes. Referencia: Meyes et al. (2019), Ablation Studies in Artificial Neural Networks, arXiv:1901.08644. (arxiv.org)
Accuracy: proporción de predicciones correctas sobre el total de predicciones. Es una métrica básica de clasificación, pero puede resultar poco informativa cuando las clases están desbalanceadas o los errores tienen costes distintos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. DOI: 10.1016/j.ipm.2009.03.002. (sciencedirect.com)
Adversarial evaluation: evaluación con ejemplos creados, seleccionados o modificados específicamente para provocar fallos, inconsistencias o comportamientos no deseados en el modelo. Referencia: Wang et al. (2022), Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models, Advances in Neural Information Processing Systems 35, arXiv:2111.02840. (arxiv.org)
Answer relevance: métrica que estima si una respuesta aborda la intención y el contenido de la pregunta, penalizando información evasiva, incompleta o no relacionada. Su implementación concreta depende del evaluador y de la rúbrica. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024: System Demonstrations, 150–158. (aclanthology.org)
Arena-style evaluation: evaluación basada en comparaciones ciegas y pareadas entre respuestas de distintos modelos, donde jueces humanos o automáticos eligen una salida, declaran empate o indican que ninguna es adecuada. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36, arXiv:2306.05685. (arxiv.org)
Benchmark: conjunto de tareas, datos, métricas y procedimientos definido para comparar sistemas bajo un protocolo común. La estandarización mejora la reproducibilidad, pero no garantiza objetividad, validez externa, representatividad ni ausencia de contaminación. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research, arXiv:2211.09110. (arxiv.org)
Benchmark contamination: presencia de ejemplos, respuestas o información equivalente del conjunto de evaluación en los datos de entrenamiento, ajuste o selección del modelo, lo que puede inflar las métricas y dificultar la medición de generalización. Referencia: Sainz et al. (2023), NLP Evaluation in Trouble: On the Need to Measure LLM Data Contamination for Each Benchmark, Findings of EMNLP 2023. (arxiv.org)
BF16 / bfloat16: formato numérico de 16 bits con ocho bits de exponente, como FP32, y una mantisa de menor precisión. Conserva un rango dinámico amplio y se utiliza para reducir memoria y acelerar entrenamiento e inferencia. Referencia: Kalamkar et al. (2019), A Study of BFLOAT16 for Deep Learning Training, arXiv:1905.12322. (arxiv.org)
Bias / sesgo: desviación sistemática introducida por los datos, el modelo, el procedimiento de medición o el contexto de uso. Puede referirse tanto a error estadístico como a diferencias perjudiciales entre grupos o perspectivas. Referencia: Mehrabi et al. (2021), A Survey on Bias and Fairness in Machine Learning, ACM Computing Surveys, 54(6), artículo 115. DOI: 10.1145/3457607. (arxiv.org)
BLEU: métrica automática de traducción que compara los n-gramas de una salida con una o varias traducciones de referencia, incorporando una penalización por brevedad. Su correlación con calidad humana depende del idioma, el dominio y el nivel de agregación. Referencia: Papineni, Roukos, Ward y Zhu (2002), BLEU: A Method for Automatic Evaluation of Machine Translation, Proceedings of ACL 2002, 311–318. DOI: 10.3115/1073083.1073135. (aclanthology.org)
Blind evaluation: evaluación en la que se oculta al evaluador la identidad, versión o procedencia del sistema que produjo cada salida, reduciendo la influencia de reputación, marca o expectativas previas. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, arXiv:2306.05685. (arxiv.org)
Calibration: correspondencia entre la confianza predictiva de un modelo y su frecuencia empírica de acierto. Entre predicciones con una confianza de 0,8, un sistema perfectamente calibrado debería acertar aproximadamente el 80 %. Referencia: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017, PMLR 70, 1321–1330. (proceedings.mlr.press)
Canary eval: prueba limitada y sensible diseñada para detectar regresiones, fugas, fallos de seguridad o comportamientos inesperados antes de ampliar un cambio a todo el sistema. Los casos canario suelen tener resultados conocidos y alertas asociadas. Referencia técnica: Beyer et al. (2018), The Site Reliability Workbook, capítulo Canarying Releases, O’Reilly y Google. (sre.google)
Chatbot Arena / LMSYS: plataforma actualmente denominada LMArena que recoge comparaciones ciegas y votos pareados entre respuestas de modelos. Sus rankings estiman preferencias agregadas mediante modelos estadísticos y no representan una medición completa de capacidad, seguridad o adecuación para un caso de uso. Referencias: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena; y LMArena, plataforma oficial. (arxiv.org, lmarena.ai)
Code execution eval: evaluación de código generado mediante su ejecución en un entorno controlado y la comprobación de tests, salidas, excepciones, propiedades o restricciones de recursos. Evalúa comportamiento funcional en lugar de coincidencia textual. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Confidence score: puntuación que pretende representar la seguridad de una predicción o decisión. Solo puede interpretarse como probabilidad de acierto cuando su significado está definido y se ha evaluado su calibración en datos representativos. Referencia: Guo, Pleiss, Sun y Weinberger (2017), On Calibration of Modern Neural Networks, Proceedings of ICML 2017. (proceedings.mlr.press)
Confusion matrix: tabla que cruza clases reales y predichas para mostrar los aciertos y errores de un clasificador. En clasificación binaria contiene verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. (sciencedirect.com)
Context relevance: métrica que estima si los documentos, fragmentos o evidencias recuperados contienen información pertinente para responder una consulta, evitando contexto innecesario o no relacionado. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
Data leakage: incorporación al entrenamiento o al desarrollo de información que no estaría legítimamente disponible en el momento de realizar una predicción real, como etiquetas, datos del futuro o elementos del conjunto de evaluación. Referencia: Kaufman, Rosset, Perlich y Stitelman (2012), Leakage in Data Mining: Formulation, Detection, and Avoidance, ACM Transactions on Knowledge Discovery from Data, 6(4), artículo 15. DOI: 10.1145/2382577.2382579. (dl.acm.org)
Error analysis: examen sistemático de los casos en los que un sistema falla para agrupar patrones de error, formular hipótesis causales y decidir qué datos, componentes o reglas deben revisarse. Referencia: Belinkov y Glass (2019), Analysis Methods in Neural Language Processing: A Survey, Transactions of the Association for Computational Linguistics, 7, 49–72. (aclanthology.org)
Eval / evaluación: experimento o conjunto de pruebas diseñado para medir una capacidad, propiedad o riesgo de un modelo o sistema bajo condiciones, datos y criterios previamente definidos. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
Eval harness: infraestructura de software que carga tareas y modelos, ejecuta inferencias, aplica métricas y almacena resultados bajo una configuración reproducible. Referencia técnica: EleutherAI, Language Model Evaluation Harness. (github.com)
Eval-driven development: metodología en la que los requisitos de comportamiento se expresan como evaluaciones repetibles y cada cambio de modelo, prompt, herramienta o código se contrasta con ellas antes de desplegarse. Referencia relacionada: Ribeiro, Wu, Guestrin y Singh (2020), Beyond Accuracy: Behavioral Testing of NLP Models with CheckList, Proceedings of ACL 2020, 4902–4912. (aclanthology.org)
Evaluation dataset: conjunto de ejemplos utilizado para medir capacidades o comportamientos bajo un protocolo definido. Puede dedicarse a desarrollo, validación, regresión, auditoría o medición final, según sus reglas de acceso y uso. Referencia: Gebru et al. (2021), Datasheets for Datasets, Communications of the ACM, 64(12), 86–92. DOI: 10.1145/3458723. (arxiv.org)
Exact match: métrica binaria que considera correcta una predicción únicamente cuando coincide exactamente con la respuesta de referencia después de aplicar una normalización definida. Puede penalizar respuestas semánticamente equivalentes con distinta forma textual. Referencia: Rajpurkar, Zhang, Lopyrev y Liang (2016), SQuAD: 100,000+ Questions for Machine Comprehension of Text, Proceedings of EMNLP 2016, 2383–2392. (aclanthology.org)
F1 score: media armónica de precision y recall. Resume ambas métricas en un único valor, pero no incorpora explícitamente los costes de los errores y puede calcularse mediante promedios macro, micro, ponderados u otras variantes. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437. (sciencedirect.com)
Factuality eval: evaluación que identifica afirmaciones verificables en una salida y estima si son verdaderas según fuentes, referencias o conocimiento externo. Debe distinguir factualidad, relevancia, completitud y fidelidad al contexto. Referencia: Min et al. (2023), FActScore: Fine-Grained Atomic Evaluation of Factual Precision in Long Form Text Generation, Proceedings of EMNLP 2023, 12076–12100. (aclanthology.org)
Faithfulness score: puntuación que estima qué proporción de las afirmaciones de una respuesta está respaldada por el contexto o las fuentes proporcionadas. Su valor depende del método utilizado para extraer y verificar afirmaciones. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
False negative: ejemplo perteneciente a la clase positiva que el sistema clasifica incorrectamente como negativo. Representa una detección omitida. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
False positive: ejemplo perteneciente a la clase negativa que el sistema clasifica incorrectamente como positivo. Representa una alarma o detección incorrecta. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
FP16 / half precision: formato binario de 16 bits con un bit de signo, cinco bits de exponente y diez bits almacenados de fracción. Ofrece mayor precisión de significando que BF16, pero un rango de exponentes menor. Referencia normativa: IEEE (2019), IEEE Standard for Floating-Point Arithmetic — IEEE 754-2019. (standards.ieee.org)
Golden traces: ejecuciones de referencia revisadas y conservadas para comparar cambios posteriores en las decisiones, herramientas, argumentos, resultados y salidas de un agente. Deben actualizarse de forma controlada cuando cambia el comportamiento esperado. Referencia técnica: OpenAI, Agents SDK: Tracing; y OpenTelemetry, Traces. (openai.github.io, opentelemetry.io)
Grounded QA eval: evaluación de preguntas y respuestas en la que se comprueba tanto la calidad de la contestación como su respaldo por documentos o fuentes concretas. Referencia: Es et al. (2024), RAGAs: Automated Evaluation of Retrieval Augmented Generation, Proceedings of EACL 2024. (aclanthology.org)
Human feedback: señal producida por personas mediante demostraciones, correcciones, puntuaciones, críticas o comparaciones de preferencias y utilizada para entrenar, ajustar o evaluar un sistema. Referencia: Christiano et al. (2017), Deep Reinforcement Learning from Human Preferences, Advances in Neural Information Processing Systems 30, arXiv:1706.03741. (arxiv.org)
HumanEval: benchmark de generación de código compuesto por problemas de programación en Python descritos mediante firmas y docstrings. Las soluciones generadas se ejecutan contra tests funcionales. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Inter-rater agreement: medida de concordancia entre evaluadores que anotan los mismos elementos, normalmente corrigiendo o contextualizando el acuerdo esperado por azar. Un acuerdo alto no demuestra por sí solo que la rúbrica sea válida. Referencia: Artstein y Poesio (2008), Inter-Coder Agreement for Computational Linguistics, Computational Linguistics, 34(4), 555–596. DOI: 10.1162/coli.07-034-R2. (aclanthology.org)
IoU / Intersection over Union: medida de solapamiento entre una región predicha y una región de referencia, calculada como el área de su intersección dividida por el área de su unión. Referencia: Everingham et al. (2010), The Pascal Visual Object Classes (VOC) Challenge, International Journal of Computer Vision, 88, 303–338. DOI: 10.1007/s11263-009-0275-4. (link.springer.com)
Jailbreak success rate: proporción de intentos adversariales que consiguen que el sistema produzca el comportamiento prohibido definido por el protocolo. El resultado depende de la calidad del conjunto de ataques y del evaluador utilizado para decidir el éxito. Referencia: Souly et al. (2024), A StrongREJECT for Empty Jailbreaks, Advances in Neural Information Processing Systems 37, arXiv:2402.10260. (arxiv.org)
Judge model / LLM-as-a-judge: modelo utilizado para puntuar, clasificar o comparar respuestas según una rúbrica. Permite ampliar la escala de evaluación, pero puede introducir sesgos de posición, estilo, longitud, identidad o semejanza con sus propias respuestas. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36. (arxiv.org)
Metric: función o procedimiento que transforma resultados y referencias en una medida cuantitativa de alguna propiedad del sistema. Una métrica solo es útil dentro de un objetivo, una población y un protocolo de medición definidos. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
MMLU / Massive Multitask Language Understanding: benchmark de preguntas de opción múltiple distribuido en 57 materias académicas y profesionales. Mide conocimiento y resolución de preguntas bajo un protocolo específico, no una capacidad general completa de razonamiento. Referencia: Hendrycks et al. (2021), Measuring Massive Multitask Language Understanding, ICLR 2021, arXiv:2009.03300. (arxiv.org)
Observability: capacidad de investigar el estado y el comportamiento de un sistema mediante señales externas como logs, métricas, trazas, eventos y alertas. En sistemas de IA también incluye prompts, versiones, costes, recuperaciones y llamadas a herramientas, bajo controles de privacidad. Referencia técnica: OpenTelemetry, Observability Primer y Signals. (opentelemetry.io)
Offline eval: evaluación ejecutada sobre datasets, simulaciones o trazas almacenadas sin alterar la experiencia de usuarios reales durante la medición. Facilita reproducibilidad, pero puede no capturar la distribución y los efectos del uso en producción. Referencia: Liang et al. (2023), Holistic Evaluation of Language Models, Transactions on Machine Learning Research. (arxiv.org)
Online eval: evaluación realizada con tráfico o interacciones reales, mediante experimentos controlados, métricas de producto, feedback o monitorización de producción. Requiere gestionar exposición, riesgos y efectos sobre usuarios. Referencia: Kohavi, Longbotham, Sommerfield y Henne (2009), Controlled Experiments on the Web: Survey and Practical Guide, Data Mining and Knowledge Discovery, 18, 140–181. (link.springer.com)
Over-refusal: rechazo de una solicitud legítima y permitida debido a una aplicación excesiva o incorrecta de las políticas de seguridad. Referencia: Röttger et al. (2024), XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models, Proceedings of NAACL 2024, 5377–5400. (aclanthology.org)
Pairwise comparison: método que presenta dos alternativas al mismo evaluador y solicita una preferencia, empate u otra relación entre ellas, en lugar de asignar puntuaciones absolutas independientes. Referencia: Bradley y Terry (1952), Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons, Biometrika, 39(3/4), 324–345. DOI: 10.2307/2334029. (jstor.org)
Pairwise preference eval: evaluación en la que dos respuestas se comparan directamente bajo una pregunta y una rúbrica comunes y un juez selecciona la preferida o declara empate. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, arXiv:2306.05685. (arxiv.org)
Pass@k: probabilidad estimada de que al menos una de k soluciones generadas para un problema supere el criterio de corrección, habitualmente tests funcionales. Su cálculo debe corregir el sesgo introducido por el muestreo de un número finito de soluciones. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
Perplexity: exponencial de la entropía cruzada media que un modelo de lenguaje asigna a una secuencia. Valores menores indican una mayor probabilidad predictiva bajo el mismo tokenizador, corpus y protocolo, pero no permiten comparar directamente configuraciones incompatibles. Referencia: Bengio, Ducharme, Vincent y Jauvin (2003), A Neural Probabilistic Language Model, Journal of Machine Learning Research, 3, 1137–1155. (jmlr.org)
Precision: proporción de predicciones positivas que son correctas, calculada como TP / (TP + FP). No equivale a la tasa de falsos positivos, cuyo denominador incluye todos los casos realmente negativos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
QA / Question Answering: tarea de producir una respuesta a una pregunta expresada en lenguaje natural, utilizando un contexto proporcionado, una colección recuperable, conocimiento paramétrico o una combinación de estas fuentes. Referencia: Rajpurkar, Zhang, Lopyrev y Liang (2016), SQuAD: 100,000+ Questions for Machine Comprehension of Text, Proceedings of EMNLP 2016. (aclanthology.org)
Recall: proporción de los ejemplos positivos reales que el sistema identifica correctamente, calculada como TP / (TP + FN). También se denomina sensibilidad en determinados ámbitos. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
Refusal precision: proporción de los rechazos emitidos por el modelo que eran apropiados según la política y la anotación de referencia. Una precisión baja indica exceso de rechazos sobre solicitudes permitidas. Referencia relacionada: Röttger et al. (2024), XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models, Proceedings of NAACL 2024. (aclanthology.org)
Refusal recall: proporción de solicitudes que debían rechazarse y para las que el sistema emitió efectivamente un rechazo adecuado. Un recall bajo indica que parte de las solicitudes prohibidas no se bloqueó. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024, arXiv:2402.04249. (arxiv.org)
Regression eval set: conjunto estable de casos y resultados esperados que se ejecuta después de cambios en el modelo, prompt, datos, herramientas o código para detectar degradaciones de comportamientos previamente aceptados. Referencia relacionada: Ribeiro et al. (2020), Beyond Accuracy: Behavioral Testing of NLP Models with CheckList, Proceedings of ACL 2020. (aclanthology.org)
Regression test: prueba que comprueba que una modificación no ha deteriorado una capacidad, requisito o comportamiento que funcionaba en una versión anterior. Referencia: Yoo y Harman (2012), Regression Testing Minimisation, Selection and Prioritisation: A Survey, Software Testing, Verification and Reliability, 22(2), 67–120. DOI: 10.1002/stvr.430. (onlinelibrary.wiley.com)
Robustness: capacidad de mantener un rendimiento aceptable ante perturbaciones, ruido, reformulaciones, cambios de distribución o ataques dentro de un ámbito definido. No existe una única medida universal de robustez. Referencia: Hendrycks y Dietterich (2019), Benchmarking Neural Network Robustness to Common Corruptions and Perturbations, ICLR 2019, arXiv:1903.12261. (arxiv.org)
ROC-AUC: área bajo la curva que relaciona la tasa de verdaderos positivos y la tasa de falsos positivos al variar el umbral. Mide capacidad de ranking binario entre clases, aunque puede ocultar un rendimiento deficiente sobre la clase minoritaria en datasets muy desbalanceados. Referencia: Fawcett (2006), An Introduction to ROC Analysis, Pattern Recognition Letters, 27(8), 861–874. DOI: 10.1016/j.patrec.2005.10.010. (sciencedirect.com)
Rubric: conjunto explícito de criterios y niveles de cumplimiento utilizado para orientar evaluaciones humanas o automáticas. Puede incluir pesos, ejemplos, condiciones de fallo y reglas para resolver empates. Referencia: Jonsson y Svingby (2007), The Use of Scoring Rubrics: Reliability, Validity and Educational Consequences, Educational Research Review, 2(2), 130–144. DOI: 10.1016/j.edurev.2007.05.002. (sciencedirect.com)
Safety eval: evaluación dirigida a medir riesgos, cumplimiento de políticas, resistencia a ataques, comportamiento ante solicitudes peligrosas y equilibrio entre rechazos correctos y utilidad sobre solicitudes legítimas. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024. (arxiv.org)
Shadow deployment: despliegue en el que una versión candidata procesa una copia del tráfico real sin controlar la respuesta entregada al usuario. Permite comparar comportamiento, latencia y errores antes de otorgarle tráfico efectivo. Referencia técnica: Google Cloud Architecture Center, MLOps: Continuous Delivery and Automation Pipelines in Machine Learning, sección sobre validación y despliegue. (cloud.google.com)
Synthetic evaluation: evaluación compuesta total o parcialmente por casos generados mediante modelos, reglas, plantillas o simuladores. Permite ampliar cobertura y crear casos raros, pero puede heredar sesgos y limitaciones del generador. Referencia: Perez et al. (2022), Red Teaming Language Models with Language Models, Proceedings of EMNLP 2022, 3419–3448. (aclanthology.org)
Task success rate: proporción de tareas que un sistema completa de extremo a extremo según criterios observables definidos previamente. La métrica debe establecer condiciones de éxito parcial, tiempo máximo, costes y número de intentos. Referencia: Liu et al. (2023), AgentBench: Evaluating LLMs as Agents, ICLR 2024, arXiv:2308.03688. (arxiv.org)
Tool-call accuracy: métrica que evalúa si el sistema selecciona la herramienta adecuada y genera una llamada estructuralmente y semánticamente correcta, con los argumentos esperados. Puede medirse mediante coincidencia de AST, ejecución o validación de resultados. Referencia: Patil et al. (2025), The Berkeley Function Calling Leaderboard: From Tool Use to Agentic Evaluation, ICLR 2025. (openreview.net)
Toxicity score: puntuación producida por un clasificador para estimar la presencia o intensidad de lenguaje considerado ofensivo, abusivo, amenazante o dañino. Su interpretación depende de las etiquetas, el dominio, el idioma y el umbral, y puede presentar sesgos entre grupos. Referencia: Borkan et al. (2019), Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification, Companion Proceedings of The Web Conference 2019, 491–500. (arxiv.org)
Training: proceso de ajustar los parámetros de un modelo utilizando datos, una función objetivo y un algoritmo de optimización. Puede incluir múltiples etapas, particiones de datos y mecanismos de regularización. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
True negative: ejemplo perteneciente a la clase negativa que el sistema clasifica correctamente como negativo. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
True positive: ejemplo perteneciente a la clase positiva que el sistema clasifica correctamente como positivo. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks. (sciencedirect.com)
Under-refusal: fallo de seguridad en el que el modelo responde de forma no permitida a una solicitud que debía rechazar, limitar o redirigir según la política aplicable. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024. (arxiv.org)
Unit-test-based evaluation: evaluación en la que código, transformaciones o herramientas se ejecutan contra tests que verifican comportamientos concretos, casos límite y condiciones de error. Superar los tests no demuestra corrección fuera de su cobertura. Referencia: Chen et al. (2021), Evaluating Large Language Models Trained on Code, arXiv:2107.03374. (arxiv.org)
WER / Word Error Rate: métrica de reconocimiento automático del habla calculada como la suma de sustituciones, eliminaciones e inserciones dividida por el número de palabras de la transcripción de referencia. Puede superar el 100 % y depende de las reglas de normalización y segmentación. Referencia: Park, Chen y Hain (2024), Automatic Speech Recognition System-Independent Word Error Rate Estimation, Proceedings of LREC-COLING 2024. (aclanthology.org)
Win rate: proporción de comparaciones pareadas en las que un sistema es declarado ganador frente a otro. Debe indicar cómo se tratan empates, abstenciones, orden de presentación, composición de prompts e incertidumbre estadística. Referencia: Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Advances in Neural Information Processing Systems 36. (arxiv.org)

Seguridad, privacidad y alineamiento

Riesgos, políticas, privacidad, cumplimiento y seguridad aplicada.

Abuse monitoring: detección y análisis continuos de patrones de uso indebido para identificar violaciones de políticas, ataques coordinados, automatización abusiva o intentos de explotar el sistema. Debe combinar señales, umbrales, investigación y procedimientos de respuesta, bajo controles de privacidad. Referencia técnica: NIST (2024), Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile — NIST AI 600-1. (nist.gov)
Access control: conjunto de mecanismos que autentica sujetos y autoriza o deniega su acceso a datos, herramientas, funciones y sistemas según políticas definidas. Puede aplicar controles por identidad, rol, atributos, contexto o recurso. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Adversarial attack: intento deliberado de modificar entradas, datos, parámetros o condiciones del sistema para provocar errores, comportamientos controlados por el atacante o evasión de mecanismos de seguridad. Referencia: Goodfellow, Shlens y Szegedy (2015), Explaining and Harnessing Adversarial Examples, ICLR 2015, arXiv:1412.6572. (arxiv.org)
AI alignment: campo que estudia cómo diseñar sistemas de IA cuyo comportamiento responda de forma fiable a objetivos, restricciones, valores e intenciones humanas, incluyendo problemas de especificación, supervisión, robustez y control. Referencia: Gabriel (2020), Artificial Intelligence, Values, and Alignment, Minds and Machines, 30, 411–437. DOI: 10.1007/s11023-020-09539-2. (link.springer.com)
AI safety: área de investigación y práctica orientada a prevenir daños causados por errores de diseño, comportamientos inesperados, vulnerabilidades, usos indebidos y efectos sociales u operativos de los sistemas de IA. Referencia: Amodei et al. (2016), Concrete Problems in AI Safety, arXiv:1606.06565. (arxiv.org)
Alignment tax: coste adicional asociado a conseguir o mantener un determinado nivel de alineación o seguridad, expresado en cómputo, desarrollo, latencia, flexibilidad o rendimiento en algunas tareas. No toda medida de alineación genera necesariamente un coste neto y el efecto depende del método y de la métrica. Referencia relacionada: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Approval step: punto de un workflow en el que la ejecución queda suspendida hasta que una persona o sistema autorizado aprueba, modifica o rechaza una acción, especialmente cuando afecta a datos, dinero, comunicaciones o recursos externos. Referencia técnica: Model Context Protocol, Tools: Human in the Loop. (modelcontextprotocol.io)
Backdoor attack: ataque que introduce durante el entrenamiento o la modificación del modelo una asociación oculta entre un trigger y un comportamiento controlado por el atacante. El modelo puede funcionar normalmente mientras el trigger no aparece. Referencia: Gu, Dolan-Gavitt y Garg (2017), BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, arXiv:1708.06733. (arxiv.org)
Canary token: valor, archivo, enlace o credencial señuelo que genera una alerta cuando es leído, utilizado o transferido, permitiendo detectar accesos no autorizados, filtraciones o exfiltración. No debe sustituir controles preventivos. Referencia técnica: Thinkst Applied Research, Canarytokens. (canarytokens.org)
Capability scoping: limitación explícita de las capacidades, datos, herramientas, operaciones y recursos disponibles para un agente según la tarea y el contexto de ejecución. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207, principio de autorización por recurso y mínimo privilegio. (nist.gov)
Constitutional AI (CAI): método de alineación desarrollado por Anthropic que utiliza una lista de principios para generar críticas y revisiones de las respuestas y para producir preferencias evaluadas por IA durante una fase posterior de reinforcement learning. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Content filter: componente que clasifica o inspecciona entradas y salidas para bloquear, transformar, limitar o enviar a revisión contenido que coincide con categorías de riesgo. Su eficacia depende de los datos, umbrales y políticas aplicadas. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Corrigibility: propiedad deseada de un agente que acepta modificaciones, correcciones, interrupciones o apagado por parte de operadores autorizados sin desarrollar incentivos para impedir, provocar o manipular esas intervenciones. Referencia: Soares, Fallenstein, Yudkowsky y Armstrong (2015), Corrigibility, AAAI Workshop on AI and Ethics. (aaai.org)
Data minimization: principio que exige limitar los datos personales tratados a aquellos que sean adecuados, pertinentes y necesarios para las finalidades declaradas. Referencia normativa: Unión Europea (2016), Reglamento (UE) 2016/679 — GDPR, artículo 5.1.c. (eur-lex.europa.eu)
Data poisoning: manipulación deliberada de datos utilizados para entrenamiento, ajuste, evaluación o recuperación con el propósito de degradar el sistema, alterar decisiones o introducir comportamientos controlados. Referencia: Biggio, Nelson y Laskov (2012), Poisoning Attacks against Support Vector Machines, Proceedings of ICML 2012. (arxiv.org)
Deceptive alignment / alineación engañosa: hipótesis de riesgo según la cual un sistema muestra durante entrenamiento o evaluación un comportamiento compatible con los objetivos de sus supervisores, mientras conserva objetivos o estrategias que podrían producir un comportamiento diferente cuando cambian las condiciones de supervisión. Referencia: Hubinger et al. (2019), Risks from Learned Optimization in Advanced Machine Learning Systems, arXiv:1906.01820. (arxiv.org)
Differential privacy: propiedad formal que limita cuánto puede cambiar la distribución de resultados de un mecanismo cuando se añade o elimina el registro de una persona. Sus garantías se expresan mediante parámetros como epsilon y delta y suelen implementarse con ruido calibrado. Referencia: Dwork, McSherry, Nissim y Smith (2006), Calibrating Noise to Sensitivity in Private Data Analysis, TCC 2006. DOI: 10.1007/11681878_14. (link.springer.com)
Egress control: restricción y monitorización de las conexiones, destinos, protocolos y volúmenes de datos que un agente, proceso o herramienta puede enviar fuera de su entorno. Ayuda a limitar exfiltración y llamadas no autorizadas. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Excessive agency: riesgo que aparece cuando un sistema basado en LLM dispone de funcionalidad, permisos, autonomía o capacidad para producir efectos que exceden lo necesario para su tarea o que carecen de controles proporcionales. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM06: Excessive Agency. (owasp.org)
Exfiltration: extracción o transmisión no autorizada de datos, secretos o información interna desde un sistema hacia un actor o destino externo. Puede producirse mediante herramientas, canales de red, respuestas del modelo o contenido recuperado malicioso. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, riesgos de prompt injection y sensitive information disclosure. (owasp.org)
Guardrail: control aplicado antes, durante o después de la ejecución para detectar, impedir, limitar o revisar comportamientos no permitidos. Puede consistir en clasificadores, reglas, validadores, permisos, aislamiento o aprobación humana. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Human approval: autorización explícita de una persona antes de que el sistema realice una acción determinada. Es especialmente relevante para operaciones de alto impacto, externas, financieras, destructivas o difíciles de revertir. Referencia técnica: Model Context Protocol, Tools: Security and User Interaction. (modelcontextprotocol.io)
Improper output handling: vulnerabilidad que aparece cuando la salida de un modelo se utiliza como código, consulta, comando, HTML, configuración o instrucción confiable sin validación, codificación o aislamiento adecuados. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM05: Improper Output Handling. (owasp.org)
Indirect prompt injection: ataque en el que las instrucciones maliciosas no proceden directamente del usuario, sino de contenido externo procesado por el modelo, como páginas web, documentos, correos o resultados de herramientas. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection, arXiv:2302.12173. (arxiv.org)
Jailbreak: entrada o estrategia diseñada para lograr que un modelo eluda restricciones de seguridad, instrucciones privilegiadas o políticas de uso y produzca un comportamiento que debería bloquear. Referencia: Zou et al. (2023), Universal and Transferable Adversarial Attacks on Aligned Language Models, arXiv:2307.15043. (arxiv.org)
Jailbreak benchmark: conjunto de ataques, solicitudes, criterios de éxito y evaluadores utilizado para medir la resistencia de un modelo o sistema ante técnicas de evasión. Debe controlar falsos positivos, cobertura y calidad del juez. Referencia: Mazeika et al. (2024), HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal, Proceedings of ICML 2024, arXiv:2402.04249. (arxiv.org)
Least privilege for agents: aplicación del principio de mínimo privilegio a agentes, concediéndoles únicamente los datos, herramientas, operaciones, credenciales y duración de acceso necesarios para la tarea actual. Referencia técnica: Rose et al. (2020), Zero Trust Architecture — NIST SP 800-207. (nist.gov)
Membership inference attack: ataque de privacidad que intenta determinar si un registro concreto formó parte del conjunto de entrenamiento de un modelo, utilizando sus predicciones, probabilidades u otras señales. Referencia: Shokri et al. (2017), Membership Inference Attacks against Machine Learning Models, IEEE Symposium on Security and Privacy. (arxiv.org)
Misinformation: información falsa, inexacta o engañosa generada, resumida o amplificada por un sistema, con independencia de que exista intención de engañar. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM09: Misinformation. (owasp.org)
Model poisoning: modificación maliciosa de pesos, adaptadores, checkpoints, configuraciones o artefactos de un modelo para degradar su funcionamiento, insertar triggers o controlar determinados resultados. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM04: Data and Model Poisoning. (owasp.org)
Moderation: proceso de detectar, clasificar y gestionar contenido según políticas de seguridad o cumplimiento, mediante acciones como permitir, bloquear, limitar, etiquetar o remitir a revisión humana. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Output validation: comprobación de que una salida cumple su esquema, restricciones semánticas, reglas de negocio y requisitos de seguridad antes de almacenarla, mostrarla o utilizarla en sistemas posteriores. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM05: Improper Output Handling. (owasp.org)
PII / Personally Identifiable Information: término utilizado principalmente en contextos estadounidenses para información que permite distinguir o rastrear la identidad de una persona, por sí sola o combinada con otra información. El concepto europeo de dato personal tiene una definición jurídica propia y no coincide exactamente con PII. Referencia técnica: McCallister, Grance y Scarfone (2010), Guide to Protecting the Confidentiality of Personally Identifiable Information — NIST SP 800-122. (nist.gov)
Policy enforcement: aplicación efectiva de reglas de acceso, seguridad, privacidad o cumplimiento mediante decisiones que permiten, bloquean, modifican o registran una operación. Puede separarse la decisión de política de su punto de ejecución. Referencia técnica: Open Policy Agent, Policy Enforcement. (openpolicyagent.org)
Policy-as-code: práctica de representar políticas como artefactos declarativos o ejecutables que pueden versionarse, revisarse, probarse, desplegarse y auditarse mediante procesos de ingeniería de software. Referencia técnica: Open Policy Agent, Policy Language and Policy as Code. (openpolicyagent.org)
Privacy-preserving ML: familia de métodos destinada a limitar la exposición de datos durante el entrenamiento o la inferencia, incluyendo privacidad diferencial, aprendizaje federado, cifrado homomórfico, computación multipartita segura y entornos de ejecución confiables. Cada técnica protege frente a modelos de amenaza diferentes. Referencia: Dwork et al. (2006), Calibrating Noise to Sensitivity in Private Data Analysis; y NIST, Privacy Framework. (nist.gov)
Prompt injection: ataque en el que una entrada intenta alterar la jerarquía o interpretación de instrucciones del sistema para desviar el modelo de la tarea prevista, revelar información o ejecutar acciones no autorizadas. Puede ser directo o indirecto. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For, arXiv:2302.12173. (arxiv.org)
Prompt injection via retrieved content: forma de indirect prompt injection en la que documentos o fragmentos incorporados por un sistema de recuperación contienen instrucciones maliciosas que el modelo puede interpretar como órdenes. Referencia: Greshake et al. (2023), Not What You’ve Signed Up For, arXiv:2302.12173. (arxiv.org)
RAG poisoning: manipulación de documentos, metadatos, índices o mecanismos de ranking de un sistema RAG para aumentar la probabilidad de recuperar contenido falso, sesgado o malicioso ante consultas objetivo. Referencia: Zou et al. (2024), PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models, arXiv:2402.07867. (arxiv.org)
Redaction: ocultación o eliminación de información sensible antes de mostrar, compartir o almacenar contenido. Puede realizarse mediante supresión, sustitución, enmascaramiento o generalización; algunas técnicas conservan la posibilidad de recuperación y otras no. Referencia técnica: Garfinkel (2015), De-Identification of Personal Information — NIST IR 8053. (nist.gov)
Refusal: respuesta mediante la que el modelo evita cumplir total o parcialmente una solicitud debido a una política, restricción de seguridad o limitación de capacidad. Un rechazo adecuado puede incluir una explicación y alternativas permitidas. Referencia: Bai et al. (2022), Constitutional AI: Harmlessness from AI Feedback, arXiv:2212.08073. (arxiv.org)
Safety classifier: modelo que asigna categorías o puntuaciones de riesgo a entradas o salidas para informar decisiones de bloqueo, limitación, alerta o revisión. Sus resultados dependen de la taxonomía, el idioma, los umbrales y la distribución de uso. Referencia: Inan et al. (2023), Llama Guard: LLM-Based Input-Output Safeguard for Human-AI Conversations, arXiv:2312.06674. (arxiv.org)
Sandbox: entorno aislado o restringido que limita los recursos, permisos y canales disponibles para código o herramientas. Puede controlar sistema de archivos, procesos, red, dispositivos, tiempo de ejecución y credenciales; el grado de aislamiento depende de su implementación. Referencia técnica: Souppaya, Morello y Scarfone (2017), Application Container Security Guide — NIST SP 800-190. (nist.gov)
Secret: dato que permite autenticar o autorizar operaciones, como contraseñas, claves privadas, API keys, tokens o credenciales temporales. Debe almacenarse y transmitirse mediante mecanismos específicos y no incorporarse innecesariamente a prompts, código o logs. Referencia técnica: OWASP, Secrets Management Cheat Sheet. (owasp.org)
Sensitive information disclosure: exposición no autorizada de datos personales, secretos, propiedad intelectual, instrucciones internas u otra información protegida a través de entradas, salidas, logs, memoria o herramientas. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM02: Sensitive Information Disclosure. (owasp.org)
Supply chain risk: riesgo introducido por componentes o proveedores externos, como modelos, datasets, librerías, contenedores, adaptadores, plugins, herramientas o servidores, cuya integridad, mantenimiento o procedencia puede estar comprometida. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM03: Supply Chain. (owasp.org)
Sycophancy / adulación: tendencia de un modelo a adaptar sus respuestas a las creencias, opiniones o preferencias expresadas por el usuario, incluso cuando hacerlo reduce la veracidad o la calidad del juicio. Referencia: Sharma et al. (2023), Towards Understanding Sycophancy in Language Models, arXiv:2310.13548. (arxiv.org)
System prompt leakage: revelación total o parcial de instrucciones, configuraciones o contexto interno que la aplicación pretendía mantener oculto. La confidencialidad no debe depender únicamente de que el modelo obedezca una instrucción de secreto. Referencia: Zhang, Carlini e Ippolito (2023), Effective Prompt Extraction from Language Models, arXiv:2307.06865. (arxiv.org)
Tool poisoning: manipulación de nombres, descripciones, esquemas, metadatos o resultados de herramientas para influir en la selección de herramientas o inducir acciones no autorizadas. Puede combinar riesgos de supply chain, prompt injection e improper output handling. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, riesgos LLM01, LLM03 y LLM05. (owasp.org)
Tool sandboxing: aislamiento de las herramientas utilizadas por un agente mediante límites de permisos, recursos, red, archivos, procesos, credenciales y duración de ejecución. Su objetivo es reducir el radio de impacto de errores o ataques. Referencia técnica: Souppaya, Morello y Scarfone (2017), Application Container Security Guide — NIST SP 800-190. (nist.gov)
Toxicity detection: clasificación automática de contenido según categorías como insulto, amenaza, odio o abuso. Sus resultados dependen de la definición de toxicidad, el contexto, el idioma y los grupos representados en los datos. Referencia: Borkan et al. (2019), Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification, The Web Conference 2019. (arxiv.org)
Unbounded consumption: consumo no controlado de cómputo, tokens, almacenamiento, llamadas, tiempo o dinero debido a entradas abusivas, recursión, bucles, explosión de tareas o ausencia de cuotas y criterios de parada. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM10: Unbounded Consumption. (owasp.org)
Vector and embedding weaknesses: riesgos asociados a representaciones e índices vectoriales, como acceso entre tenants, recuperación manipulada, filtrado insuficiente, inversión de embeddings, información sensible codificada o incompatibilidad entre versiones. Referencia técnica: OWASP (2025), Top 10 for LLM Applications, LLM08: Vector and Embedding Weaknesses. (owasp.org)
Watermarking: incorporación de una señal visible o encubierta en contenido o artefactos de modelo para apoyar detección, atribución o seguimiento. En texto generado pueden utilizarse patrones estadísticos de selección de tokens, cuya robustez depende de la longitud y de las transformaciones posteriores. Referencia: Kirchenbauer et al. (2023), A Watermark for Large Language Models, Proceedings of ICML 2023, PMLR 202. (proceedings.mlr.press)

Gobernanza, regulación y cumplimiento de IA

Conceptos normativos, organizativos y de control para desarrollar, desplegar y auditar sistemas de IA de forma responsable.

AI governance: conjunto de estructuras de decisión, políticas, responsabilidades, procesos, controles y evidencias mediante los que una organización dirige y supervisa la adquisición, desarrollo, uso y retirada de sistemas de IA. Referencia: NIST (2023), Artificial Intelligence Risk Management Framework 1.0, función GOVERN. DOI: 10.6028/NIST.AI.100-1. (nist.gov)
AI impact assessment: evaluación estructurada de los efectos previsibles de un sistema de IA sobre personas, derechos, seguridad, privacidad, equidad, operaciones y otros intereses relevantes, incluyendo medidas de mitigación y seguimiento. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 27 para la evaluación de impacto sobre derechos fundamentales en determinados sistemas de alto riesgo. (eur-lex.europa.eu)
AI inventory / model inventory: registro centralizado de sistemas y modelos de IA que documenta propietarios, finalidad, versiones, proveedores, datos, dependencias, usuarios, nivel de riesgo, evaluaciones y estado de aprobación. Referencia: NIST (2023), AI Risk Management Framework 1.0, función GOVERN. (nist.gov)
AI literacy: conocimientos, competencias y comprensión que permiten a proveedores, deployers, personal y personas afectadas utilizar sistemas de IA de forma informada, atendiendo a sus oportunidades, límites, riesgos y posibles daños. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 3.56 y 4. (eur-lex.europa.eu)
AI Management System / AIMS: sistema organizativo para establecer políticas, objetivos, procesos, responsabilidades, controles y mejora continua relacionados con el desarrollo o uso responsable de IA. Referencia normativa: ISO/IEC 42001:2023, Information technology — Artificial intelligence — Management system. (iso.org)
AI Office: Oficina Europea de Inteligencia Artificial establecida dentro de la Comisión Europea, responsable de funciones de implementación y supervisión del Reglamento de IA, con un papel específico en la aplicación de las reglas sobre modelos de propósito general. Referencia oficial: Comisión Europea, European AI Office. (digital-strategy.ec.europa.eu)
Audit trail: conjunto cronológico y verificable de registros que permite reconstruir decisiones, cambios, accesos, datos, versiones, evaluaciones, aprobaciones y operaciones relevantes de un sistema. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 12 y 19 sobre registro y conservación de logs en sistemas de alto riesgo. (eur-lex.europa.eu)
Conformity assessment: procedimiento mediante el que se demuestra que un sistema de IA cumple los requisitos aplicables antes de su introducción en el mercado o puesta en servicio. Dependiendo del sistema, puede basarse en control interno o requerir la intervención de un organismo notificado. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 43 y anexos VI y VII. (eur-lex.europa.eu)
Copyright policy: política que establece cómo una organización identifica y respeta derechos de autor y derechos conexos al obtener datos, entrenar modelos, generar contenido y distribuir sistemas o resultados. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 53.1.c; y Comisión Europea (2025), General-Purpose AI Code of Practice — Copyright Chapter. (digital-strategy.ec.europa.eu)
Deployer: según el Reglamento de IA de la UE, persona física o jurídica, autoridad pública, agencia u otro organismo que utiliza un sistema de IA bajo su autoridad, salvo cuando se utiliza en una actividad personal no profesional. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.4. (eur-lex.europa.eu)
EU AI Act / Reglamento de IA de la UE: Reglamento (UE) 2024/1689, marco jurídico europeo que establece reglas armonizadas para el desarrollo, comercialización, puesta en servicio y utilización de sistemas y modelos de IA, incluyendo prácticas prohibidas, sistemas de alto riesgo, transparencia y modelos de propósito general. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689. (eur-lex.europa.eu)
General-purpose AI Code of Practice: instrumento voluntario europeo destinado a ayudar a proveedores de modelos de propósito general a demostrar cumplimiento de las obligaciones del Reglamento de IA sobre transparencia y copyright y, para modelos con riesgo sistémico, seguridad y protección. Referencia oficial: Comisión Europea (2025), General-Purpose AI Code of Practice. (digital-strategy.ec.europa.eu)
GPAI / General-Purpose AI model: según el Reglamento de IA, modelo entrenado con una gran cantidad de datos que presenta una generalidad significativa, puede realizar competentemente una amplia gama de tareas distintas y puede integrarse en numerosos sistemas o aplicaciones posteriores. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.63. (eur-lex.europa.eu)
GPAI model with systemic risk: modelo de propósito general que presenta capacidades de alto impacto evaluadas mediante herramientas y metodologías adecuadas o que ha sido designado por la Comisión conforme a los criterios legales, quedando sujeto a obligaciones adicionales de evaluación, mitigación, notificación de incidentes y ciberseguridad. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 51, 52 y 55. (eur-lex.europa.eu)
High-risk AI system: categoría jurídica definida por los criterios del artículo 6 y los anexos I y III del Reglamento de IA, con condiciones y excepciones específicas. No comprende automáticamente cualquier sistema que una organización considere importante o peligroso. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 6 y anexos I y III. (eur-lex.europa.eu)
ISO/IEC 42001: norma internacional que especifica requisitos para establecer, implementar, mantener y mejorar continuamente un sistema de gestión de inteligencia artificial dentro de una organización. Referencia normativa: ISO/IEC 42001:2023, Information technology — Artificial intelligence — Management system. (iso.org)
NIST AI RMF: marco voluntario y no sectorial del NIST para gestionar riesgos de IA durante el ciclo de vida, organizado en las funciones GOVERN, MAP, MEASURE y MANAGE. Referencia: NIST (2023), Artificial Intelligence Risk Management Framework 1.0 — NIST AI 100-1. DOI: 10.6028/NIST.AI.100-1. (nist.gov)
Post-market monitoring: proceso documentado y continuo mediante el que el proveedor recopila y analiza información sobre el rendimiento, cumplimiento y riesgos de un sistema de IA de alto riesgo durante su vida útil después de su comercialización o puesta en servicio. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 72. (eur-lex.europa.eu)
Provider: según el Reglamento de IA de la UE, persona física o jurídica, autoridad pública, agencia u otro organismo que desarrolla o encarga desarrollar un sistema o modelo de IA y lo comercializa o pone en servicio bajo su propio nombre o marca. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 3.3. (eur-lex.europa.eu)
Risk register: registro mantenido y actualizado de riesgos identificados, causas, consecuencias, probabilidad, severidad, controles, responsables, plazos, estado de mitigación y evidencias. Referencia normativa: ISO 31000:2018, Risk Management — Guidelines. (iso.org)
Technical documentation: documentación que describe el diseño, arquitectura, finalidad, versiones, datos, entrenamiento, evaluación, rendimiento, riesgos, controles y funcionamiento de un sistema o modelo con el nivel requerido para demostrar cumplimiento y permitir su evaluación. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículo 11, anexo IV y artículo 53 para modelos GPAI. (eur-lex.europa.eu)
Training content summary: resumen público suficientemente detallado del contenido utilizado para entrenar un modelo de propósito general, que sus proveedores deben preparar y publicar conforme a la plantilla facilitada por la Oficina de IA. Referencia oficial: Comisión Europea (2025, actualizada en 2026), Explanatory Notice and Template for the Public Summary of Training Content for General-Purpose AI Models. (digital-strategy.ec.europa.eu)
Transparency obligation: requisito jurídico de proporcionar determinada información sobre la naturaleza, funcionamiento, uso, limitaciones o contenido generado por un sistema de IA a usuarios, deployers, autoridades, integradores u otras partes. Su alcance depende del actor y de la categoría regulatoria. Referencia normativa: Unión Europea (2024), Reglamento (UE) 2024/1689, artículos 13, 50 y 53. (eur-lex.europa.eu)

Multimodalidad, visión, audio y voz

Modelos y tareas con imagen, audio, voz, vídeo y texto.

Audio model: modelo especializado en procesar o generar señales de audio, incluyendo transcripción, síntesis, clasificación, transformación o separación de fuentes. Referencia: Borsos et al. (2023), AudioLM: A Language Modeling Approach to Audio Generation, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2523–2533. (arxiv.org)
Audio tokens: unidades discretas o representaciones continuas utilizadas para codificar señales de audio dentro de modelos generativos o multimodales. Pueden representar propiedades acústicas, semánticas o ambas. Referencia: Borsos et al. (2023), AudioLM: A Language Modeling Approach to Audio Generation. (arxiv.org)
Bounding box grounding: capacidad de asociar expresiones lingüísticas o respuestas con regiones concretas de una imagen mediante cajas delimitadoras. Referencia: Kamath et al. (2021), MDETR—Modulated Detection for End-to-End Multi-Modal Understanding, Proceedings of ICCV 2021, 1780–1790. (arxiv.org)
Chart understanding: capacidad de interpretar gráficos, ejes, escalas, leyendas, tendencias y valores visuales para responder preguntas o extraer información estructurada. Referencia: Masry et al. (2022), ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning, Findings of ACL 2022, 2263–2279. (arxiv.org)
CLIP / Contrastive Language-Image Pretraining: modelo de OpenAI entrenado con pares de imagen y texto mediante aprendizaje contrastivo, que aprende representaciones comparables para ambas modalidades. Se utiliza en clasificación zero-shot, recuperación multimodal y como encoder visual. Referencia: Radford et al. (2021), Learning Transferable Visual Models From Natural Language Supervision, Proceedings of ICML 2021, PMLR 139, 8748–8763. (arxiv.org)
CNN / Convolutional Neural Network: red neuronal que aplica filtros convolucionales compartidos para explotar patrones locales y estructura espacial. Ha sido una arquitectura central en visión por computador, aunque actualmente convive con transformers y modelos híbridos. Referencia: LeCun, Bottou, Bengio y Haffner (1998), Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11), 2278–2324. DOI: 10.1109/5.726791. (ieeexplore.ieee.org)
Computer vision: área de IA dedicada a extraer, representar y utilizar información procedente de imágenes y vídeo para tareas de reconocimiento, medición, generación e interacción. Referencia: LeCun, Bengio y Hinton (2015), Deep Learning, Nature, 521, 436–444. DOI: 10.1038/nature14539. (nature.com)
Diffusion model: modelo generativo que aprende a invertir un proceso progresivo de perturbación. Muchas implementaciones añaden ruido gaussiano y aprenden una trayectoria de eliminación de ruido, aunque existen formulaciones discretas y procesos alternativos. Referencia: Ho, Jain y Abbeel (2020), Denoising Diffusion Probabilistic Models, Advances in Neural Information Processing Systems 33. (arxiv.org)
Document AI: conjunto de técnicas para procesar documentos combinando reconocimiento de texto, estructura visual, tablas, clasificación, extracción de información y razonamiento. Referencia: Huang et al. (2022), LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, Proceedings of ACM Multimedia 2022. (arxiv.org)
Document understanding: capacidad de analizar conjuntamente el texto, la estructura, las imágenes, las tablas y el diseño visual de un documento para extraer significado o responder preguntas. Referencia: Kim et al. (2022), OCR-Free Document Understanding Transformer, Proceedings of ECCV 2022. (arxiv.org)
Frame sampling: selección de un subconjunto de fotogramas de un vídeo para reducir el coste computacional conservando información temporal relevante. Puede realizarse de forma uniforme, segmentada, adaptativa o basada en eventos. Referencia: Wang et al. (2016), Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, Proceedings of ECCV 2016. (arxiv.org)
Generative AI / IA generativa: categoría de sistemas que producen texto, imágenes, audio, vídeo, código u otros datos a partir de patrones aprendidos. Que una salida sea nueva no implica originalidad jurídica ni ausencia de similitud con datos existentes. Referencia: Feuerriegel et al. (2024), Generative AI, Business & Information Systems Engineering, 66, 111–126. DOI: 10.1007/s12599-023-00834-7. (link.springer.com)
Image captioning: tarea de generar automáticamente una descripción textual del contenido de una imagen, integrando representación visual y generación lingüística. Referencia: Vinyals et al. (2015), Show and Tell: A Neural Image Caption Generator, Proceedings of CVPR 2015. (arxiv.org)
Image generation: creación de imágenes mediante modelos generativos a partir de texto, imágenes de referencia, mapas, máscaras, poses u otras condiciones. Referencia: Ramesh et al. (2021), Zero-Shot Text-to-Image Generation, Proceedings of ICML 2021. (arxiv.org)
Image segmentation: tarea que asigna etiquetas a píxeles o regiones de una imagen. Puede distinguir categorías semánticas, instancias individuales o regiones sin una taxonomía fija. Referencia: Long, Shelhamer y Darrell (2015), Fully Convolutional Networks for Semantic Segmentation, Proceedings of CVPR 2015. (arxiv.org)
Image-to-video: generación de una secuencia de vídeo condicionada por una imagen inicial, una imagen de referencia o varios fotogramas, añadiendo movimiento y evolución temporal. Referencia: Blattmann et al. (2023), Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets, arXiv:2311.15127. (arxiv.org)
Latent diffusion: variante de difusión que realiza el proceso generativo en una representación comprimida producida por un autoencoder, reduciendo el coste frente a operar directamente sobre píxeles. Referencia: Rombach et al. (2022), High-Resolution Image Synthesis with Latent Diffusion Models, Proceedings of CVPR 2022. (arxiv.org)
Layout-aware model: modelo que incorpora la posición, dimensiones y estructura visual de los elementos, además de su contenido textual, para comprender documentos o interfaces. Referencia: Xu et al. (2020), LayoutLM: Pre-training of Text and Layout for Document Image Understanding, Proceedings of KDD 2020. (arxiv.org)
Multimodal AI: sistema capaz de procesar, relacionar o generar información perteneciente a varias modalidades, como texto, imagen, audio, vídeo, sensores o acciones. Referencia: Baltrušaitis, Ahuja y Morency (2019), Multimodal Machine Learning: A Survey and Taxonomy, IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2), 423–443. (arxiv.org)
Native multimodal model: modelo diseñado y entrenado para representar varias modalidades de forma conjunta o estrechamente integrada, en lugar de limitarse a conectar módulos independientes durante el despliegue. Referencia: Gemini Team et al. (2023), Gemini: A Family of Highly Capable Multimodal Models, arXiv:2312.11805. (arxiv.org)
Object detection: tarea de identificar y localizar objetos dentro de una imagen, normalmente mediante categorías, cajas delimitadoras y puntuaciones de confianza. Referencia: Ren et al. (2015), Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems 28. (arxiv.org)
OCR / Optical Character Recognition: conversión automática de texto presente en imágenes o documentos escaneados a caracteres y estructuras legibles por máquina. Referencia: Smith (2007), An Overview of the Tesseract OCR Engine, Proceedings of ICDAR 2007. DOI: 10.1109/ICDAR.2007.4376991. (ieeexplore.ieee.org)
Omni model: denominación de producto o categoría informal para modelos capaces de recibir y producir varias modalidades —como texto, imagen y audio— mediante una interacción integrada. No existe una definición técnica universal de “omni”. Referencia técnica: OpenAI (2024), GPT-4o System Card. (openai.com)
Pseudo-labeling: técnica semisupervisada en la que las predicciones de un modelo sobre datos sin etiquetar se utilizan como etiquetas provisionales para continuar el entrenamiento. Referencia: Lee (2013), Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks, ICML Workshop on Challenges in Representation Learning. (deeplearning.net)
Speech-to-speech: transformación de habla de entrada en habla de salida, con posibles etapas internas de reconocimiento, traducción, razonamiento, generación o síntesis. Referencia: Barrault et al. (2023), SeamlessM4T—Massively Multilingual & Multimodal Machine Translation, arXiv:2308.11596. (arxiv.org)
Speech-to-text / STT: conversión automática de señales de habla a una transcripción textual, también denominada reconocimiento automático del habla o ASR. Referencia: Radford et al. (2022), Robust Speech Recognition via Large-Scale Weak Supervision, arXiv:2212.04356. (arxiv.org)
Table extraction: detección y reconstrucción de la estructura de tablas presentes en PDFs, imágenes o documentos, incluyendo filas, columnas, celdas y contenido. Referencia: Smock, Pesala y Abraham (2022), PubTables-1M: Towards Comprehensive Table Extraction from Unstructured Documents, Proceedings of CVPR 2022. (arxiv.org)
Temporal grounding: capacidad de localizar una expresión, evento o respuesta en un instante o intervalo concreto de un vídeo o una grabación de audio. Referencia: Gao et al. (2017), TALL: Temporal Activity Localization via Language Query, Proceedings of ICCV 2017. (arxiv.org)
Text-to-image: generación de imágenes condicionada por una descripción textual, mediante modelos de difusión, transformers autoregresivos u otras arquitecturas generativas. Referencia: Rombach et al. (2022), High-Resolution Image Synthesis with Latent Diffusion Models, Proceedings of CVPR 2022. (arxiv.org)
Text-to-speech / TTS: síntesis de una señal de habla a partir de texto, incluyendo pronunciación, duración, prosodia, entonación y características de voz. Referencia: Shen et al. (2018), Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions, Proceedings of ICASSP 2018. (arxiv.org)
Text-to-video: generación de secuencias de vídeo condicionadas por una descripción textual y, según el sistema, parámetros de duración, movimiento, cámara o estilo. Referencia: Singer et al. (2022), Make-A-Video: Text-to-Video Generation without Text-Video Data, arXiv:2209.14792. (arxiv.org)
Video generation: creación o transformación de vídeo mediante modelos generativos condicionados por texto, imágenes, vídeo, audio u otras señales. Referencia: Kondratyuk et al. (2023), VideoPoet: A Large Language Model for Zero-Shot Video Generation, arXiv:2312.14125. (arxiv.org)
Video understanding: capacidad de interpretar objetos, acciones, escenas, diálogos, sonidos y relaciones temporales presentes en un vídeo. Referencia: Sun et al. (2019), VideoBERT: A Joint Model for Video and Language Representation Learning, Proceedings of ICCV 2019. (arxiv.org)
Vision tokens: representaciones discretas o continuas de patches, regiones o características visuales que un transformer o modelo multimodal procesa como una secuencia. Referencia: Dosovitskiy et al. (2021), An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale, ICLR 2021. (arxiv.org)
Vision-language model / VLM: modelo que relaciona contenido visual y lenguaje para realizar tareas como descripción, recuperación, preguntas y respuestas, grounding o generación condicionada. Puede combinar componentes separados o utilizar una arquitectura más integrada. Referencia: Alayrac et al. (2022), Flamingo: A Visual Language Model for Few-Shot Learning, Advances in Neural Information Processing Systems 35. (arxiv.org)
Visual grounding: asociación entre palabras, expresiones, respuestas o instrucciones y regiones o elementos concretos de una imagen, documento o vídeo. Referencia: Kamath et al. (2021), MDETR—Modulated Detection for End-to-End Multi-Modal Understanding, Proceedings of ICCV 2021. (arxiv.org)
VQA / Visual Question Answering: tarea de responder preguntas en lenguaje natural sobre una imagen, combinando interpretación visual, comprensión lingüística y, en ciertos casos, razonamiento externo. Referencia: Antol et al. (2015), VQA: Visual Question Answering, Proceedings of ICCV 2015. (arxiv.org)

Producción, inferencia e infraestructura

Serving, despliegue, hardware, costes, latencia y operación.

API inference: uso de un modelo alojado en infraestructura remota mediante una API para obtener predicciones o respuestas sin gestionar directamente el hardware y el runtime de inferencia. Referencia técnica: NVIDIA, Triton Inference Server Documentation. (docs.nvidia.com)
Autoscaling: ajuste automático del número de réplicas o de los recursos asignados a un servicio en respuesta a métricas como utilización, concurrencia, longitud de cola o latencia. Referencia técnica: Kubernetes, Autoscaling Workloads. (kubernetes.io)
Autoscaling policy: configuración que define las métricas objetivo, límites, velocidad y condiciones mediante las que un sistema aumenta o reduce réplicas o capacidad. Referencia técnica: Kubernetes, Horizontal Pod Autoscaling. (kubernetes.io)
Batch API: modalidad de API que recibe conjuntos de peticiones para procesarlos de forma asíncrona dentro de una ventana temporal, normalmente con menor prioridad o coste que el tráfico interactivo. Referencia técnica: OpenAI, Batch API. (platform.openai.com)
Batch inference: ejecución conjunta de varias entradas en una operación del modelo para aumentar la utilización del hardware y reducir el coste medio por predicción. Referencia: Crankshaw et al. (2017), Clipper: A Low-Latency Online Prediction Serving System, Proceedings of NSDI 2017. (arxiv.org)
Cache hit rate: proporción de solicitudes que pueden satisfacerse total o parcialmente utilizando datos ya presentes en una caché. Debe indicarse qué nivel se mide, como respuestas, prefijos, prompts o bloques de KV cache. Referencias técnicas: OpenAI, Prompt Caching; y vLLM, Automatic Prefix Caching. (platform.openai.com, docs.vllm.ai)
Capacity planning: estimación de los recursos necesarios para atender una carga esperada considerando demanda, picos, concurrencia, modelos, longitud de secuencias, latencia objetivo, tolerancia a fallos y margen operativo. Referencia técnica: Beyer et al. (2016), Site Reliability Engineering, Google, capítulos sobre planificación y gestión de capacidad. (sre.google)
Cold start: latencia adicional que aparece cuando una instancia debe iniciarse, preparar su runtime o cargar pesos y artefactos antes de atender una petición. Referencia: Wang et al. (2018), Peeking Behind the Curtains of Serverless Platforms, Proceedings of USENIX ATC 2018. (usenix.org)
Continuous batching: técnica de serving que incorpora y retira solicitudes de un batch a medida que avanzan o terminan, evitando esperar a que todas las secuencias de un batch estático finalicen. Referencia: Yu et al. (2022), Orca: A Distributed Serving System for Transformer-Based Generative Models, Proceedings of OSDI 2022. (usenix.org)
Decode phase: fase posterior al prefill en la que el modelo genera nuevos tokens de manera autoregresiva reutilizando el estado acumulado en la KV cache. Referencia: Zhong et al. (2024), DistServe: Disaggregating Prefill and Decoding for Goodput-Optimized Large Language Model Serving, Proceedings of OSDI 2024. (arxiv.org)
Deployment: proceso de integrar y poner en funcionamiento un modelo o sistema en un entorno operativo, incluyendo empaquetado, configuración, pruebas, permisos, observabilidad y procedimientos de actualización o reversión. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems, Advances in Neural Information Processing Systems 28. (proceedings.neurips.cc)
Distilled reasoning model: modelo de menor tamaño entrenado con soluciones, distribuciones o trazas producidas por un modelo de razonamiento más capaz, con el objetivo de transferir parte de su comportamiento reduciendo coste y latencia. Referencia: DeepSeek-AI et al. (2025), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948. (arxiv.org)
Edge AI: ejecución de modelos y procesamiento inteligente cerca de la fuente de datos o del usuario, como móviles, gateways, vehículos o hardware industrial. Referencia: Zhou et al. (2019), Edge Intelligence: Paving the Last Mile of Artificial Intelligence with Edge Computing, Proceedings of the IEEE, 107(8), 1738–1762. (arxiv.org)
End-to-end latency: tiempo total entre el inicio de una petición y la finalización de la respuesta, incluyendo red, colas, recuperación, herramientas, inferencia, streaming y postprocesado. Referencia: Zhong et al. (2024), DistServe: Disaggregating Prefill and Decoding for Goodput-Optimized Large Language Model Serving. (arxiv.org)
Endpoint: operación accesible de una API, normalmente identificada por una ruta, un método, parámetros, autenticación y esquemas de solicitud y respuesta. Referencia técnica: OpenAPI Initiative, OpenAPI Specification. (spec.openapis.org)
FlashAttention: algoritmo exacto de atención que reorganiza el cálculo en bloques para reducir lecturas y escrituras entre la memoria HBM y la memoria rápida del procesador, disminuyendo uso de memoria y tiempo de ejecución. Referencia: Dao et al. (2022), FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Advances in Neural Information Processing Systems 35. (arxiv.org)
Flex processing: modalidad de OpenAI que procesa peticiones con prioridad reducida y disponibilidad de capacidad más variable a cambio de un coste inferior. Está orientada a cargas que toleran mayor latencia y posibles indisponibilidades temporales. Referencia técnica: OpenAI, Flex Processing. (platform.openai.com)
GPU: procesador altamente paralelo diseñado originalmente para gráficos y utilizado en IA por su capacidad para ejecutar operaciones matriciales y vectoriales de gran volumen. Referencia técnica: NVIDIA, CUDA C++ Programming Guide. (docs.nvidia.com)
H100, A100, TPU: H100 y A100 son familias de GPU de centros de datos de NVIDIA; TPU es una familia de circuitos especializados de Google para cargas de aprendizaje automático. Sus arquitecturas, formatos numéricos y perfiles de uso difieren entre generaciones. Referencias técnicas: NVIDIA, H100 Tensor Core GPU y A100 Tensor Core GPU; Google Cloud, TPU Architecture. (nvidia.com, nvidia.com, cloud.google.com)
Inference latency: tiempo necesario para procesar una petición de inferencia. En generación puede separarse en tiempo hasta el primer token, tiempo entre tokens y tiempo total de finalización. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
Inference optimization: conjunto de técnicas destinadas a reducir memoria, coste o latencia durante inferencia, como cuantización, batching, cachés, compilación, poda, paralelismo y decodificación especulativa. Referencias: Gholami et al. (2021), A Survey of Quantization Methods for Efficient Neural Network Inference; y Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org, arxiv.org)
Inference server: software que carga modelos, recibe peticiones, programa su ejecución y gestiona capacidades como batching, concurrencia, versionado, métricas y protocolos de acceso. Referencia técnica: NVIDIA, Triton Inference Server. (docs.nvidia.com)
KV cache eviction: política que selecciona qué estados almacenados en la KV cache se eliminan o comprimen cuando existe presión de memoria. Puede basarse en antigüedad, posición, atención estimada o importancia del token. Referencia: Zhang et al. (2023), H₂O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models, Advances in Neural Information Processing Systems 36. (arxiv.org)
KV cache quantization: reducción de la precisión numérica utilizada para almacenar keys y values durante generación, disminuyendo memoria y aumentando potencialmente la concurrencia a cambio de error de cuantización. Referencia: Liu et al. (2024), KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache, Proceedings of ICML 2024. (arxiv.org)
Latency: tiempo transcurrido entre una petición y un evento de respuesta definido, como inicio de procesamiento, primer token o respuesta completa. La métrica debe indicar el punto inicial, el punto final y el percentil utilizado. Referencia: Dean y Barroso (2013), The Tail at Scale, Communications of the ACM, 56(2), 74–80. DOI: 10.1145/2408776.2408794. (research.google)
Load balancing: distribución de peticiones entre varias instancias o dispositivos para evitar sobrecargas, mejorar utilización y mantener disponibilidad y latencia. Referencia técnica: Kubernetes, Service and Load Balancing. (kubernetes.io)
Model compression: familia de técnicas que reduce el tamaño, memoria o coste de un modelo mediante cuantización, poda, destilación, compartición de pesos o factorización. Referencia: Han, Mao y Dally (2016), Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLR 2016. (arxiv.org)
Model registry: repositorio que gestiona versiones de modelos y sus metadatos, artefactos, evaluaciones, estados de aprobación y relaciones con despliegues. Referencia: Zaharia et al. (2018), Accelerating the Machine Learning Lifecycle with MLflow, IEEE Data Engineering Bulletin, 41(4). (cs.stanford.edu)
Monitoring: recopilación y análisis continuos de métricas, logs, eventos y alertas para detectar errores, degradaciones, cambios de distribución, problemas de capacidad o costes anómalos. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems. (proceedings.neurips.cc)
NPU / Neural Processing Unit: acelerador especializado en operaciones utilizadas por redes neuronales, como multiplicaciones matriciales y convoluciones, habitual en dispositivos móviles, ordenadores y sistemas edge. Referencia: Sze et al. (2017), Efficient Processing of Deep Neural Networks: A Tutorial and Survey, Proceedings of the IEEE, 105(12), 2295–2329. (arxiv.org)
On-device inference: ejecución del modelo en el dispositivo del usuario o en hardware local. Puede reducir latencia y transferencia de datos, aunque no excluye telemetría, actualizaciones o servicios auxiliares remotos. Referencia: Lane et al. (2016), DeepX: A Software Accelerator for Low-Power Deep Learning Inference on Mobile Devices, Proceedings of IPSN 2016. (arxiv.org)
ONNX: formato abierto para representar grafos, operadores, parámetros y tipos de modelos de machine learning, facilitando la interoperabilidad entre frameworks, runtimes y hardware. Referencia técnica: Open Neural Network Exchange, ONNX Documentation. (onnx.ai)
Output parser: componente que interpreta la salida de un modelo y la convierte en una estructura utilizada por la aplicación, como un objeto validado, una lista, un tipo de dominio o una llamada a una función. Referencia técnica: LangChain, Structured Output. (docs.langchain.com)
PagedAttention: técnica que divide la KV cache en bloques almacenables en regiones de memoria no contiguas, reduciendo fragmentación y permitiendo compartir o asignar memoria de forma flexible entre secuencias. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023. (arxiv.org)
Pipeline: secuencia conectada de pasos que transforma datos o ejecuta una operación completa, como ingestión, recuperación, inferencia, validación y entrega. Referencia: Sculley et al. (2015), Hidden Technical Debt in Machine Learning Systems. (proceedings.neurips.cc)
Pipeline parallelism: distribución de grupos consecutivos de capas entre dispositivos, procesando microbatches en una canalización para mantener ocupadas varias etapas. Referencia: Huang et al. (2019), GPipe: Efficient Training of Giant Neural Networks Using Pipeline Parallelism, Advances in Neural Information Processing Systems 32. (arxiv.org)
Prefill: fase inicial de inferencia en la que el modelo procesa los tokens de entrada, calcula sus representaciones y construye la KV cache antes de generar tokens nuevos. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
Prefix cache: caché que conserva estados de KV correspondientes a prefijos ya procesados para reutilizarlos cuando nuevas peticiones comparten esos mismos tokens iniciales. Referencia técnica: vLLM, Automatic Prefix Caching. (docs.vllm.ai)
Priority processing: modalidad de servicio que asigna mayor prioridad de programación a determinadas peticiones para reducir tiempos de cola y ofrecer una latencia más consistente bajo carga. Las condiciones dependen del proveedor. Referencia técnica: OpenAI, Priority Processing. (platform.openai.com)
Prompt cache hit: reutilización de un prefijo de entrada previamente procesado que coincide con el comienzo de una nueva petición, reduciendo el cálculo necesario para esa parte del prompt. Referencia técnica: OpenAI, Prompt Caching. (platform.openai.com)
Pruning: técnica que elimina pesos, unidades, canales, cabezas o capas considerados poco importantes para reducir tamaño o cómputo. El ahorro real depende de que el hardware y el runtime aprovechen la estructura resultante. Referencia: Han et al. (2015), Learning Both Weights and Connections for Efficient Neural Networks, Advances in Neural Information Processing Systems 28. (arxiv.org)
Quantization: aproximación de pesos, activaciones o estados mediante representaciones de menor precisión. Puede reducir memoria y acelerar operaciones compatibles, con un impacto que depende del método, el modelo y el hardware. Referencia: Gholami et al. (2021), A Survey of Quantization Methods for Efficient Neural Network Inference, arXiv:2103.13630. (arxiv.org)
Queue time: intervalo durante el que una petición permanece pendiente antes de que comiencen los recursos de procesamiento que necesita. Puede estar provocado por límites de capacidad, prioridades o políticas de batching. Referencia: Dean y Barroso (2013), The Tail at Scale. (research.google)
Rate limit: restricción sobre el número de peticiones, tokens, operaciones o recursos que un cliente puede consumir durante una ventana temporal. Referencia técnica: Nottingham y Fielding (2012), RFC 6585: Additional HTTP Status Codes, sección 4, 429 Too Many Requests. (rfc-editor.org)
Reasoning effort: parámetro disponible en determinadas APIs que controla el nivel de procesamiento interno dedicado por un modelo de razonamiento. Los valores admitidos y su efecto sobre calidad, coste y latencia dependen del modelo. Referencia técnica: OpenAI, Reasoning Models and Model Guidance. (platform.openai.com)
Serverless inference: inferencia ofrecida mediante una plataforma que gestiona el aprovisionamiento, escalado y ejecución de la infraestructura. El escalado a cero, los cold starts y el modelo de facturación dependen del servicio. Referencia: Jonas et al. (2019), Cloud Programming Simplified: A Berkeley View on Serverless Computing, arXiv:1812.03651. (arxiv.org)
Serving: operación de exponer uno o varios modelos para recibir peticiones de inferencia, programarlas, ejecutarlas y devolver resultados bajo requisitos de disponibilidad, latencia y capacidad. Referencia: Crankshaw et al. (2017), Clipper: A Low-Latency Online Prediction Serving System. (arxiv.org)
Serving replica: instancia de un servicio de inferencia capaz de procesar tráfico. Varias réplicas permiten distribuir carga, desplegar actualizaciones graduales y tolerar ciertos fallos. Referencia técnica: Kubernetes, Deployments. (kubernetes.io)
Small language model / SLM: modelo de lenguaje relativamente compacto, diseñado para reducir memoria, latencia y coste o para ejecutarse localmente. No existe un umbral universal de parámetros que separe SLM y LLM. Referencia: Abdin et al. (2024), Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, arXiv:2404.14219. (arxiv.org)
Tensor parallelism: distribución de tensores y operaciones de una misma capa entre varios dispositivos, dividiendo matrices y combinando resultados mediante comunicaciones colectivas. Referencia: Shoeybi et al. (2019), Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv:1909.08053. (arxiv.org)
TensorRT-LLM: toolkit de NVIDIA para construir y ejecutar motores de inferencia optimizados para LLM en GPU, con kernels especializados, cuantización, batching, caché paginada y soporte distribuido. Referencia técnica: NVIDIA, TensorRT-LLM Documentation. (docs.nvidia.com)
Throughput per GPU: volumen de tokens, peticiones o secuencias completadas por una GPU durante una unidad de tiempo bajo una carga, modelo, hardware y objetivo de latencia determinados. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org)
Tokens per second: cantidad de tokens procesados o generados por segundo. Debe indicarse si mide una petición individual, el total del servidor, prefill, decode o ambas fases. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention. (arxiv.org)
Tool latency: tiempo añadido por una llamada a una herramienta, incluyendo programación, autenticación, red, ejecución, transferencia del resultado y validación. Referencia técnica: OpenTelemetry, Distributed Traces. (opentelemetry.io)
TPOT / Time per Output Token: tiempo medio o distribución del intervalo necesario para producir tokens después del primero durante la fase de decode. Debe especificarse cómo se agregan los intervalos y percentiles. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
TTFT / Time to First Token: tiempo desde el envío de una petición hasta la recepción del primer token o fragmento de contenido. Incluye normalmente cola, procesamiento del prompt y parte de la comunicación. Referencia: Zhong et al. (2024), DistServe. (arxiv.org)
vLLM: motor abierto de serving para modelos de lenguaje que introdujo PagedAttention y ofrece mecanismos como continuous batching, prefix caching, paralelismo y APIs de inferencia. Referencia: Kwon et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention, Proceedings of SOSP 2023. (arxiv.org)

Interpretabilidad mecánica

Técnicas para entender los mecanismos internos de los modelos de lenguaje.

Activation patching / causal tracing: intervención que reemplaza activaciones de una ejecución por las de otra y mide el cambio en una salida, con el fin de localizar componentes causalmente relevantes bajo ese experimento. Los resultados dependen de la métrica, la corrupción y el tipo de activación intervenida. Referencia: Zhang y Nanda (2023), Towards Best Practices of Activation Patching in Language Models: Metrics and Methods, arXiv:2309.16042.
Activation steering: modificación dirigida de activaciones internas durante la inferencia para influir en el comportamiento, estilo, seguridad o contenido generado, sin actualizar necesariamente los pesos del modelo. Referencia: Turner et al. (2023), Steering Language Models with Activation Engineering, arXiv:2308.10248.
Attention pattern: matriz de pesos de atención producida por una cabeza y una entrada concretas. Describe cómo se distribuyen esos pesos, pero no demuestra por sí sola influencia causal, importancia explicativa ni dependencia necesaria de cada token. Referencias: Jain y Wallace (2019), Attention Is Not Explanation; y Wiegreffe y Pinter (2019), Attention Is Not Not Explanation.
Attribution patching: aproximación de activation patching que utiliza gradientes y una expansión local para estimar la influencia de numerosos componentes con menos ejecuciones completas del modelo. Al ser una aproximación lineal, puede perder interacciones no lineales. Referencia: Syed et al. (2023), Attribution Patching Outperforms Automated Circuit Discovery, arXiv:2310.10348.
Causal intervention: manipulación controlada de entradas, activaciones, componentes o pesos para medir cómo cambia una salida manteniendo constantes otras partes del sistema. La interpretación causal depende del diseño de la intervención y de los mediadores elegidos. Referencia: Vig et al. (2020), Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias, NeurIPS 2020, arXiv:2004.12265.
Circuit: conjunto de features y operaciones conectadas que contribuye a implementar un comportamiento o cálculo identificable dentro de una red. Los límites de un circuito dependen del nivel de abstracción y del método de localización utilizado. Referencia: Olah et al. (2020), Zoom In: An Introduction to Circuits, Distill.
Feature interna: dirección, patrón o variable latente en las activaciones que responde a una propiedad de los datos o del comportamiento del modelo. Una feature puede estar distribuida entre varias neuronas y no tiene por qué poseer una interpretación única. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Feature steering: intervención que amplifica, reduce o modifica una feature identificada para observar o controlar su efecto sobre la generación. Su eficacia no demuestra que la feature constituya por sí sola el mecanismo completo del comportamiento. Referencia: Templeton et al. (2024), Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.
Latent feature: característica representada internamente en las activaciones o en una descomposición aprendida de estas, sin aparecer como una variable observada directamente en la entrada. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Linear probing / probing: técnica que entrena un predictor sencillo sobre representaciones internas para medir si cierta información puede decodificarse. Que una propiedad sea decodificable no demuestra que el modelo la utilice causalmente para producir su salida. Referencia: Alain y Bengio (2016), Understanding Intermediate Layers Using Linear Classifier Probes, arXiv:1610.01644.
Logit lens: técnica que aplica la proyección final al vocabulario sobre activaciones intermedias para inspeccionar las distribuciones de tokens que aparecen durante el procesamiento por capas. Puede producir resultados sesgados por el desajuste entre capas intermedias y la representación final. Referencia: Belrose et al. (2023), Eliciting Latent Predictions from Transformers with the Tuned Lens, arXiv:2303.08112.
Mechanistic interpretability: subcampo que intenta reconstruir los cálculos, representaciones y circuitos implementados dentro de una red para describir cómo produce determinados comportamientos. Las explicaciones obtenidas suelen ser parciales y específicas de tareas, prompts y modelos. Referencia: A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models (2024), arXiv:2407.02646.
Monosemanticity: propiedad aproximada por la que una neurona o feature responde de forma relativamente específica y coherente a un concepto o patrón. Depende del método de extracción, la distribución analizada y el umbral de interpretación. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Polysemanticity: fenómeno por el que una misma neurona o dirección de activación responde a varias propiedades aparentemente diferentes, debido entre otros factores a representaciones superpuestas. Referencia: Elhage et al. (2022), Toy Models of Superposition.
Refusal vector: dirección o subespacio de activación relacionado con comportamientos de rechazo en un modelo concreto. Puede utilizarse para analizar o modificar esos comportamientos, pero no debe asumirse que todos los tipos de rechazo se reduzcan universalmente a una única dirección. Referencias: Arditi et al. (2024), Refusal in Language Models Is Mediated by a Single Direction; y Joad et al. (2026), There Is More to Refusal in Large Language Models than a Single Direction.
Representation engineering: conjunto de técnicas que estudia y modifica representaciones internas de alto nivel para monitorizar o controlar propiedades del comportamiento del modelo. Utiliza como unidad principal de análisis patrones poblacionales en las activaciones. Referencia: Zou et al. (2023), Representation Engineering: A Top-Down Approach to AI Transparency, arXiv:2310.01405.
Sparse autoencoder / SAE: autoencoder entrenado sobre activaciones con una penalización o restricción de dispersión para aprender un diccionario de features. Puede separar parte de las representaciones superpuestas, pero no garantiza features completas, causales o perfectamente monosémicas. Referencia: Bricken et al. (2023), Towards Monosemanticity: Decomposing Language Models with Dictionary Learning.
Steering vector: vector que se añade, resta o escala dentro de las activaciones para desplazar la generación hacia una propiedad o comportamiento. Puede construirse mediante diferencias entre activaciones, probes u otros métodos de representación. Referencia: Turner et al. (2023), Steering Language Models with Activation Engineering, arXiv:2308.10248.
Superposition: fenómeno por el que una red representa más features que dimensiones disponibles utilizando direcciones no ortogonales y parcialmente solapadas. Esta estrategia resulta especialmente viable cuando las features se activan de forma dispersa. Referencia: Elhage et al. (2022), Toy Models of Superposition.

Tareas y métodos clásicos

Tareas de ML/NLP y algoritmos clásicos no limitados a LLMs.

Algorithm: procedimiento definido mediante reglas o pasos para transformar entradas, modificar un estado o resolver una clase de problemas. Puede ser determinista, aleatorio, interactivo o parcial, y no necesariamente termina para todas las entradas. Referencia: Gurevich (2000), Sequential Abstract-State Machines Capture Sequential Algorithms, ACM Transactions on Computational Logic, 1(1), 77–111.
Anomaly detection: identificación de observaciones, eventos o patrones que se desvían significativamente de un comportamiento o distribución considerados normales, utilizada en fraude, fallos, calidad e intrusiones. Referencia: Chandola, Banerjee y Kumar (2009), Anomaly Detection: A Survey, ACM Computing Surveys, 41(3), artículo 15.
Artificial General Intelligence / AGI: concepto sin una definición técnica universal para sistemas capaces de adaptarse y actuar competentemente en una amplia variedad de tareas y entornos. Las propuestas difieren en el nivel humano de referencia, las tareas incluidas y la importancia asignada al aprendizaje, la autonomía o la transferencia. Referencia: Xu (2024), What Is Meant by AGI? On the Definition of Artificial General Intelligence, arXiv:2404.10731.
Binary classification: tarea de asignar cada ejemplo a una de dos categorías mutuamente excluyentes, normalmente representadas como positiva y negativa. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks, Information Processing & Management, 45(4), 427–437.
Classification: tarea de asignar una o varias categorías discretas a una entrada a partir de sus características. Puede ser binaria, multiclase, multietiqueta o jerárquica. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Classifier: modelo o regla de decisión que asigna etiquetas de clase o puntuaciones asociadas a ellas a partir de una entrada. Las puntuaciones no tienen por qué constituir probabilidades calibradas. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Clustering: agrupación de observaciones en conjuntos basados en una noción de similitud, densidad o estructura sin disponer necesariamente de etiquetas de clase previas. Los grupos obtenidos dependen del algoritmo, la representación y la métrica. Referencia: Jain, Murty y Flynn (1999), Data Clustering: A Review, ACM Computing Surveys, 31(3), 264–323.
Confabulation: término utilizado por algunos autores para describir contenido falso o no sustentado que un modelo presenta de manera plausible. No existe consenso en que sea un término técnico preferible a hallucination o alucinación. Referencia: Ji et al. (2023), Survey of Hallucination in Natural Language Generation, ACM Computing Surveys, 55(12).
Generative model: modelo que representa, aproxima o permite muestrear una distribución de datos, de forma condicionada o no condicionada. Las muestras generadas no tienen por qué corresponder de manera simple a ejemplos individuales del entrenamiento. Referencia: Goodfellow et al. (2014), Generative Adversarial Nets, Advances in Neural Information Processing Systems 27.
Heuristic: regla, estrategia o aproximación práctica que reduce el espacio de búsqueda o el coste de resolver un problema, sin garantizar una solución óptima, exacta o correcta en todos los casos. Referencia: Newell y Simon (1958), Heuristic Problem Solving: The Next Advance in Operations Research, Operations Research, 6(1), 1–10.
Inference: aplicación de un modelo entrenado a nuevas entradas para producir predicciones, puntuaciones, representaciones o respuestas sin ejecutar el proceso ordinario de actualización de sus parámetros. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
Intent classification: tarea de asignar a un mensaje una categoría que representa el propósito operativo del usuario, utilizada para dirigir diálogos, herramientas o flujos. Debe contemplar ambigüedad e intenciones fuera del catálogo. Referencia: Arora, Jain y Merugu (2024), Intent Detection in the Age of LLMs, Proceedings of EMNLP 2024: Industry Track.
k-means: algoritmo que alterna entre asignar cada observación al centroide más cercano y recalcular los k centroides, buscando reducir la suma de distancias cuadráticas dentro de los grupos. Puede converger a soluciones locales y depende de la inicialización. Referencia: MacQueen (1967), Some Methods for Classification and Analysis of Multivariate Observations, Proceedings of the Fifth Berkeley Symposium.
k-nearest neighbors / k-NN: método no paramétrico que predice una etiqueta o valor utilizando los k ejemplos más próximos según una métrica definida. También puede utilizarse para recuperación y detección de anomalías. Referencia: Cover y Hart (1967), Nearest Neighbor Pattern Classification, IEEE Transactions on Information Theory, 13(1), 21–27.
Machine learning / ML: subcampo de la IA y la estadística computacional que estudia sistemas cuyo rendimiento o comportamiento puede mejorar mediante datos, experiencia y optimización, sin especificar manualmente todas las reglas necesarias. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
MLOps: conjunto de prácticas, procesos, funciones y herramientas para desarrollar, versionar, desplegar, monitorizar y mantener productos de machine learning de forma repetible y fiable. Referencia: Kreuzberger, Kühl y Hirschl (2023), Machine Learning Operations (MLOps): Overview, Definition, and Architecture, IEEE Access, 11, 31866–31879.
Model collapse: degradación de la diversidad, fidelidad o cobertura que puede producirse cuando generaciones sucesivas de modelos se entrenan indiscriminadamente sobre datos producidos por modelos anteriores. No es una consecuencia inevitable de cualquier uso de datos sintéticos. Referencia: Shumailov et al. (2024), AI Models Collapse When Trained on Recursively Generated Data, Nature, 631, 755–759.
Multiclass classification: tarea de asignar cada ejemplo a una de más de dos categorías mutuamente excluyentes. No debe confundirse con la clasificación multietiqueta, donde varias categorías pueden ser correctas simultáneamente. Referencia: Sokolova y Lapalme (2009), A Systematic Analysis of Performance Measures for Classification Tasks.
Natural language processing / NLP: área que desarrolla métodos computacionales para representar, analizar, comprender o generar lenguaje humano escrito o hablado. Referencia: Cambria y White (2014), Jumping NLP Curves: A Review of Natural Language Processing Research, IEEE Computational Intelligence Magazine, 9(2), 48–57.
Out-of-distribution / OOD: entrada cuya distribución difiere de la utilizada para entrenar o validar el modelo bajo el protocolo considerado. La pertenencia a OOD depende de qué distribución y qué tipo de cambio se definan como referencia. Referencia: Hendrycks y Gimpel (2017), A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks, ICLR 2017.
Overfitting: ajuste excesivo a particularidades del conjunto de entrenamiento o del procedimiento de selección que produce una peor generalización a datos nuevos. Puede incluir memorización, pero no se limita a memorizar ruido. Referencia: Geman, Bienenstock y Doursat (1992), Neural Networks and the Bias/Variance Dilemma, Neural Computation, 4(1), 1–58.
Ranking: tarea de ordenar candidatos según una puntuación de relevancia, calidad, utilidad o preferencia respecto a una consulta o usuario. La evaluación suele centrarse en el orden relativo y en las primeras posiciones. Referencia: Burges (2010), From RankNet to LambdaRank to LambdaMART: An Overview, Microsoft Research Technical Report MSR-TR-2010-82.
Recommendation system: sistema que estima y ordena elementos potencialmente relevantes para un usuario utilizando señales como interacciones históricas, contenido, contexto o similitud entre usuarios y elementos. Referencia: Koren, Bell y Volinsky (2009), Matrix Factorization Techniques for Recommender Systems, Computer, 42(8), 30–37.
Red teaming: proceso adversarial sistemático en el que personas, modelos o herramientas intentan descubrir fallos, vulnerabilidades, usos abusivos y comportamientos no deseados antes o durante el despliegue. Referencia: Perez et al. (2022), Red Teaming Language Models with Language Models, Proceedings of EMNLP 2022, 3419–3448.
Regression: tarea supervisada en la que el objetivo principal es predecir uno o varios valores numéricos, distribuciones o funciones continuas a partir de variables de entrada. Referencia: Jordan y Mitchell (2015), Machine Learning: Trends, Perspectives, and Prospects, Science, 349(6245), 255–260.
Self-consistency: estrategia de decodificación que genera varias trayectorias de razonamiento o respuestas y selecciona la respuesta agregada más consistente, normalmente mediante voto. Su eficacia requiere diversidad útil y una respuesta final que pueda agregarse. Referencia: Wang et al. (2023), Self-Consistency Improves Chain of Thought Reasoning in Language Models, ICLR 2023, arXiv:2203.11171.
Sentiment analysis: tarea de identificar opiniones, valoraciones o actitudes expresadas en texto, mediante categorías como positivo, negativo y neutro o mediante dimensiones más detalladas. Referencia: Pang, Lee y Vaithyanathan (2002), Thumbs Up? Sentiment Classification Using Machine Learning Techniques, Proceedings of EMNLP 2002, 79–86.
Text classification: tarea de asignar una o varias categorías predefinidas a documentos, mensajes o fragmentos de texto a partir de su contenido y otros atributos. Referencia: Sebastiani (2002), Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34(1), 1–47.
Underfitting: incapacidad del modelo o del proceso de entrenamiento para capturar regularidades relevantes de los datos, produciendo un rendimiento insuficiente incluso sobre los datos utilizados para ajustar el sistema. Referencia: Geman, Bienenstock y Doursat (1992), Neural Networks and the Bias/Variance Dilemma, Neural Computation, 4(1), 1–58.

Glosario de términos IA

Glosario de inteligencia artificial

Índice de áreas

Fundamentos de IA, ML y aprendizaje

Modelos, arquitecturas y componentes internos

Entrenamiento, adaptación y optimización

Datos, datasets y preparación

LLMs, prompts, contexto y generación

RAG, búsqueda, embeddings y conocimiento

Agentes, herramientas y orquestación

Evaluación, métricas y calidad

Seguridad, privacidad y alineamiento

Gobernanza, regulación y cumplimiento de IA

Multimodalidad, visión, audio y voz

Producción, inferencia e infraestructura

Interpretabilidad mecánica

Tareas y métodos clásicos

Glosario de términos IA

Glosario de inteligencia artificial

Índice de áreas

Fundamentos de IA, ML y aprendizaje

Modelos, arquitecturas y componentes internos

Entrenamiento, adaptación y optimización

Datos, datasets y preparación

LLMs, prompts, contexto y generación

RAG, búsqueda, embeddings y conocimiento

Agentes, herramientas y orquestación

Evaluación, métricas y calidad

Seguridad, privacidad y alineamiento

Gobernanza, regulación y cumplimiento de IA

Multimodalidad, visión, audio y voz

Producción, inferencia e infraestructura

Interpretabilidad mecánica

Tareas y métodos clásicos