Emergencia y Leyes de Escala
¿Por qué los modelos suficientemente grandes desarrollan capacidades inesperadas? De la termodinámica a GPT-4: fenómenos emergentes, leyes de potencias, entrenamiento compute-óptimo y el futuro del escalado en deep learning.
¿Qué es la emergencia?
En ciencia, llamamos emergencia a la aparición de propiedades o comportamientos complejos en un sistema que no están presentes en sus componentes individuales. Una sola neurona artificial no "entiende" nada; pero miles de millones de ellas, organizadas y entrenadas con suficientes datos, pueden exhibir capacidades que nunca fueron programadas explícitamente: traducir idiomas, razonar sobre lógica, escribir código.
Definición (Anderson, 1972): "More is different." — La emergencia describe la aparición de propiedades cualitativamente nuevas cuando un sistema alcanza cierto umbral de escala o complejidad. Estas propiedades no se deducen simplemente de las reglas de sus componentes.
En el contexto de deep learning, la emergencia se manifiesta de forma concreta: un modelo de lenguaje entrenado con 1B de parámetros no sabe hacer aritmética de tres dígitos, pero uno de 100B sí. Un modelo de visión pequeño reconoce bordes; uno masivo desarrolla detectores de conceptos abstractos (objetos, emociones, estilos artísticos) sin que nadie le enseñe qué son.
Emergencia débil vs fuerte
| Tipo | Descripción | Ejemplo en DL |
|---|---|---|
| Emergencia débil | La propiedad es en principio deducible de los componentes, pero su aparición es sorprendente o difícil de anticipar. | Una CNN aprende detectores de bordes en la primera capa y de caras en las profundas. |
| Emergencia fuerte | La propiedad es fundamentalmente nueva y parece irreducible a las reglas locales. | GPT-3 resuelve analogías verbales complejas, pese a ser entrenado solo para predecir la siguiente palabra. |
¿Por qué importa? Si los fenómenos emergentes son reales, entonces simplemente escalar modelos (más parámetros, más datos, más cómputo) podría desbloquear capacidades completamente nuevas. Esto tiene implicaciones enormes para el diseño de modelos, la asignación de recursos y la seguridad de la IA.
En la práctica, la emergencia conecta con preguntas muy concretas para quien desarrolla modelos: ¿merece la pena invertir en un modelo más grande, o la ganancia será marginal? ¿Pueden predecirse las capacidades de un modelo a partir de versiones más pequeñas? Y para la sociedad en general: ¿cómo regulamos sistemas cuyas capacidades no podemos anticipar? Estas preguntas motivan el estudio riguroso tanto de la emergencia como de las leyes de escala que exploraremos a lo largo de este módulo. Antes de sumergirnos en los datos empíricos, conviene situar el fenómeno en su contexto histórico.
Historia: de la termodinámica al deep learning
La idea de que "el todo es más que la suma de las partes" es antigua, pero su formalización científica tiene hitos concretos que conectan física, biología, complejidad y, finalmente, inteligencia artificial.
Este recorrido muestra que la emergencia no es una idea nueva ni exclusiva del deep learning; es un principio que aparece en física estadística, biología y sistemas complejos. Lo que ha cambiado en la última década es que, por primera vez, podemos observar y cuantificar estas transiciones dentro de modelos computacionales, lo que nos permite formular leyes matemáticas precisas sobre su comportamiento. A continuación exploraremos los marcos teóricos que explican por qué aparece la emergencia en redes neuronales.
Fundamentos teóricos de la emergencia
¿Por qué un sistema de componentes simples (neuronas artificiales con pesos y activaciones) puede exhibir comportamientos cualitativamente nuevos al escalar? Existen varias perspectivas teóricas complementarias.
Transiciones de fase y umbrales
En física, una transición de fase es un cambio abrupto en las propiedades de un sistema al variar un parámetro continuo (temperatura, presión). El agua pasa de líquido a gas a 100°C: no hay un "medio gas". Varios investigadores han trazado analogías directas con redes neuronales:
En la teoría de percolación, cuando la fracción de conexiones activas p supera un umbral crítico p_c, aparece un cluster conectado que abarca todo el sistema. La analogía en redes neuronales: cuando el número de parámetros/datos supera cierto umbral, el modelo "percola" hacia una representación coherente del concepto.
La hipótesis del modelo del mundo
Li et al. (2023, arXiv:2210.13382) demostraron que un Transformer entrenado para predecir movimientos legales del juego Othello desarrolla internamente un modelo del tablero — una representación del estado del juego que nunca fue proporcionada explícitamente. Esto sugiere que las redes suficientemente grandes no solo memorizan correlaciones superficiales, sino que construyen modelos del mundo como estrategia óptima de compresión.
Intuición clave: Predecir la siguiente palabra con máxima precisión requiere entender gramática, semántica, lógica, hechos del mundo e incluso teoría de la mente. A medida que el modelo escala, la presión del objetivo de entrenamiento lo fuerza a desarrollar representaciones cada vez más ricas — y estas representaciones son las "capacidades emergentes" que observamos.
La conexión entre predicción, compresión y modelos del mundo no es solo filosófica. Trabajos de mechanistic interpretability — como los de Neel Nanda sobre induction heads (arXiv:2209.11895) — han identificado circuitos concretos dentro de los Transformers que implementan algoritmos específicos (p.ej., copiar secuencias o completar patrones). Estos circuitos aparecen de forma abrupta durante el entrenamiento, reforzando la hipótesis de que las capacidades emergen cuando el modelo desarrolla los "circuitos" internos adecuados. Esta perspectiva mecanicista será clave para resolver el debate sobre si la emergencia es genuina o un artefacto (sección El debate de los mirajes).
Doble descenso y grokking
Dos fenómenos relacionados con la emergencia que han sorprendido a la comunidad:
El doble descenso (Nakkiran et al., 2019, arXiv:1912.02292) muestra que, al aumentar el tamaño del modelo más allá del punto de interpolación (donde tiene capacidad exacta para memorizar el training set), el error de test vuelve a bajar. Esto contradice la sabiduría clásica de bias-variance y sugiere que los modelos sobreparametrizados operan en un régimen diferente donde la complejidad excesiva ayuda.
Grokking (Power et al., 2022, arXiv:2201.02177) es un fenómeno donde un modelo memoriza los datos de entrenamiento rápidamente (train loss → 0) pero tarda órdenes de magnitud más de entrenamiento en generalizar al test set. El modelo parece "entender" de repente, mucho después de haber memorizado.
La hipótesis dominante es que el modelo necesita tiempo extra para reorganizar sus representaciones internas desde la memorización (circuitos complicados, sobreajustados) hacia una solución generalizable (circuitos simples, basados en la estructura real del problema). Es una forma de emergencia temporal: la capacidad aparece abruptamente tras un período de aparente estancamiento.
Tanto el doble descenso como el grokking sugieren algo profundo: las redes neuronales no aprenden de forma monótona y predecible. Existen fases de reorganización interna — períodos en los que el modelo parece estancado externamente, pero sus representaciones se reestructuran de forma radical. Estas fases recuerdan a las transiciones de fase de la física y refuerzan la hipótesis de que la emergencia en redes neuronales comparte la misma mecánica fundamental: cambios abruptos cuando se cruza un umbral crítico (ya sea de tamaño, datos o tiempo de entrenamiento). Esto conecta naturalmente con la pregunta de si la emergencia se puede entender como una forma de compresión óptima.
¿Compresión como inteligencia?
Una perspectiva unificadora viene de la teoría de la información. Según la conjetura de Hutter (2005), la inteligencia es fundamentalmente compresión: un agente que comprime mejor sus observaciones necesita modelos más precisos del mundo, y por tanto puede hacer mejores predicciones. Escalar modelos les da más capacidad de compresión, lo que fuerza representaciones más ricas.
El modelo que mejor comprime los datos de entrenamiento es aquel que ha capturado la estructura subyacente real. A medida que los modelos escalan, pueden encontrar compresiones más sofisticadas — y esas compresiones son las "capacidades emergentes".
Emergencia en CNNs: jerarquías de características
Antes de que los LLMs acaparasen la atención, la comunidad de visión por computador ya observaba fenómenos emergentes fascinantes en redes convolucionales. La emergencia en CNNs se manifiesta como una jerarquía progresiva de representaciones que el modelo construye sin supervisión directa sobre qué características aprender.
La jerarquía de features aprendidas
Zeiler y Fergus (2013, arXiv:1311.1901) mostraron mediante técnicas de visualización que las capas de una CNN desarrollan una jerarquía clara de representaciones:
Bordes, esquinas
Texturas, patrones
Partes de objetos
Objetos completos
Lo notable es que nadie le dice a la red qué buscar en cada capa. La presión del gradiente y la arquitectura convolucional fuerzan a la red a organizar sus representaciones de forma jerárquica. Esto es emergencia débil: sorprendente, pero deducible de la estructura del problema y la arquitectura.
En uno de los experimentos más célebres de la era pre-deep learning moderna, Le et al. (2012) entrenaron una red profunda con mil millones de conexiones sobre 10 millones de frames extraídos de vídeos de YouTube, usando un autoencoder no supervisado.
Sin ninguna etiqueta, una neurona en las capas superiores se especializó en detectar caras de gatos. Otras neuronas se especializaron en caras humanas y partes del cuerpo. Esto fue una demostración temprana y viral de que las redes profundas pueden desarrollar detectores de conceptos semánticos de alto nivel a partir de datos no etiquetados, simplemente por la presión de comprimir y reconstruir los datos.
📄 Le, Q.V., Ranzato, M., et al. "Building High-level Features Using Large Scale Unsupervised Learning." ICML 2012. arXiv:1112.6209
Neuronas de concepto en redes modernas
Trabajos posteriores como Network Dissection (Bau et al., 2017, netdissect.csail.mit.edu) cuantificaron sistemáticamente cuántas neuronas individuales en una GAN o clasificador se especializan en conceptos semánticos: cielo, hierba, ventana, rueda. Descubrieron que:
- Las redes más grandes desarrollan más neuronas interpretables.
- Las unidades se organizan jerárquicamente: texturas → materiales → partes → objetos → escenas.
- En GANs (como StyleGAN), neuronas individuales controlan atributos semánticos: "quitar gafas", "cambiar iluminación".
Conexión con la emergencia: Las CNNs muestran que la emergencia en deep learning no es exclusiva de los modelos de lenguaje. La misma dinámica (más parámetros → representaciones más ricas → capacidades cualitativamente nuevas) aparece en visión, audio y otros dominios. Lo que cambia con los LLMs es la escala y la naturaleza de las capacidades que emergen.
Los hallazgos en CNNs establecieron un patrón que se repetiría a escalas mucho mayores: las redes neuronales, cuando disponen de suficiente capacidad y datos, desarrollan representaciones internas que reflejan la estructura del mundo real, sin que nadie les enseñe esa estructura explícitamente. En visión, esto se traduce en detectores de bordes → texturas → objetos → escenas. Pero el ejemplo más dramático de emergencia pre-LLM no vino de la visión, sino de un modelo de lenguaje a nivel de carácter: la Neurona Sintiente de OpenAI, que veremos a continuación.
La Neurona Sintiente: emergencia en LSTMs
En abril de 2017, Alec Radford y otros investigadores de OpenAI publicaron un resultado que causó gran revuelo: "Learning to Generate Reviews and Discovering Sentiment" (arXiv:1704.01444). Es quizás el ejemplo más elegante de emergencia en deep learning pre-LLM.
El experimento
Entrenaron una LSTM multiplicativa de 4.096 unidades (mLSTM) con un objetivo extremadamente simple: predecir el siguiente carácter en un corpus de 82 millones de reseñas de Amazon. Sin etiquetas de sentimiento, sin clasificación, sin supervisión de ningún tipo más allá de la predicción carácter a carácter.
Descubrimiento clave: Una única neurona (la unidad 2.388) aprendió espontáneamente a codificar el sentimiento del texto. Cuando su activación era alta, el texto era positivo; cuando era baja, negativo. Usando solo esta neurona como feature, conseguían 91.8% de precisión en SST (Stanford Sentiment Treebank) — mejor que muchos modelos supervisados de la época.
¿Por qué esto es emergencia?
- No fue entrenada para sentimiento. El único objetivo era predecir el siguiente byte.
- La capacidad apareció en una sola neurona. No en un patrón distribuido complejo, sino en una unidad discreta.
- Es útil y transferible. El detector de sentimiento funciona en dominios diferentes a las reseñas de Amazon.
- Requiere escala. Modelos más pequeños no desarrollaban esta capacidad. Se necesitaron 4.096 unidades y millones de reseñas.
Lo más fascinante del descubrimiento fue que al fijar manualmente la activación de la neurona 2.388, se podía controlar el sentimiento del texto generado. Con la neurona fijada en valores altos, el modelo generaba reseñas entusiastas:
# Neurona de sentimiento → valor alto
"I absolutely love this product! It's the best thing I've ever bought.
The quality is outstanding and I highly recommend it to everyone."
# Neurona de sentimiento → valor bajo
"This is terrible. Complete waste of money. It broke after one day
and customer service was unhelpful. Do not buy this."
Esto demuestra que la red no solo aprendió a detectar sentimiento, sino que lo integró como un factor causal en su modelo generativo del lenguaje.
import torch
import torch.nn as nn
import numpy as np
# Modelo simplificado: mLSTM para predicción de caracteres
class CharLSTM(nn.Module):
def __init__(self, vocab_size, hidden_size=4096):
super().__init__()
self.embed = nn.Embedding(vocab_size, 256)
self.lstm = nn.LSTM(256, hidden_size, batch_first=True)
self.fc = nn.Linear(hidden_size, vocab_size)
def forward(self, x):
emb = self.embed(x)
out, (h, c) = self.lstm(emb)
return self.fc(out), c # c contiene las activaciones de las celdas
# Extraer la activación de la "neurona de sentimiento" (celda 2388)
def get_sentiment_activation(model, text, char2idx):
tokens = torch.tensor([[char2idx.get(c, 0) for c in text]])
with torch.no_grad():
_, (_, cell_state) = model(tokens)
# cell_state shape: (1, 1, 4096)
sentiment_value = cell_state[0, 0, 2388].item()
return sentiment_value
# Ejemplo de uso (requiere modelo pre-entrenado)
# score = get_sentiment_activation(model, "This movie was amazing!", char2idx)
# print(f"Sentimiento: {score:.3f}") # Valor alto → positivo
📄 Radford, A., Józefowicz, R., Sutskever, I. "Learning to Generate Reviews and Discovering Sentiment." 2017. arXiv:1704.01444 · Blog post de OpenAI
La Neurona Sintiente anticipó lo que vendría con modelos más grandes: cuando la escala es suficiente, los objetivos de pre-entrenamiento "simples" (predecir el siguiente token) producen representaciones sorprendentemente ricas y transferibles. Este mismo principio es el motor de GPT-2, GPT-3 y toda la generación actual de LLMs. La diferencia es que, a la escala de miles de millones de parámetros, las capacidades emergentes son mucho más variadas y poderosas. Pasemos ahora a explorar qué ocurre cuando la escala aumenta dramáticamente.
Fenómenos emergentes en LLMs
El paper "Emergent Abilities of Large Language Models" de Wei et al. (2022, arXiv:2206.07682) formalizó una observación que ya era evidente con GPT-3: ciertos modelos de lenguaje, al superar un umbral de escala, adquieren capacidades que no existían en modelos más pequeños.
Definición (Wei et al., 2022): Una capacidad es emergente si (1) no está presente en modelos más pequeños y (2) sí está presente en modelos más grandes. Crucialmente, la transición es abrupta: el rendimiento está cerca de cero (aleatorio) hasta que, de repente, salta a niveles significativos.
Capacidades emergentes documentadas
Wei et al. analizaron más de 100 benchmarks en múltiples familias de modelos (GPT-3, LaMDA, PaLM, Chinchilla) e identificaron capacidades que solo aparecen en modelos de suficiente escala:
| Capacidad | Umbral aprox. | Comportamiento |
|---|---|---|
| Aritmética de 3+ dígitos | ~13B parámetros | Modelos <10B → ~0% precisión. Modelos >100B → >50%. |
| Chain-of-thought (CoT) | ~100B (PaLM) | Modelos pequeños no mejoran con CoT; los grandes sí, dramáticamente. |
| Traducción multilingüe | ~6B+ | Modelos <1B no traducen; a partir de ~6B, aparece zero-shot translation. |
| Razonamiento analógico | ~70B+ | Resolver "A es a B como C es a ___" requiere escala significativa. |
| Word unscrambling | ~13B | Reordenar letras de una palabra desordenada: cerca de 0% → >50% abruptamente. |
| Instrucción following (zero-shot) | ~100B | Seguir instrucciones nuevas sin ejemplos: requiere escala masiva. |
El patrón de la emergencia
Lo que hace especial a la emergencia en LLMs es la forma de la curva de rendimiento vs escala. En lugar de una mejora gradual, se observa un patrón de "escalón": el rendimiento en una tarea permanece cerca del azar durante varias órdenes de magnitud de escala, y luego salta abruptamente a un nivel competente. Este comportamiento recuerda a las transiciones de fase de la física (ver sección de fundamentos teóricos). La dificultad radica en que no sabemos, a priori, a qué escala ocurrirá cada transición: la aritmética aparece a ~13B, pero el chain-of-thought requiere ~100B. Usa el simulador de abajo para explorar este fenómeno interactivamente.
Es importante señalar que la tabla anterior recoge los umbrales originales documentados por Wei et al. con las familias de modelos disponibles en 2022 (GPT-3, PaLM, Chinchilla, LaMDA). Modelos posteriores como LLaMA 2/3, Mistral o Qwen 2.5 han logrado algunas de estas capacidades a escalas menores, gracias a mejoras en datos, arquitectura (p.ej., GQA, RoPE) y técnicas de entrenamiento (DPO, RLHF). Esto no invalida la emergencia — más bien sugiere que los umbrales no son fijos, sino que dependen de la "calidad efectiva" del entrenamiento. Un modelo de 7B bien entrenado en 2024 puede equivaler funcionalmente a uno de 70B de 2020 en ciertos benchmarks. La pregunta fundamental sigue abierta: ¿existen capacidades que ningún modelo pequeño puede alcanzar, independientemente de la calidad del entrenamiento? La respuesta a esta pregunta tiene profundas implicaciones para la seguridad de la IA.
La impredecibilidad de las capacidades emergentes
Uno de los aspectos más inquietantes de la emergencia es que no sabemos predecir qué capacidades aparecerán a qué escala. Esto plantea desafíos significativos para la seguridad y la gobernanza de la IA.
¿Por qué es difícil predecirlo?
La dificultad de predicción no es solo teórica — tiene consecuencias prácticas directas. Imagine una empresa que entrena un modelo de 50B parámetros para atención al cliente. Todo funciona bien. Luego escalan a 200B parámetros esperando simplemente "mejor calidad". Pero al cruzar cierto umbral, el modelo desarrolla capacidades de persuasión sofisticada que no tenía antes y que nadie había previsto. ¿Está eso cubierto por las evaluaciones de seguridad originales? Probablemente no. Las razones de esta impredecibilidad son múltiples:
- No es lineal. No hay una tendencia suave que podamos extrapolar; la capacidad simplemente "salta" a un cierto punto.
- Depende de la métrica. La pérdida (cross-entropy) sí mejora suavemente, pero las métricas discretas de tarea (precisión, exact match) muestran el salto.
- Varía entre familias de modelos. PaLM puede mostrar emergencia en una tarea a 62B mientras que GPT-3 la muestra a 175B.
- El pre-training data importa. La composición del corpus puede adelantar o retrasar la aparición de capacidades.
Implicación para seguridad: Si no podemos predecir qué capacidades emergirán al escalar, tampoco podemos predecir qué capacidades peligrosas podrían aparecer. Un modelo de siguiente generación podría desarrollar habilidades de engaño, manipulación o planificación estratégica que no existían en la generación anterior. Esto fundamenta la posición de quienes abogan por evaluaciones de seguridad exhaustivas antes de desplegar modelos mayores.
¿Es la emergencia real? El debate de los mirajes
En 2023, un influyente artículo de Schaeffer, Miranda y Koyejo (arXiv:2304.15004) titulado "Are Emergent Abilities of Large Language Models a Mirage?" argumentó que las capacidades emergentes podrían ser un artefacto de la métrica elegida, no una propiedad real de los modelos.
El argumento del miraje
Los autores argumentan que la aparición de "escalones" en las curvas de rendimiento se debe a que las métricas usadas (como exact match o accuracy) son no lineales y discretas. Si en cambio se usan métricas continuas (como Brier score, token-level accuracy, o log-likelihood por token), la mejora es gradual y predecible.
Ejemplos concretos:
- Aritmética: Si mides "acierto exacto de la suma", un modelo que predice "14" cuando la respuesta es "149" obtiene 0. Pero a nivel de token, ya ha mejorado significativamente.
- Word unscrambling: Exact match requiere reconstruir toda la palabra perfectamente. Pero las letras individuales se van acertando progresivamente.
Conclusión: La "emergencia" puede ser en gran parte un artefacto de cómo evaluamos, no de cómo el modelo aprende internamente.
El contraargumento
- Las métricas discretas son las que importan: En la práctica, una suma parcialmente correcta sigue siendo incorrecta. La emergencia es real desde la perspectiva del usuario.
- Chain-of-thought: CoT solo funciona en modelos >~100B. Esto no es solo métrica — es un cambio cualitativo en la estrategia de razonamiento del modelo.
- In-context learning: La capacidad de aprender nuevas tareas a partir de ejemplos en el contexto es funcionalmente nueva y no aparece gradualmente.
- Modelos del mundo: Las representaciones internas cambian cualitativamente. El modelo Othello-GPT de Li et al. construye un modelo del tablero que modelos más pequeños no tienen.
- Predictability ≠ gradualness: Que la cross-entropy baje suavemente no implica que las capacidades downstream también lo hagan.
Estado actual del debate (2025): El consenso emergente es que ambas perspectivas tienen mérito. Algunas capacidades "emergentes" sí son artefactos métricos. Pero otras representan transiciones de fase genuinas en las representaciones internas del modelo. La investigación sobre mechanistic interpretability (ingeniería inversa de los circuitos internos) es clave para distinguir entre ambos casos.
Este debate ilustra una tensión fundamental en la investigación sobre IA: la forma de medir un fenómeno puede afectar nuestra interpretación del mismo. Para avanzar, la comunidad necesita métricas más granulares que las binarias de exact-match, pero que sigan capturando la utilidad real para el usuario. Trabajos recientes sobre métricas continuas de capacidad (p.ej., probabilidad calibrada por token, Brier score multitarea) intentan precisamente esto. Independientemente de si llamamos "emergencia" o "mejora no lineal" al fenómeno, su existencia tiene consecuencias prácticas directas: las leyes de potencias que gobiernan el escalado, tema de las siguientes secciones, determinan cuánto cuesta cada mejora incremental y cómo asignar óptimamente el presupuesto de cómputo.
Leyes de escala: fundamentos y primeras observaciones
Las leyes de escala (scaling laws) cuantifican cómo el rendimiento de un modelo depende de tres variables fundamentales: el número de parámetros N, el tamaño del dataset D, y el cómputo de entrenamiento C. Resulta que estas relaciones siguen leyes de potencias sorprendentemente limpias.
¿Qué es una ley de potencias?
Una ley de potencias describe una relación de la forma:
Donde L es la pérdida (loss), x es la variable de escala (parámetros, datos o cómputo), L_\infty es la pérdida irreducible, y \alpha es el exponente de la ley. En escala log-log, esto es una línea recta, lo que hace que las leyes de potencias sean fáciles de identificar y extrapolar.
¿Por qué leyes de potencias? Las leyes de potencias aparecen en muchos fenómenos naturales (terremotos, distribución de riqueza, frecuencia de palabras en un idioma — ley de Zipf). Generalmente indican ausencia de escala característica: no hay un tamaño "natural" del modelo que sea óptimo. En cambio, siempre se puede mejorar escalando más, pero con rendimientos decrecientes.
Leyes de escala antes de los LLMs
Aunque Kaplan et al. (2020) formalizaron las leyes de escala para modelos de lenguaje, la idea de que "más grande = mejor de forma predecible" tiene precedentes:
- Hestness et al. (2017) (arXiv:1712.00409): Observaron leyes de potencias en traducción automática, reconocimiento de voz, clasificación de imágenes y detección de objetos.
- Rosenfeld et al. (2019) (arXiv:1909.12673): Propusieron un marco predictivo para extrapolar rendimiento a escalas mayores.
- Ley de Zipf (1935): La frecuencia de la n-ésima palabra más común es proporcional a 1/n. Los modelos de lenguaje operan sobre datos que ya siguen leyes de potencias.
Estas observaciones previas eran prometedoras pero dispersas: cada trabajo estudiaba un dominio diferente con métricas y escalas distintas. Faltaba un marco unificado que cuantificase las relaciones de forma precisa y las conectase con decisiones prácticas de diseño. Ese marco llegó en 2020 con el trabajo seminal de Kaplan et al., que transformó las leyes de escala de una curiosidad empírica a una herramienta operacional.
Kaplan et al. (2020): las leyes de potencias
En enero de 2020, Jared Kaplan et al. (OpenAI) publicaron "Scaling Laws for Neural Language Models" (arXiv:2001.08361), uno de los papers más influyentes de la era moderna. Entrenaron cientos de Transformers de distintos tamaños y descubrieron relaciones notablemente limpias.
Los tres hallazgos principales
La pérdida sigue leyes de potencias con N, D y C
Con exponentes \alpha_N \approx 0.076, \alpha_D \approx 0.095, \alpha_C \approx 0.050. Estas relaciones se mantuvieron durante más de 7 órdenes de magnitud.
La arquitectura importa poco (dentro de Transformers)
Variaciones en profundidad vs anchura, tipo de atención, etc., tienen un efecto pequeño comparado con el número total de parámetros. Un modelo de 1B parámetros tiene pérdida similar independientemente de si es ancho y poco profundo o estrecho y profundo.
Los modelos grandes son más eficientes en datos
Un modelo grande entrenado hasta convergencia aprende más por cada token que un modelo pequeño. La conclusión operacional: dado un presupuesto fijo de cómputo, es mejor entrenar un modelo muy grande durante poco tiempo que uno pequeño hasta convergencia.
Ecuación combinada
Kaplan et al. propusieron una fórmula que combina las tres variables en una expresión unificada. La ecuación captura un hecho crucial: parámetros y datos compiten por reducir la pérdida, pero con rendimientos decrecientes independientes. Si un modelo es muy grande pero tiene pocos datos, la pérdida estará dominada por el término de datos (y viceversa). La configuración óptima equilibra ambas fuentes de error, lo que conecta directamente con el trabajo de Chinchilla que veremos en la siguiente sección.
Implicación práctica de Kaplan: Dado un presupuesto de cómputo C, la asignación óptima según Kaplan et al. es dedicar la mayor parte a un modelo grande entrenado pocos pasos, en lugar de un modelo pequeño entrenado muchos pasos. Esto llevó directamente a la decisión de entrenar GPT-3 con 175B parámetros en "relativamente pocos" tokens.
Sin embargo, esta conclusión de Kaplan — "prioriza tamaño sobre datos" — resultaría ser solo parcialmente correcta. El paper asumía que los datos eran casi ilimitados y el cuello de botella era el cómputo. Pero ¿qué pasa si los datos también son un factor limitante? En 2022, un equipo de DeepMind revisaría esta conclusión y la corregiría con consecuencias que remodelaron toda la industria. Es el paper de Chinchilla, tema de la siguiente sección.
Chinchilla: entrenamiento óptimo
En marzo de 2022, Hoffmann et al. (DeepMind) publicaron "Training Compute-Optimal Large Language Models" (arXiv:2203.15556), conocido como el "paper de Chinchilla". Este trabajo corrigió una de las conclusiones más importantes de Kaplan et al. y cambió fundamentalmente cómo la industria entrena LLMs.
¿Qué corrigió Chinchilla?
| Aspecto | Kaplan et al. (2020) | Chinchilla (2022) |
|---|---|---|
| Asignación óptima | Priorizar tamaño del modelo. Los datos importan menos. | Escalar N y D al mismo ritmo. Cada duplicación de N requiere duplicar D. |
| Ratio N:D | Los modelos están bien con ~10 tokens por parámetro. | El óptimo es ~20 tokens por parámetro. |
| Implicación | Entrena modelos enormes, para antes de converger. | Los modelos existentes estaban masivamente subentrenados. |
| Ejemplo | GPT-3 (175B params, 300B tokens). | Chinchilla (70B params, 1.4T tokens) supera a Gopher (280B, 300B tokens). |
La ley de Chinchilla
Esto significa que, para un presupuesto de cómputo C, los parámetros y los tokens de entrenamiento deben escalar al mismo ritmo. La regla práctica es sencilla:
Regla de Chinchilla: Para entrenar de forma compute-óptima, necesitas aproximadamente
20 tokens de entrenamiento por cada parámetro del modelo.
→ Un modelo de 7B necesita ~140B tokens.
→ Un modelo de 70B necesita ~1.4T tokens.
→ Un modelo de 405B (LLaMA 3.1) necesita ~8T+ tokens.
Impacto en la industria
El paper de Chinchilla tuvo un efecto sísmico. Antes de Chinchilla, la carrera era por el modelo más grande (GPT-3: 175B, Gopher: 280B, MT-NLG: 530B). Después, la industria pivotó hacia modelos más pequeños pero entrenados con muchos más datos. Este cambio de paradigma no solo mejoró el rendimiento: también redujo drásticamente los costes de inferencia, porque un modelo más pequeño requiere menos memoria y cómputo por cada predicción. En el mundo real, el coste de servir un modelo es a menudo mayor que el coste de entrenarlo, así que este beneficio práctico fue enorme.
Algunos ejemplos concretos de este cambio de estrategia:
- LLaMA (Meta, 2023): 7B–65B parámetros entrenados con 1–1.4T tokens (arXiv:2302.13971). El modelo de 13B entrenado con datos suficientes superaba a GPT-3 (175B) en múltiples benchmarks, demostrando que la cantidad de datos de entrenamiento importa tanto como el tamaño.
- Mistral 7B (2023): Demostró que un modelo "pequeño" bien entrenado compite con modelos 5× más grandes (arXiv:2310.06825).
- LLaMA 3 (2024): Fue aún más allá: entrenó un 8B con 15T tokens (>100× la regla de Chinchilla), descubriendo que sobre-entrenar modelos pequeños optimiza el coste de inferencia (arXiv:2407.21783). Esto introduce un matiz importante: la regla de Chinchilla optimiza el coste de entrenamiento, pero si la inferencia domina el coste total, puede ser más rentable sobre-entrenar un modelo pequeño.
| Modelo | Parámetros | Tokens | FLOPs | MMLU |
|---|---|---|---|---|
| Gopher | 280B | 300B | ~5.76×10²³ | 60.0% |
| Chinchilla | 70B | 1.4T | ~5.76×10²³ | 67.5% |
El mismo presupuesto de cómputo, distribuido de forma diferente. Chinchilla es 4× más pequeño pero entrenado con 4.7× más datos — y gana por 7.5 puntos en MMLU. Además, por ser más pequeño, Chinchilla es mucho más barato de servir en inferencia. Este resultado demostró de forma contundente que la estrategia de Kaplan ("haz el modelo lo más grande posible") desperdiciaba cómputo: un modelo grande pero subentrenado pierde frente a uno más pequeño pero bien entrenado.
import math
def chinchilla_optimal(compute_flops):
"""
Dado un presupuesto de cómputo en FLOPs,
calcula el tamaño óptimo del modelo y los tokens.
Regla: C ≈ 6 · N · D (aproximación estándar)
Con N_opt ∝ C^0.5 y D_opt ∝ C^0.5, y D ≈ 20·N
"""
# De C ≈ 6·N·D y D = 20·N → C = 120·N² → N = sqrt(C/120)
N_opt = math.sqrt(compute_flops / 120)
D_opt = 20 * N_opt
return {
'params': N_opt,
'tokens': D_opt,
'flops': compute_flops,
'ratio': D_opt / N_opt
}
# Ejemplo: presupuesto de GPT-3
budget = 3.14e23 # ~314 ZettaFLOPs
result = chinchilla_optimal(budget)
print(f"Parámetros óptimos: {result['params']:.1e}")
print(f"Tokens óptimos: {result['tokens']:.1e}")
print(f"Ratio D/N: {result['ratio']:.0f} tokens/param")
# → Parámetros óptimos: 5.1e+10 (~51B)
# → Tokens óptimos: 1.0e+12 (~1T)
# → Ratio D/N: 20 tokens/param
Leyes de escala modernas y test-time compute
Más allá de Kaplan y Chinchilla, la investigación en leyes de escala ha seguido evolucionando rápidamente, revelando nuevas dimensiones de escalado y refinando nuestra comprensión. El paradigma actual ya no se reduce a "entrena un modelo más grande": ahora sabemos que el rendimiento depende de un ecosistema de factores (pre-training, post-training, inferencia, calidad de datos) que interactúan de formas complejas pero, en muchos casos, predecibles mediante leyes de potencias.
Más allá de pre-training: escalado post-entrenamiento
Las leyes de escala clásicas se centran en pre-training. Pero trabajos recientes han mostrado que otras fases también siguen leyes de potencias:
Bai et al. (Anthropic, 2022, arXiv:2204.05862) encontraron que la calidad del modelo alineado con RLHF también mejora predeciblemente con la escala del modelo base. Sin embargo, los exponentes son diferentes: el RLHF amplifica las ganancias de escala en tareas que requieren seguir instrucciones y ser útil/seguro, pero no cambia sustancialmente las capacidades de razonamiento puro.
Para LoRA y fine-tuning eficiente, Hu et al. (2021, arXiv:2106.09685) mostraron que el rank óptimo de la adaptación escala logarítmicamente con el tamaño del modelo:
Test-time compute scaling: la nueva frontera
En 2024–2025, una nueva dimensión de escalado ha emergido: el cómputo en tiempo de inferencia. En lugar de hacer el modelo más grande o entrenarlo más tiempo, se le da más tiempo para pensar en cada respuesta. Este enfoque es conceptualmente análogo a cómo los humanos abordan problemas difíciles: dedicamos más tiempo y esfuerzo mental a una integral compleja que a una suma simple. Los modelos de razonamiento actuales (o1, o3, DeepSeek-R1) implementan esta idea generando cadenas de razonamiento internas antes de producir una respuesta final.
Test-time compute scaling: Modelos como OpenAI o1/o3 y DeepSeek-R1 generan cadenas de razonamiento internas (scratchpad) antes de dar una respuesta. Cuanto más larga es la cadena de razonamiento, mejor es el resultado. Esto sigue una ley de potencias propia: P(\text{correcto}) \propto T^{\alpha}, donde T es el número de tokens de razonamiento generados.
| Dimensión | Qué escala | Ejemplo | Ley |
|---|---|---|---|
| Pre-training compute | N (params) + D (tokens) | GPT-3 → GPT-4 | L \propto C^{-0.05} |
| Post-training | Calidad de alineamiento (SFT + RLHF) | GPT-4 → GPT-4-turbo | Mejora logarítmica con datos de alineamiento |
| Test-time compute | Tokens de razonamiento (CoT, scratchpad) | o1 → o3 | P \propto T^{\alpha} con \alpha \approx 0.1\text{–}0.3 |
La observación clave es que las tres dimensiones son complementarias. Un modelo base débil no se beneficia tanto de test-time compute. Pero un modelo fuerte + más tiempo de razonamiento alcanza resultados que antes parecían imposibles (e.g., competiciones de matemáticas a nivel IMO).
Scaling laws para datos sintéticos
Con el agotamiento de datos naturales de alta calidad en internet, la industria ha pivotado hacia datos sintéticos: textos generados por modelos más grandes para entrenar modelos más pequeños. Trabajos de 2024–2025 sugieren:
- Los datos sintéticos también siguen leyes de potencias, pero con exponentes menores (cada token sintético aporta menos que uno natural).
- La diversidad importa más que el volumen: datos sintéticos repetitivos llevan a model collapse (colapso del modelo).
- El filtrado de calidad puede restaurar parcialmente los exponentes: seleccionar los mejores datos sintéticos (con un reward model) es clave.
El agotamiento de datos naturales y el recurso creciente a datos sintéticos plantean una pregunta existencial para las leyes de escala: ¿se mantendrán los exponentes observados cuando el grueso de los datos de entrenamiento provenga de otros modelos? Los primeros indicios sugieren que la calidad y diversidad del proceso de generación son más importantes que el volumen bruto, lo que introduce un nuevo cuello de botella: la capacidad de diseñar pipelines de datos sintéticos que mantengan la riqueza y distribución del lenguaje natural. Este problema se conoce como model collapse (Shumailov et al., 2024, arXiv:2305.17493) y es un área activa de investigación.
¿Cuánto más podemos escalar?
Las leyes de potencias tienen rendimientos decrecientes: cada 10× más cómputo solo reduce la pérdida un poco. Hay varias barreras:
✅ A favor de seguir escalando
- Las curvas no muestran saturación hasta ahora.
- Nuevas dimensiones (test-time compute) abren más espacio.
- Datos sintéticos y multimodales extienden el pool de datos.
- Hardware mejora ~2× cada 2 años (Moore's law para GPUs).
⚠️ Barreras al escalado
- Datos de alta calidad en internet se están agotando.
- Costes energéticos y ambientales crecen linealmente.
- Rendimientos decrecientes: 10× cómputo → ~5% menos loss.
- La pérdida irreducible L_\infty es un límite fundamental.
Implicaciones prácticas
Las leyes de escala y los fenómenos de emergencia no son solo curiosidades teóricas — tienen consecuencias directas para cualquiera que trabaje con deep learning. A continuación resumimos las lecciones más prácticas, distinguiendo entre la perspectiva de investigación (quienes diseñan y entrenan modelos nuevos) y la de ingeniería (quienes despliegan y adaptan modelos existentes).
Para investigadores
Para ingenieros ML
En definitiva, las leyes de escala proporcionan un marco cuantitativo para tomar decisiones de diseño que antes se basaban en intuición: cuántos parámetros necesita mi modelo, cuántos datos debo recopilar, y cuánto cómputo asignar al entrenamiento frente a la inferencia. Pero como toda herramienta predictiva, sus proyecciones tienen límites — especialmente al extrapolar más allá del rango donde fueron calibradas.
Cuidado con la extrapolación ciega: Las leyes de potencias describen tendencias observadas en ciertos rangos. No hay garantía de que continúen indefinidamente. Varios investigadores (Ilya Sutskever, Dario Amodei) han señalado que podríamos estar acercándonos a cambios de régimen donde los exponentes cambian o donde emergen nuevas barreras.
El futuro del escalado
¿Seguirán las leyes de escala? ¿La emergencia es real o un artefacto? ¿Qué viene después de los transformers? Estas son algunas de las preguntas abiertas más importantes del campo. La comunidad de IA está dividida entre optimistas que ven décadas de escalado por delante y escépticos que señalan barreras fundamentales a corto plazo. Lo que sigue es un resumen de ambas posiciones.
La posición optimista (defendida por figuras como Dario Amodei de Anthropic y Sam Altman de OpenAI) sostiene que las leyes de potencias continuarán por muchas órdenes de magnitud más. Argumentos:
- Históricamente, cada predicción de "techo" ha sido incorrecta.
- Nuevas fuentes de datos (vídeo, audio, sensores, datos sintéticos) expanden el pool.
- Nuevas dimensiones de escalado (test-time compute, agentes) agregan más ejes.
- El hardware mejora consistentemente (H100 → B200 → Rubin).
La posición cautelosa (defendida por investigadores como Yann LeCun y François Chollet) señala límites fundamentales:
- Los transformers son interpoladores sofisticados, no razonadores genuinos. Escalar un interpolador no produce razonamiento.
- La pérdida irreducible L_\infty representa la entropía intrínseca del lenguaje humano — no se puede reducir por debajo de ella.
- La emergencia podría ser un artefacto métrico (Schaeffer et al., 2023): las capacidades mejoran suavemente, pero las métricas discretas crean la ilusión de saltos.
- Los costes energéticos y económicos crecen linealmente con el cómputo, haciendo cada mejora marginal más cara.
Algunas líneas de investigación que podrían cambiar las leyes de escala actuales:
- State-Space Models (Mamba, S4): Complejidad lineal con la longitud de secuencia en lugar de cuadrática. Podrían cambiar los exponentes de escalado.
- Mixture-of-Experts (MoE): Solo activa una fracción del modelo por token (e.g., Mixtral activa 12B de 47B por token). Redefine qué significa "N" en las leyes de escala.
- Modelos neurosimbólicos: Combinan redes neuronales con razonamiento simbólico para tareas que parecen requerir "razonamiento verdadero".
Resumen y referencias
Ideas clave de este módulo
Artículos citados
La siguiente tabla recoge los artículos más relevantes citados a lo largo de este módulo, ordenados cronológicamente. Los enlaces conducen a las versiones originales en arXiv o a los DOIs correspondientes.
| Año | Artículo | Tema principal |
|---|---|---|
| 1972 | Anderson, "More Is Different" | Emergencia en física |
| 2005 | Hutter, "Universal Artificial Intelligence" | Inteligencia como compresión |
| 2012 | Le et al., Google Brain Cat Neuron | Aprendizaje no supervisado a escala |
| 2014 | Zeiler & Fergus, Visualizing CNNs | Visualización de features |
| 2017 | Radford et al., Sentiment Neuron | Neurona de sentimiento emergente |
| 2017 | Hestness et al., Deep Learning Scaling | Leyes de potencia empíricas |
| 2017 | Bau et al., Network Dissection | Interpretabilidad de unidades semánticas |
| 2019 | Nakkiran et al., Double Descent | Doble descenso en deep learning |
| 2019 | Rosenfeld et al., Scaling Prediction | Marco predictivo de rendimiento |
| 2020 | Kaplan et al., Scaling Laws for LMs | Leyes de escala para transformers |
| 2020 | Brown et al., GPT-3 | Aprendizaje in-context emergente |
| 2022 | Power et al., Grokking | Generalización tardía |
| 2022 | Hoffmann et al., Chinchilla | Entrenamiento compute-óptimo |
| 2022 | Wei et al., Emergent Abilities | Formalización de emergencia |
| 2022 | Li et al., Othello-GPT | Modelos de mundo internos |
| 2022 | Olsson et al., Induction Heads | Circuitos de in-context learning |
| 2023 | Touvron et al., LLaMA | Modelos abiertos eficientes |
| 2023 | Schaeffer et al., Mirage | Debate sobre emergencia como artefacto |
| 2023 | Gunasekar et al., Textbooks Are All You Need | Datos sintéticos de alta calidad |
| 2023 | Jiang et al., Mistral 7B | Modelos pequeños competitivos |
| 2024 | Shumailov et al., Model Collapse | Colapso por datos sintéticos |
| 2024 | Dubey et al., LLaMA 3 | Sobre-entrenamiento óptimo |
Módulos relacionados
Este módulo conecta con varios temas del curso. Te recomendamos explorar:
- Perceptrón Multicapa (MLP) — la arquitectura base sobre la que se escalan las redes profundas.
- Entrenamiento de Redes Neuronales — los mecanismos de optimización que hacen posible el entrenamiento a escala.
- Fundamentos de RNN — las LSTMs como la del Sentiment Neuron, precursoras de los transformers.
- Transformers — la arquitectura sobre la que se aplican las leyes de escala modernas.
- Fundamentos de NLP — el contexto lingüístico necesario para entender los LLMs.