Aprendizaje profundo: Definición y significado — Wiki de IA

Un subconjunto del aprendizaje automático que utiliza redes neuronales con muchas capas (por eso "profundo") para aprender representaciones jerárquicas de los datos. Cada capa transforma su entrada en algo ligeramente más abstracto — de píxeles a bordes a formas a objetos a conceptos. El aprendizaje profundo es lo que hizo posible la revolución actual de la IA: es el enfoque detrás de los LLMs, generadores de imágenes, reconocimiento de voz y casi todos los avances en IA desde 2012.

Por qué importa

El aprendizaje profundo es el motor de la era actual de la inteligencia artificial. Antes de 2012, la inteligencia artificial era un ensamblaje de algoritmos especializados. El aprendizaje profundo unificó todo bajo un solo paradigma: apilar suficientes capas, alimentar con suficientes datos, dedicar suficiente potencia de cálculo y el modelo se encarga del resto. Entender el aprendizaje profundo es entender por qué de repente la inteligencia artificial funciona.

En profundidad

La historia del aprendizaje profundo tiene un punto de inflexión específico: la competencia ImageNet de 2012, donde la red neuronal convolucional de Alex Krizhevsky (AlexNet) superó a todos los demás enfoques con una ventaja que sorprendió al campo. El segundo lugar utilizó características elaboradas a mano por estudiantes de doctorado en visión por computadora tras años de ajustes cuidadosos. AlexNet utilizó cinco capas convolucionales entrenadas en dos GPUs GTX 580 durante aproximadamente una semana. Ganó aprendiendo sus propias características directamente desde los píxeles, y no estuvo cerca — la tasa de error disminuyó del 26% al 16% en un solo año. Ese resultado no solo ganó una competencia. Reconfiguró completamente el campo de la IA. Dentro de dos años, casi todos los resultados principales en visión por computadora utilizaban redes neuronales profundas. Dentro de cinco años, el mismo enfoque había tomado el control del procesamiento del lenguaje natural, el reconocimiento de voz y el juego. La lección fue brutal en su simplicidad: deja que la red lo figure, y dale suficientes datos y cómputo para hacerlo.

Cómo la profundidad crea abstracción

El "profundo" en aprendizaje profundo no es solo una campaña de branding. La profundidad es el mecanismo mediante el cual las redes neuronales construyen abstracciones. En un clasificador de imágenes, la primera capa aprende a detectar bordes — gradientes orientados simples que responden a límites de contraste. La segunda capa combina esos bordes en texturas y esquinas. La tercera capa ensambla texturas en partes: un ojo, una rueda, una hoja. Para el momento en que llegas a las capas finales, la red opera en conceptos de alto nivel que corresponden a cosas que los humanos reconocerían. Esta composición jerárquica es por qué las redes profundas pueden aprender representaciones que las superficiales no pueden — cada capa se basa en la anterior, y la capacidad representativa crece combinatoriamente con la profundidad. El mismo principio se aplica a los modelos de lenguaje. Las capas iniciales capturan la sintaxis a nivel de tokens y patrones locales. Las capas intermedias desarrollan comprensión contextual, rastreando referencias y relaciones entre oraciones. Las capas tardías manejan razonamiento abstracto, identificación de tareas y planificación de salida. Nadie programa explícitamente estas capas para hacer estas cosas. La estructura surge del entrenamiento con suficientes datos y suficiente profundidad, lo que es tanto la potencia como el misterio del enfoque.

La dependencia del hardware

El aprendizaje profundo no existiría sin GPUs, y eso no es una metáfora. El entrenamiento de redes neuronales está dominado por multiplicaciones matriciales — pasos hacia adelante, pasos hacia atrás, actualizaciones de pesos, todos ellos reducibles a multiplicar grandes matrices juntas. Los CPUs ejecutan estas operaciones secuencialmente a través de un puñado de núcleos. Las GPUs las ejecutan en paralelo a través de miles de núcleos. La diferencia no es 2x o 5x — es 50x a 100x para las operaciones que importan. La plataforma CUDA de NVIDIA, originalmente construida para gráficos de videojuegos, resultó casi perfectamente adaptada para entrenar redes neuronales. Este accidente de la historia del hardware es una razón principal por la que NVIDIA se convirtió en una de las empresas más valiosas del mundo. La dependencia solo se ha profundizado desde entonces. Los entrenamientos modernos utilizan miles de GPUs comunicándose a través de interconexiones de alta velocidad, y el costo de un solo entrenamiento de un modelo de vanguardia ha subido de miles de dólares en 2012 a cientos de millones en 2025. Esta dependencia del hardware es también lo que hace que el aprendizaje profundo sea inaccesible para la mayoría de los investigadores sin respaldo institucional o créditos de cómputo en la nube — una tensión que el campo nunca ha resuelto completamente.

La hipótesis de escalado

La hipótesis de escalado dice que puedes hacer modelos más inteligentes haciendo que sean más grandes — más parámetros, más datos, más cómputo — y que esta relación sigue leyes de potencia predecibles. Durante varios años, esta hipótesis parecía casi ridículamente cierta. GPT-2 (1.5B parámetros) apenas podía escribir un párrafo coherente. GPT-3 (175B) podía escribir ensayos y hacer aprendizaje con pocos ejemplos. GPT-4 pasó el examen de abogado. Cada salto en escala trajo saltos cualitativos en capacidad que nadie había entrenado explícitamente al modelo para tener. Pero la hipótesis tiene límites, y el campo está empezando a toparlos. Los datos de entrenamiento se están agotando — ya se ha raspado toda la internet pública, y los datos sintéticos introducen sus propios problemas. Los costos de cómputo se están volviendo prohibitivos incluso para los laboratorios más ricos. Y algunas capacidades (aritmética confiable, planificación a largo plazo coherente, no inventar cosas) no parecen ceder limpiamente al escalado solo. El resultado es un giro hacia la eficiencia: mejores arquitecturas, mejores recetas de entrenamiento, mejor curación de datos, y técnicas de inferencia como el razonamiento en cadena de pensamiento que extraen más capacidad de los modelos existentes.

Dónde estamos ahora

Hasta 2026, la arquitectura Transformer ha ganado. Domina los modelos de lenguaje, impulsa la mayoría de los generadores de imágenes (a través de modelos de difusión con backbones Transformer), maneja audio, video y entradas multimodales. Pero la dominancia no significa permanencia. El costo cuadrático de atención de Transformer — cada token atendiendo a cada otro token — crea una pared de escalado dura para secuencias largas. Esto está impulsando investigaciones serias en alternativas. Los Modelos de Espacio de Estado (SSMs), particularmente la familia Mamba, procesan secuencias en tiempo lineal manteniendo un estado oculto comprimido en lugar de atención explícita entre pares. Arquitecturas híbridas que mezclan capas Transformer con capas SSM están mostrando resultados fuertes, manteniendo la calidad de Transformer en tareas de corto alcance mientras ganan la eficiencia de SSM en secuencias largas. La próxima generación de modelos fundamentales casi con seguridad no será Transformers puros. Serán híbridos — arquitecturas que combinan atención donde más importa con mecanismos más eficientes en otros lugares. El aprendizaje profundo no ha terminado de evolucionar. Solo terminó su primer acto.

Aprendizaje profundo