El panorama de herramientas de desarrollo de IA es vasto y cambia rápido, así que ayuda dividirlo en capas. En la base tienes motores de inferencia — el software que realmente ejecuta los modelos. vLLM, llama.cpp, TensorRT-LLM y Ollama se encargan de cargar los pesos del modelo en GPUs (o CPUs), gestionar memoria, agrupar solicitudes y devolver salidas. Si estás auto-hospedando modelos, elegir el motor de inferencia correcto para tu hardware es una de las decisiones de mayor impacto que tomarás. vLLM domina para despliegues multi-GPU en servidores con su gestión de memoria PagedAttention. llama.cpp es la opción preferida para correr modelos cuantizados en hardware de consumo, incluyendo laptops e incluso teléfonos. La elección depende de tu escala, tu hardware y si necesitas funciones como decodificación especulativa o batching continuo.
Una capa arriba tienes frameworks de orquestación — LangChain, LlamaIndex, Haystack y el Vercel AI SDK. Estos manejan la plomería entre tu aplicación y el modelo: templating de prompts, llamada a herramientas, generación aumentada por recuperación, memoria de conversación y parseo de salidas. La verdad honesta sobre estos frameworks es que son más útiles cuando tu caso de uso coincide con sus patrones incorporados y más frustrantes cuando no. LangChain, por ejemplo, hace trivialmente fácil construir un chatbot RAG pero puede sentirse como pelear contra el framework si necesitas flujo de control no estándar. Muchos desarrolladores experimentados terminan usando estos frameworks para prototipar, y luego reescriben la ruta crítica en código plano una vez que entienden exactamente lo que necesitan. Eso no es un fallo de las herramientas — es un flujo de trabajo razonable. Velocidad de prototipado y control de producción sirven objetivos diferentes.
Las herramientas de fine-tuning forman su propio ecosistema. Axolotl y Unsloth hacen posible hacer fine-tuning de modelos open-weights en una sola GPU de consumo usando técnicas como LoRA y QLoRA, que entrenan un pequeño número de parámetros adaptadores en vez del modelo completo. La biblioteca transformers de Hugging Face y su Trainer API siguen siendo la base sobre la que la mayoría de las herramientas de fine-tuning se construyen. Del lado gestionado, proveedores como OpenAI, Google y Together ofrecen APIs de fine-tuning donde subes tus datos y recibes un modelo personalizado sin gestionar ninguna infraestructura. La decisión entre fine-tuning auto-hospedado y gestionado generalmente se reduce a sensibilidad de datos y velocidad de iteración. Si tus datos de entrenamiento no pueden salir de tu red, auto-hospedas. Si quieres experimentar rápido y los datos no son sensibles, las APIs gestionadas tienen mucho menos sobrecarga operacional.
El mayor riesgo con las herramientas de desarrollo de IA es adoptar demasiadas. Cada framework, biblioteca y plataforma añade una dependencia, una capa de abstracción y un punto de fallo. Los equipos que intentan usar LangChain para orquestación, Pinecone para vectores, Weights & Biases para tracking de experimentos, Braintrust para evaluación y Vercel para despliegue terminan gastando más tiempo integrando herramientas que construyendo su producto. El enfoque pragmático es empezar con el stack mínimo viable: una API de modelo (o un motor de inferencia local), un prompt simple y tu framework de aplicación existente. Añade herramientas solo cuando encuentres un punto de dolor específico — la calidad de recuperación es pobre, así que añades una base de datos vectorial; la evaluación es ad hoc, así que añades un framework; la latencia es demasiado alta, así que añades caching. Cada herramienta debe resolver un problema que ya sentiste, no un problema que crees que podrías tener algún día.