Sony AI publicó Project Ace en Nature este mes, y el número destacado es que su robot de tenis de mesa gana tres de cinco partidos contra jugadores élite con diez o más años de experiencia, y ahora ha vencido a varios profesionales de alto nivel en partidos que se remontan a diciembre de 2025. Es un paso significativo más allá del robot de tenis de mesa de Google DeepMind de 2024, que jugaba aproximadamente a nivel amateur. El equipo del líder de proyecto Peter Dürr hace la afirmación más fuerte hasta ahora de "rendimiento de nivel experto en cualquier deporte físico competitivo" — una categoría que antes requería entornos solo en simulación o robots que solo podían manejar uno o dos escenarios entrenados.
Lo que hace este paper interesante desde la perspectiva de un desarrollador no es el aprendizaje por refuerzo profundo. El RL es convencional: una policy que toma el estado de la pelota y predice dónde golpear con la paleta. Lo que lo hace funcionar es el stack de percepción: nueve cámaras a través de tres sistemas de visión, seguimiento de pelota a 200 Hz con precisión al milímetro y alrededor de diez milisegundos de latencia, y medición de spin a hasta 700 Hz. El tenis de mesa es fundamentalmente un problema de percepción antes de ser un problema de control — una pelota de 40 milímetros viajando a 30 metros por segundo te deja unos 50 milisegundos para leer spin, predecir trayectoria, decidir un tiro y golpear. Baja la percepción debajo de los diez milisegundos y una policy de control competente puede hacer el resto. Mantenla en 30 milisegundos y siempre estás respondiendo a dónde estaba la pelota, no a dónde está.
La limitación honesta en el paper, traída a la luz por un jugador profesional adversario, es que el robot no se adapta de la forma en que lo hacen los humanos. La cita — "imposible sentir qué tipo de tiros le disgustan" — es exactamente inversa a cómo funciona el juego humano de alto nivel. Los humanos leen el lenguaje corporal del adversario, el ángulo de la paleta en el backswing y la transferencia de peso para predecir la dirección del tiro antes de que la pelota sea siquiera golpeada, y conducen el rally hacia las debilidades del oponente a lo largo de muchos puntos. Project Ace juega cada pelota limpiamente pero no aprende al humano a lo largo del partido. Sony lo reconoce; "adaptarse a su oponente y encontrar debilidades" es el área de investigación abierta. Ese hueco es lo que separa "vence a buenos jugadores a veces" de "gana torneos".
Para desarrolladores pensando en IA encarnada, el resultado de Sony es un correctivo útil a la narrativa de que el cuello de botella siempre es el modelo. En este caso el modelo es bastante estándar, la encarnación está altamente especializada, y el avance es fusión de sensores y percepción en tiempo real. La misma lección aplica a cualquier producto robótico que tenga que reaccionar a estado físico de movimiento rápido: puedes echarle compute arbitrario a la policy, pero si tu loop de percepción es más lento que la dinámica que te importa, la calidad de la policy es irrelevante. La próxima ronda de demos de IA física que vale la pena tomar en serio serán las que publiquen su latencia y precisión de sensado al lado de sus benchmarks de policy. Sony lo hizo. Los papers que no lo hacen normalmente esconden algo.
