analisis-juridico

Cuando la IA acierta en una sentencia: el peligro que nadie discute

ChatGPT acertó. El juez Padilla preguntó si un menor con autismo debía ser exonerado de copagos. La IA dijo que sí. El fallo fue en ese sentido. La Corte Constitucional lo confirmó. Todo correcto.

Y eso es, precisamente, el problema.

No el que la herramienta fallara. El que funcionara. Porque un método que se valida por sus resultados —y no por sus garantías— es un método que se normaliza antes de que exista ningún control real sobre él. Y en el derecho, la normalización de métodos sin garantías no es una anécdota: es el origen de las injusticias sistémicas.

El razonamiento que nadie quiso hacer

Cuando el escándalo del caso Padilla llenó portadas en enero de 2023, el debate se articuló en dos posiciones simétricas. Los entusiastas dijeron: el juez fue transparente, usó la tecnología disponible, el fallo fue justo, ¿cuál es el problema? Los críticos dijeron: un chatbot no puede motivar sentencias, las alucinaciones son un riesgo real, hay que prohibirlo. Ninguna de las dos posiciones hizo la pregunta que importa.

¿Qué habría pasado si ChatGPT hubiera dicho que no?

No es una pregunta retórica. Es la pregunta que define si el uso de la herramienta fue un complemento del razonamiento judicial o su sustituto. Si Padilla ya había construido su decisión antes de consultar al chatbot —como sostuvo ante la Corte, y como la Corte aceptó—, entonces la respuesta de la IA era irrelevante para el resultado. El juez habría fallado igual. En ese caso, la transparencia de Padilla fue valiosa pero su método fue, como mínimo, innecesario.

Si, en cambio, la respuesta de ChatGPT tenía algún peso real en la formación del convencimiento judicial —si el juez usó el chatbot para confirmar lo que intuía, o para encontrar el argumento que le faltaba, o simplemente para no tener que buscar jurisprudencia él mismo—, entonces el fallo correcto fue alcanzado por un camino que podía haber llevado a cualquier otro destino. La justicia correcta por razones que no la garantizan.

Este es el núcleo del problema. Y es un problema que el caso Padilla ilumina con una claridad que los casos de alucinaciones descaradas —los abogados que citan sentencias inventadas— no pueden ofrecer. Cuando la IA se equivoca de manera flagrante, el sistema tiene mecanismos para detectarlo: el juez contrario impugna, el tribunal lo advierte, hay consecuencias. Cuando la IA acierta, no hay nada que impugnar. El método queda invisible, validado por el resultado, listo para repetirse.

El manto de objetividad que lo cambia todo

Hay un fenómeno que la doctrina sobre algoritmos y justicia ha estudiado con creciente preocupación y que aquí opera con toda su fuerza: el manto de objetividad que rodea los outputs de los sistemas de IA. Cuando un juez humano razona y decide, su subjetividad es visible. Sus prejuicios, sus inclinaciones, su trayectoria ideológica pueden ser cuestionados, su motivación puede ser impugnada, su razonamiento puede ser rebatido argumento por argumento. La subjetividad humana, por irremediable que sea, es al menos legible.

Cuando un sistema de IA genera una respuesta, la percepción cambia. El texto que produce ChatGPT no aparece como la opinión de nadie: aparece como el resultado de un proceso computacional que ha procesado millones de documentos y ha extraído la respuesta estadísticamente más coherente con la pregunta formulada. Aunque esa respuesta pueda ser errónea, parcial, sesgada por los datos de entrenamiento o simplemente inventada, llega revestida de una autoridad tecnocrática que el razonamiento humano no tiene. Como señala la doctrina más crítica, este manto de objetividad puede sugerir que los grupos desfavorecidos o los resultados contrarios realmente merecen ese trato, dado ese halo de imparcialidad que parece rodear los resultados que arroja el algoritmo.

En el caso Padilla, ChatGPT respondió que los menores con autismo tienen derecho a exoneración de copagos. Esa respuesta coincide con la normativa colombiana vigente. Pero ¿por qué coincide? ¿Porque el modelo procesó correctamente la Ley 1753 de 2015 y la jurisprudencia de la Corte Constitucional? ¿O porque en los datos de entrenamiento, la mayoría de los textos sobre autismo y salud pública adoptaban un enfoque inclusivo que sesgó la respuesta en esa dirección? ChatGPT 3.5 no puede responder esa pregunta. Padilla tampoco podía saberlo. Y la Corte Constitucional, con toda su rigurosidad, tampoco encontró la manera de averiguarlo.

El fallo fue correcto. Las razones profundas de por qué la herramienta produjo esa respuesta concreta en ese momento concreto son, en sentido estricto, inauditables.

COMPAS y la trampa de la precisión estadística

Para entender por qué el acierto no es una garantía, hay que salir del caso Padilla y mirar lo que ocurrió con COMPAS en los tribunales penales estadounidenses.

COMPAS es un algoritmo de risk assessment —evaluación de riesgo de reincidencia— que durante años fue utilizado por jueces en varios estados para informar decisiones sobre libertad condicional y sentencias. El caso más conocido llegó al Tribunal Supremo de Wisconsin en 2016: Eric Loomis, condenado por evasión policial, impugnó el uso del algoritmo en su sentencia alegando vulneración del debido proceso. Su argumento central era que COMPAS es un secreto comercial: nadie fuera de la empresa que lo desarrolló sabe exactamente qué variables procesa ni cómo las pondera para producir una puntuación de riesgo.

El dato estadístico con que se defendió el uso del algoritmo es revelador: COMPAS acierta en sus predicciones un 65% de las veces. En términos absolutos, ese porcentaje se presentaba como evidencia de fiabilidad. Lo que el análisis de ProPublica demostró es que ese 65% global ocultaba una distribución radicalmente desigual: los errores del algoritmo no se distribuían aleatoriamente entre los acusados, sino que los falsos positivos —clasificar como de alto riesgo a personas que no reincidían— eran significativamente más frecuentes entre acusados negros que entre acusados blancos.

El algoritmo acertaba. Con una tasa global del 65%. Y al mismo tiempo discriminaba de manera sistemática a lo largo de líneas raciales. Los dos hechos coexistían sin contradicción matemática porque la precisión estadística global puede ser perfectamente compatible con una injusticia estructural cuando los errores no se distribuyen uniformemente. Un juez que confía en el resultado de COMPAS porque "acierta el 65% de las veces" no está siendo ingenuo: está siendo racionalmente engañado por una métrica que oculta lo que más importa.

Lo que conecta a COMPAS con el caso Padilla no es la similitud técnica —son herramientas completamente distintas— sino la lógica común: en ambos casos, el acierto en el resultado concreto funciona como escudo frente al escrutinio del método. El fallo de Padilla fue correcto. Por tanto, ¿qué hay que escrutar? La reincidencia de Loomis fue mal predicha, pero el 65% global era correcto. Por tanto, ¿qué hay que corregir?

La diferencia entre motivación y postracionalización

Hay una distinción técnica en teoría del razonamiento jurídico que este debate necesita y que rara vez aparece en la discusión pública: la diferencia entre motivación y postracionalización.

La motivación judicial, en sentido estricto, es la exposición del proceso cognitivo real que condujo al juez desde los hechos y las normas hasta la decisión. No es un resumen del resultado: es la reconstrucción del camino. Su función no es explicativa sino garantista: permite a las partes conocer las razones para poder impugnarlas, permite al tribunal superior revisar el razonamiento, y legitima la decisión ante la sociedad como el producto de un proceso reglado y no de la arbitrariedad.

La postracionalización, en cambio, es la construcción de argumentos que justifican una decisión ya adoptada por otros motivos. No es necesariamente deshonesta —ocurre con frecuencia sin que el propio juez sea consciente de ello— pero vacía de contenido la función garantista de la motivación.

El uso de ChatGPT por parte de Padilla cae ambiguamente entre las dos categorías. Si el juez formuló las preguntas al chatbot después de haber llegado a su conclusión, y las incorporó a la sentencia como un ornamento argumentativo, estamos ante postracionalización pura: la IA no motivó nada, pero aparece en el texto como si lo hiciera. Si el juez las formuló como parte de su proceso deliberativo, con genuina apertura al resultado, entonces la IA sí participó en la motivación, con todos los problemas de fiabilidad y auditabilidad que eso conlleva.

La Corte Constitucional resolvió el problema declarando que Padilla había decidido antes de consultar. Pero esa declaración se basa en lo que el propio juez dijo sobre su propio proceso mental. No hay manera de verificarlo desde fuera. Y aquí está la paradoja más incómoda de todo este asunto: el único escenario en que el uso de ChatGPT resulta constitucionalmente aceptable según la T-323/24 es también el escenario en que su uso era más innecesario. Si Padilla ya sabía la respuesta, ¿para qué preguntó?

La normalización que nadie quiso ver

Tres años después del caso Padilla, lo que más debería inquietar no es lo que hizo un juez de Cartagena de Indias en enero de 2023. Es lo que hacen cada día miles de operadores jurídicos en todo el mundo sin declararlo.

La encuesta más reciente entre jueces colombianos revela que el 85% utiliza ChatGPT o Copilot con formación mínima o nula sobre sus limitaciones. En España, el Consejo General del Poder Judicial aún no ha publicado protocolos vinculantes sobre uso de IA generativa por jueces y magistrados. En Estados Unidos, los estados que han prohibido el uso de IA en sentencias son minoría; la mayoría se limita a exigir declaración de uso sin establecer qué verificación es exigible. Y en todos estos contextos, el caso Padilla funciona como precedente implícito de normalización: si un juez lo hizo, lo declaró, la Corte lo aceptó y el fallo fue correcto, ¿por qué no podría hacerlo cualquier otro juez?

Eso es exactamente lo que ocurre cuando un método incorrecto produce un resultado correcto sin consecuencias. No se corrige. Se replica.

El sistema judicial tiene mecanismos para corregir los errores visibles: las sentencias que citan casos inventados, los algoritmos que discriminan de manera documentada, los jueces que no motivan sus fallos. Lo que el sistema no tiene —porque nunca lo ha necesitado hasta ahora— son mecanismos para detectar y corregir los métodos invisiblemente defectuosos que producen resultados superficialmente correctos.

Lo que hace falta que aún no existe

El Reglamento de IA exige documentación técnica exhaustiva, auditorías de sesgo y la posibilidad de recrear cada paso del razonamiento jurídico algorítmico. Es un estándar ambicioso. El problema es que ese estándar se aplica a los fabricantes de sistemas de IA clasificados como de alto riesgo —sistemas diseñados para asistir a jueces en la resolución de litigios. No se aplica a un juez que abre ChatGPT en su navegador y formula una pregunta jurídica.

Hay, por tanto, una brecha regulatoria de enorme consecuencia práctica: los sistemas de IA especialmente diseñados para uso judicial están fuertemente regulados; los sistemas de propósito general que los jueces usan espontáneamente no lo están en absoluto. La regulación cubre el escenario que los fabricantes deben anticipar. No cubre el escenario que ocurre realmente.

Lo que hace falta, y que ningún marco regulatorio ha construido todavía con suficiente concreción, es un protocolo de uso verificable. No solo el principio de transparencia —declarar que se usó la IA— sino la obligación de documentar la pregunta formulada, la respuesta obtenida, la fuente en que se verificó, y la relación entre esa respuesta y la decisión adoptada. Una cadena de trazabilidad que permita a cualquier parte del proceso reconstruir qué papel jugó la herramienta en la motivación real de la sentencia.

Sin esa trazabilidad, la transparencia de Padilla fue un gesto valioso pero insuficiente. Transcribió las preguntas y las respuestas. No documentó el proceso de verificación. No explicó si la respuesta de ChatGPT coincidía o divergía de la jurisprudencia que él mismo había consultado. No estableció qué habría hecho si el chatbot hubiera respondido de otra manera. Y eso, en términos de garantías procesales, es lo que separa un método reproducible y auditable de una anécdota con buen desenlace.

Conclusiones

  • El peligro del caso Padilla no es que ChatGPT fallara: es que acertó. Un método que se valida por sus resultados se normaliza antes de que existan garantías sobre él.
  • El manto de objetividad de los sistemas de IA refuerza su autoridad percibida incluso cuando sus razones son inauditables. El acierto no acredita el método.
  • El caso COMPAS ilustra con precisión el mecanismo: una tasa de acierto global estadísticamente aceptable puede coexistir con una discriminación sistémica invisible en los datos desagregados.
  • La distinción entre motivación y postracionalización es el nudo jurídico que el caso Padilla no resolvió y que la T-323/24 esquivó declarando que el juez había decidido antes de consultar, sin posibilidad de verificarlo desde fuera.
  • La brecha regulatoria más urgente no está en los sistemas de IA diseñados para uso judicial, que el AI Act ya cubre: está en el uso espontáneo de sistemas de propósito general por operadores jurídicos sin protocolos ni trazabilidad.
  • Lo que hace falta no es prohibir el uso de IA en sentencias sino construir una cadena de trazabilidad que permita auditar, impugnar y corregir el papel real de la herramienta en la formación del convencimiento judicial.
  • La pregunta que este caso deja abierta para el derecho procesal del siglo XXI es esta: ¿puede garantizarse el debido proceso cuando parte del razonamiento judicial es estadísticamente correcto pero estructuralmente inauditable?