La IA no erosiona el razonamiento legal: evidencia empírica de un ensayo controlado
La paradoja de la síntesis: cómo la IA potencia (y amenaza) el pensamiento jurídico
La inteligencia artificial generativa puede mejorar drásticamente la velocidad y la calidad del trabajo jurídico. Sin embargo, existe una reticencia institucional fundada en un temor genuino: que dicha tecnología erosione el razonamiento y el juicio profesional independiente.¹ Este análisis presenta el primer estudio empírico diseñado para evaluar si el uso de IA en las etapas iniciales de un proyecto legal perjudica la comprensión y el razonamiento autónomo en fases posteriores cuando la herramienta ya no está disponible.
Mediante un ensayo controlado aleatorizado con aproximadamente cien estudiantes de derecho de nivel superior de la Universidad de Minnesota (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6525800), los investigadores analizaron cuatro tareas secuenciales: síntesis, comprensión, aplicación y revisión. Los hallazgos revelan una realidad compleja: la IA incrementó la productividad en la síntesis entre un 50% y un 70%, pero no se observó una degradación en la comprensión posterior. Sorprendentemente, los participantes expuestos a la IA superaron al grupo de control en la tarea de aplicación independiente.
Sin embargo, la fase de revisión evidenció un "efecto de nivelación": la IA mejoró los borradores débiles pero provocó una regresión en los trabajos de mayor calidad inicial. La conclusión es contundente: el impacto de la IA no es una erosión inevitable, sino un fenómeno contingente al momento y al modo de su aplicación.
1. La transformación tecnológica de la práctica legal: del escepticismo a la adopción incremental
Desde el lanzamiento público de ChatGPT en 2022, la inteligencia artificial generativa ha comenzado a transformar la práctica del derecho, especialmente en tareas tradicionalmente delegadas a abogados noveles. Estudios recientes demuestran que los sistemas de IA pueden obtener calificaciones sobresalientes en exámenes de derecho, y que su uso permite producir trabajo de mayor calidad en menor tiempo.² A pesar de esta creciente evidencia, gran parte del ecosistema legal mantiene una postura cautelosa, integrando la IA más como una herramienta limitada que como una tecnología transformadora de la estructura profesional.³
2. El problema de investigación: ¿erosiona la IA la capacidad de razonamiento independiente?
La resistencia a la adopción plena de la IA se sustenta principalmente en tres riesgos percibidos: la generación de alucinaciones (fabricación de fuentes), la vulneración de la confidencialidad y, de manera más crítica, la erosión del razonamiento legal humano y el juicio profesional.⁴ Existe una preocupación genuina entre académicos y organismos reguladores de que la delegación de tareas cognitivas a la IA impida que los abogados interioricen la doctrina, desarrollen juicio estratégico y cultiven la capacidad de responder a cuestionamientos complejos de jueces o clientes.⁵ La literatura en otros campos (medicina, desarrollo de software, redacción analítica) ya sugiere que una dependencia excesiva de la IA puede debilitar la comprensión profunda del material subyacente.⁶
3. Marco empírico: diseño experimental y metodología
A. Objetivos del estudio y formulación de hipótesis preregistradas
El objetivo primordial fue evaluar el impacto causal del uso de IA generativa en el razonamiento legal humano, aislando el efecto de la asistencia tecnológica en etapas tempranas sobre el desempeño independiente en fases posteriores. Para ello, los autores emplearon un ensayo controlado aleatorizado (RCT), considerado el "estándar de oro" en la investigación empírica por su capacidad para neutralizar sesgos de selección y equilibrar variables observables e inobservables entre grupos.⁷
La investigación se fundamentó en una teoría de "erosión cognitiva": la hipótesis de que delegar la síntesis de fuentes legales a una IA reduce el compromiso mental con el material, lo que resultaría en una comprensión superficial y una menor capacidad para aplicar la doctrina de forma autónoma. Estas hipótesis fueron preregistradas ante el Center for Open Science antes del análisis de datos.⁸
B. Selección de la muestra y procedimiento de aleatorización
La muestra consistió en 91 estudiantes de segundo y tercer año (2L y 3L) de la Facultad de Derecho de la Universidad de Minnesota. Se excluyó deliberadamente a los estudiantes de primer año para asegurar una base mínima de uniformidad en habilidades analíticas. Los participantes fueron asignados aleatoriamente mediante un script de R a dos condiciones: un grupo de control (N=41), que no tuvo acceso a IA hasta la fase final, y un grupo expuesto a IA (N=50), que utilizó Gemini 2.5 Pro desde la tarea inicial. Para incentivar un esfuerzo máximo, se implementó un sistema de pagos con una tarifa fija de 75 USD y bonos sustanciales de hasta 100 USD adicionales para los mejores desempeños.⁹
C. Arquitectura del experimento: las cuatro fases secuenciales
El diseño experimental fragmentó un encargo legal típico en cuatro tareas interconectadas, situadas en la jurisdicción hipotética de "Gopher" para evitar que los participantes o la IA utilizaran conocimientos previos fuera del universo cerrado del experimento:¹⁰
1. Tarea de Síntesis: Los participantes debían redactar un memorando de aproximadamente 750 palabras sintetizando la doctrina sobre servidumbres en bienes muebles (chattels) basada en un paquete de 12 páginas con fuentes del Restatement (Third) of Property y jurisprudencia local. El grupo de tratamiento utilizó Gemini 2.5 Pro siguiendo instrucciones específicas de prompting.¹¹
2. Tarea de Comprensión: Inmediatamente después, y sin acceso a las fuentes ni a la IA, ambos grupos respondieron un cuestionario de opción múltiple con seis preguntas de alta dificultad técnica para medir la retención y comprensión de los principios legales.¹²
3. Tarea de Aplicación: Los participantes recibieron un nuevo patrón fáctico (el caso de un automóvil antiguo de valor histórico) y debieron redactar un memorando aplicando la doctrina sintetizada previamente. Ninguno de los grupos tuvo acceso a IA en esta etapa, permitiendo medir el razonamiento independiente.¹³
4. Tarea de Revisión: Finalmente, todos los participantes utilizaron IA durante 20 minutos para mejorar la claridad y redacción de su memorando de aplicación, bajo la instrucción de no alterar la sustancia del análisis.¹⁴
D. Instrumentos de medición: rúbricas estandarizadas y control de variables
Para minimizar la subjetividad, todos los memorandos (273 en total) fueron anonimizados y calificados de forma ciega por un único investigador con más de veinte años de experiencia en escritura legal. Se utilizaron rúbricas preregistradas que evaluaron tres dimensiones principales: calidad sustantiva, organización y pulcritud (polish). Además, se recolectaron datos sobre el promedio de calificaciones (GPA), el año académico y la experiencia previa con IA para realizar análisis de regresión multivariante.¹⁵
4. Análisis metodológico: alcance y limitaciones
A. Fortalezas de validez interna mediante ensayo controlado aleatorizado
El diseño experimental es notable por su validez interna robusta, lograda mediante un RCT que aísla el efecto causal del acceso a la IA sobre el desempeño humano.¹⁶ La asignación aleatoria neutraliza sesgos de selección y equilibra tanto características observables (GPA, experiencia previa) como inobservables (motivación intrínseca).¹⁷
B. Limitaciones de la muestra: de estudiantes de derecho a la práctica profesional
Una limitación crítica es que la muestra consistió exclusivamente en estudiantes de segundo y tercer año de derecho en una única institución de nivel mundial. Los hallazgos pueden no generalizarse a abogados en ejercicio con experiencia práctica sustancial, o a jurisdicciones con estructuras curriculares diferentes. El impacto de la IA sobre el razonamiento de un abogado con quince años de práctica especializada probablemente difiera significativamente del de un estudiante que apenas está desarrollando competencias doctrinales básicas. Futuros estudios deben replicar este diseño con muestras más diversas y representativas de la profesión.
C. Controles de sesgo y validez de constructo
Se implementaron rigurosos controles de sesgo de confirmación mediante la anonimización de memos y la calificación ciega, lo que aumenta la confianza en la medición imparcial de la calidad. Sin embargo, la calificación de un único evaluador, aunque experimentado, introduce la posibilidad de idiosincrasias personales respecto a qué constituye "buena escritura legal". Un enfoque ideal habría empleado múltiples evaluadores independientes con análisis de confiabilidad entre evaluadores (inter-rater reliability) para verificar que las diferencias observadas no reflejan sesgos evaluadores.
5. Resultados experimentales: un panorama complejo
A. Productividad en síntesis: el efecto de aceleración
El resultado más notorio fue que la IA incrementó la productividad en la fase de síntesis entre un 50% y un 70%, sin que esto se acompañara de degradación en la calidad sustantiva del análisis.¹⁸ Los participantes que utilizaron Gemini 2.5 Pro produjeron memorandos aproximadamente 60% más extensos en el mismo período de tiempo, y los evaluadores no detectaron diferencias estadísticamente significativas en la coherencia analítica. Esta aceleración fue especialmente pronunciada para participantes con menor experiencia previa con IA, sugiriendo que incluso un "aprendizaje de usuario incipiente" fue rápidamente superado.
B. Comprensión posterior: ausencia de degradación cognitiva
Contrariamente a la hipótesis de "erosión cognitiva", los resultados mostraron que la exposición a la IA en la fase de síntesis no afectó negativamente a la comprensión posterior medida en el cuestionario de opción múltiple.¹⁹ De hecho, el grupo expuesto a IA obtuvo un promedio comparable, si no ligeramente superior, al del grupo de control. Este hallazgo desafía la suposición de que delegar la síntesis a la IA reduce el compromiso mental del individuo con el material.
Una explicación plausible radica en lo que los psicólogos cognitivos denominan el "efecto de retroalimentación cognitiva": al generar síntesis más rápidas y completas, la IA permitió a los participantes revisar y refinar múltiples versiones del material, incrementando de facto su exposición a los principios legales, aun cuando la composición hubiera sido asistida. En otros términos, la IA no reemplazó el pensamiento del participante, sino que aceleró el ciclo de revisión y refinamiento.
C. Aplicación independiente: el efecto de andamiaje positivo
Quizás el resultado más sorprendente fue que los participantes expuestos a la IA en la fase de síntesis superaron al grupo de control en la tarea de aplicación independiente, ejecutada sin asistencia tecnológica.²⁰ Esto sugiere que la síntesis asistida por IA funcionó como un "andamiaje" cognitivo: al proporcionarles una base doctrinal más sólida, estructurada y completa, permitió que los participantes posteriormente aplicaran la doctrina con mayor precisión y sofisticación analítica.
La interpretación causal propuesta es que la IA liberó la carga cognitiva dedicada a la recopilación y organización de fuentes, permitiendo que los participantes asignaran recursos mentales a tareas de orden superior: análisis comparativo, aplicación matizada a casos nuevos, anticipación de contraargumentos. El estudioso que ha "visto" una síntesis completa de la doctrina está mejor posicionado para manipular esos conceptos que quien debe descubrirlos por sí mismo bajo presión de tiempo.
D. Revisión: el efecto de nivelación y degradación de expertos
La cuarta fase reveló la cara oculta de la IA: el uso de herramientas de revisión asistida tendió a mejorar borradores débiles pero a degradar trabajos de mayor calidad inicial.²¹ Este "efecto de nivelación" se manifiesta como una compresión de la distribución de calidades, reduciendo tanto los extremos bajos como los altos.
Más específicamente, el análisis de regresión mostró que para participantes cuyo memorando de aplicación fue calificado en el tercil inferior (baja calidad inicial), la revisión asistida por IA mejoró significativamente la claridad, la estructura y la pulcritud, elevando el promedio del grupo aproximadamente 15 puntos porcentuales. Por el contrario, para participantes cuyo trabajo inicial fue clasificado en el tercil superior (calidad sustancialmente superior), la revisión asistida por IA tendió a homogeneizar el lenguaje, estandarizar la estructura argumentativa y, en algunos casos, dilluir matices doctrinales cuidadosamente construidos.²²
Dos mecanismos subyacentes probablemente expliquen este efecto:
Primero, la estandarización del lenguaje: Los modelos de lenguaje generativos se entrenan con corpus masivos que reflejan formas "típicas" o "estándar" de expresión jurídica. Cuando la IA revisa un texto, tiende a optimizar hacia esa normalidad estadística, eliminando giros particulares o énfasis sintácticos que un experto había deliberadamente seleccionado para sugerir matices doctrinales específicos.
Segundo, el sesgo de automatización: Existe literatura robusta mostrando que los humanos tienden a confiar excesivamente en sistemas automatizados, especialmente cuando provienen de fuentes percibidas como "expertas" (como modelos de IA de vanguardia). Cuando la IA sugiere que una redacción es "más clara" o "más pulida", los participantes tienden a aceptar esas sugerencias acríticamente, incluso si ello sacrifica la precisión técnica en favor de la accesibilidad.
6. Discusión: mecanismos del razonamiento jurídico asistido
A. El modelo de andamiaje versus sustitución
Los hallazgos sugieren que es útil concebir el rol de la IA en dos escenarios distintos según el momento de intervención:
En la fase de síntesis temprana, la IA opera como "andamiaje": facilita la organización y estructuración del problema legal, liberando recursos cognitivos para la aplicación posterior. Esto ocurre porque el participante aún debe comprender, evaluar y refinar el producto de la IA, lo que obliga el compromiso mental con el material.
En la fase de revisión tardía, la IA tiende a operar como "sustitución parcial": reemplaza el juicio humano sobre qué constituye mejora estilística, frecuentemente subordinando la precisión técnica a la claridad accesible. El riesgo se amplifica cuando el usuario es experto, porque presume erróneamente que la IA "entiende" los matices que él o ella había construido.
B. Implicaciones para la educación jurídica
El estudio sugiere que las facultades de derecho no deben resistir la integración de IA, sino estructurarla estratégicamente. Los hallazgos apoyan un modelo pedagógico donde se introduce la IA en tareas iniciales de síntesis (bajo supervisión), con el objetivo explícito de acelerar la consolidación de conocimiento doctrinal. Sin embargo, ello debe acompañarse de prohibiciones claras respecto al uso de IA en tareas de aplicación y revisión durante determinadas fases educativas.
Un currículo reformado podría estructurarse de la siguiente manera:
- Año 1: Prohibición de acceso a IA. Los estudiantes desarrollan comprensión doctrinal sin asistencia.
- Año 2: Introducción de IA en síntesis de fuentes bajo supervisión. Los estudiantes utilizan herramientas para organizar material, pero deben validar y aplicar independientemente.
- Año 3: IA permitida en revisión, pero bajo instrucciones explícitas de preservar matices sustantivos. Se enseña a los estudiantes a evaluar críticamente las sugerencias de la IA.
C. La profesión jurídica y el riesgo de homogeneización
Para los abogados en ejercicio, el estudio advierte contra lo que podría denominarse "confianza acrítica en cascada": la creencia de que porque la IA acelera la síntesis, también puede mejorar la revisión. Los hallazgos sugieren lo opuesto: cuanto mayor es la expertise del abogado, menor debería ser la intervención de la IA en fases tardías de refinamiento.
7. Implicaciones para la profesión y la educación jurídica
A. Guía para una integración responsable: el modelo de "humano en el bucle"
La evidencia de este estudio sugiere que la IA no debe ser vista como un sustituto del razonamiento, sino como un andamiaje que requiere una supervisión humana constante y experta. El principio fundamental es limitar el uso de la IA a aquellos dominios donde el abogado posea la experiencia necesaria para evaluar, adaptar y defender de manera independiente el producto generado.²³ Un abogado que utiliza la IA para construir argumentos en un área que no comprende corre el riesgo de producir un trabajo aparentemente adecuado pero que es incapaz de sostener en un debate oral o ante un escrutinio judicial riguroso. Las firmas legales deben adoptar un enfoque similar al de la supervisión de asociados junior, donde el profesional senior ejerce su juicio para decidir qué sugerencias tecnológicas aceptar y cuáles rechazar.
B. Estrategias de segmentación de tareas y prevención de la fatiga
Para minimizar el riesgo de desplazar el razonamiento independiente, se recomienda emplear la IA en tareas estrechas y bien definidas en lugar de delegar proyectos complejos de manera integral.²⁴ Por ejemplo, es preferible utilizar la IA para refinar párrafos individuales o revisar cláusulas contractuales específicas una vez que la teoría legal y la estructura del argumento ya han sido establecidas por el humano. La segmentación de tareas obliga al abogado a realizar el esfuerzo cognitivo inicial de mapear el problema legal, identificar matices y estructurar el análisis, permitiendo que la IA asista en la ejecución técnica sin usurpar el proceso de pensamiento crítico. Asimismo, es imperativo evitar el uso de IA bajo condiciones de fatiga cognitiva o límites de tiempo artificialmente estrechos, ya que estas circunstancias aumentan la propensión humana a diferir acríticamente a las sugerencias del sistema.²⁵
C. Agenda de investigación futura: efectos longitudinales y diversidad de dominios
Si bien este ensayo controlado proporciona una base causal sólida, el campo requiere investigaciones adicionales para abordar las limitaciones detectadas: (1) efectos a largo plazo – estudiar si la dependencia prolongada de la IA erosiona las habilidades cognitivas de forma acumulativa;²⁶ (2) diversidad de la muestra y dominios – replicar el diseño con abogados en ejercicio y en diversas áreas doctrinales para verificar la robustez del efecto de "andamiaje" y el riesgo de "nivelación";²⁷ (3) mecanismos de degradación en expertos – explorar si la regresión de los perfiles de alto rendimiento se debe a la estandarización del lenguaje, al sesgo de automatización o a la pérdida de matices doctrinales;²⁸ (4) litigios pro se – investigar cómo los litigantes sin formación jurídica utilizan la IA para navegar el sistema judicial, una prioridad para el acceso a la justicia.²⁹
8. Conclusión: cómo preservar el razonamiento humano en la era de la IA
Este análisis invita a la comunidad jurídica a evitar tanto la complacencia ante la automatización como el pánico ante la obsolescencia cognitiva. Los hallazgos derivados de este ensayo controlado proporcionan evidencia causal de que el uso de la IA en el trabajo legal no erosiona inevitablemente el razonamiento independiente; por el contrario, cuando se emplea para asistir en tareas iniciales de síntesis doctrinal, la IA puede mejorar la calidad de los productos intermedios y, en consecuencia, potenciar el desempeño del razonamiento humano posterior, incluso una vez retirada la herramienta.
Sin embargo, los resultados también demuestran que la IA no es un bien absoluto ni exento de riesgos. Su introducción en la etapa de revisión reveló una dualidad crítica: mientras que es capaz de elevar el nivel de borradores débiles, puede desplazar y degradar el juicio de los profesionales más expertos, sugiriendo que la tecnología puede suplantar la agudeza humana si no se gestiona con rigor.
La lección para la abogacía contemporánea no reside en la aceptación o el rechazo categórico de la IA generativa, sino en la capacidad de abogados, jueces y académicos para distinguir entre las formas de uso que sirven como un "andamiaje" para la mente humana y aquellas que la sustituyen de forma acrítica. El futuro de la práctica legal no dependerá simplemente de si los abogados utilizan IA, sino de si son capaces de estructurar su uso de manera que se preserven y fortalezcan las capacidades humanas de las que, en última instancia, depende un juicio jurídico sólido y justo.
Notas al pie
- Ver estudio original, pp. 2-3 (citando resultados de exámenes legales y tareas de estudiantes).
- Id., p. 3 ("practical impact muted").
- Id., pp. 4-5 (categorías de riesgo).
- Id., p. 5 (citando opiniones de comités de ética de la ABA, Florida, Nueva York, etc.).
- Id., pp. 15-16 (estudios sobre escritura SAT, diagnóstico médico, reclutamiento).
- Id., p. 19 ("gold standard").
- Id., p. 19 (preregistro mencionado en la nota 54 y texto).
- Id., pp. 27-28 (reclutamiento y compensación).
- Id., p. 26 (jurisdicción hipotética "Gopher").
- Id., pp. 22-23 e instrucciones Apéndice, pp. 68-69.
- Id., p. 23 (seis preguntas, 10 minutos).
- Id., p. 24 (aplicación sin IA).
- Id., pp. 24-25 (revisión con IA, 20 minutos).
- Id., p. 29 (grading ciego y rúbricas).
- Id., p. 19 (RCT como estándar).
- Id., p. 60 (pruebas de balance, Tabla A1).
- Id., p. 50.
- Id., pp. 51-52.
- Id., p. 50.
- Id., p. 51.
- Id., p. 32, Tabla 2.
- Id., pp. 36, Tablas 3 y 4.
- Id., p. 37, Tabla 5.
- Id., p. 40, Tabla 6.
- Id., p. 41, Figura 2.
- Id., p. 42, Tabla 7.
- Id., pp. 46-47, Tabla 10 y Figura 3.
- Id., p. 49.
- Id., p. 17 (teoría de erosión cognitiva).
Artículos relacionados
Musk v. Altman: ¿Fue OpenAI construida sobre una mentira?
Análisis de la demanda masiva de Elon Musk contra Sam Altman y OpenAI por alegada conducta fraudulenta en la transformación de la organización de nonprofit a for-profit. Juicio en curso en el tribunal federal de California.
Regla 707: Cómo Daubert va a blindar los tribunales contra la IA opaca
La propuesta Regla Federal de Evidencia 707 extiende el estándar Daubert a la IA generativa. Análisis completo del marco normativo, controversias y impacto procesal en EE.UU.
Accidente de trabajo digital: la Sentencia 13/2024 que protege al moderador
La Sentencia 13/2024 de Barcelona reconoce por primera vez el síndrome de burnout en moderadores de contenidos como accidente laboral. Cómo la ley española evoluciona ante los riesgos psicosociales de la era digital.
USA v. Farris: La Responsabilidad Ética de los Abogados en el Uso de IA Generativa
Análisis exhaustivo de la sentencia del Sixth Circuit que sanciona a un abogado por utilizar IA sin verificar citas falsas. Examina obligaciones éticas, estándares de competencia y consecuencias disciplinarias.