Cómo la inteligencia artificial puede ser manipulada para ciberataques y delitos

Jorge Avila · 14 de mayo de 2026

Por Andrés David García García
Director de División de Ingeniería y Ciencias del Tecnológico de Monterrey, Campus San Luis Potosí.

Hace unos días, un amigo me recomendó leer un artículo publicado recientemente en el New York Times y firmado por Gabriel J.X. Dance, el cual narra brevemente una hipotética situación en la que un grupo de científicos genera un instructivo para fabricar armas biológicas utilizando herramientas de inteligencia artificial que se usan cotidianamente por cualquier persona, como GPT-4, Gemini o Claude.

Este hipotético escenario, en el que se solicita a la IA generar un instructivo paso a paso para desarrollar y desplegar armas biológicas basadas en virus como el ántrax o la poliomielitis, parecería extraído de una novela de ciencia ficción. Entrando en el detalle de la historia, las herramientas de IA son “manipuladas” por separado para generar este instructivo, el cual podría incluir el número de catálogo para comprar secuencias de ADN de los virus, las condiciones —equipo y materiales— para su manipulación, el desarrollo de una concentración adecuada y los métodos de dispersión en el ambiente.

Lo cierto es que el artículo del NYT se basa en una serie de pruebas documentadas y en testimonios de expertos en bioseguridad. Y, en efecto, si se redacta de forma adecuada y segmentada usando distintas herramientas de IA, esto podría ser factible. Sin embargo, compañías como OpenAI, Anthropic, Google y Meta desestiman esta posibilidad, argumentando que las versiones actuales de sus herramientas cuentan con mecanismos que permiten identificar e incluso restringir el acceso a usuarios maliciosos.

La siguiente pregunta sería: ¿acaso ya ha ocurrido? Y la respuesta es afirmativa. En agosto de 2025, en India, un médico fue arrestado por planear un ataque con base en una potente toxina, la ricina. En este caso, el médico utilizó ChatGPT y Gemini para obtener paso a paso las instrucciones de extracción y estabilización de la toxina. Afortunadamente, la interacción en las herramientas de IA deja suficientes rastros y la evidencia contundente fue encontrada en su teléfono celular.

Es importante considerar algunos aspectos que dan a esta historia un grado de complejidad muy elevado y, por consiguiente, muy pocas —aunque no nulas— probabilidades de éxito. Más allá de los mecanismos de identificación de uso malicioso y de bloqueo que las herramientas han desarrollado, el desarrollo de un ente biológico letal requiere de infraestructura —equipos, materiales, reactivos y condiciones de seguridad— que difícilmente podría instalarse en una cochera o un sótano.

Considerando que existe al menos un caso documentado y estudios realizados por distintas unidades académicas especialistas en ciberseguridad, debemos tomar este asunto con enorme seriedad, ya que el mecanismo para “engañar” a la IA tiene un cierto nivel de factibilidad. Esto ocurre porque las herramientas suponen que los usuarios pueden tener intenciones legítimas, por ejemplo, buscar mecanismos de protección ante una eventual pandemia como la de COVID-19, desarrollar medicamentos para tratar enfermedades virales o crear antídotos para contrarrestar alguna toxina.

Si bien en el terreno de las armas biológicas existen muchas limitantes para poder realizar un ataque de esta naturaleza, en otros contextos podría ser más factible desarrollar un “paso a paso” de un hackeo, por ejemplo, contra entidades gubernamentales o el sector financiero.

Algunos estudios, como el realizado por la Universidad de Princeton en conjunto con la Universidad de Virginia a principios de este mismo año, han puesto en evidencia la vulnerabilidad de las herramientas de IA. De forma general, la metodología que estos estudios han implementado para “engañar” a las herramientas de IA se podría resumir de la siguiente forma:

Segmentar el contexto general del tema en subtemas y utilizar distintas herramientas de IA para cada uno.
Para cada subtema, iniciar el diálogo definiendo un contexto legítimo: investigador, académico, miembro de una ONG o responsable de seguridad industrial o gubernamental.
Reforzar las ideas de forma positiva para evitar los mecanismos de identificación de una intención maliciosa, aprovechando que los LLM (Large Language Model) basan su funcionamiento en el aprendizaje dentro del contexto.
Profundizar sutilmente y de forma escalonada en el tema específico, logrando que, después de cinco o más interacciones, el algoritmo genere la respuesta esperada.

De otra forma, si se buscara generar el diálogo desde el contexto general y en las primeras interacciones, el LLM podría identificar fácilmente el contexto, permitiendo que los algoritmos de protección actúen rápidamente.

A todo esto se le conoce como “ataque de múltiples turnos” o “ataque de escalada progresiva” (multi-prompt attack, many-shot jailbreak o crescendo attack).

Los mecanismos de defensa implementados, como los algoritmos clasificadores de intercambio (Exchange Classifiers) o los sistemas en cascada basados en filtros y algoritmos de análisis profundo, buscan identificar e inhibir diálogos maliciosos analizando de forma conjunta cada pregunta del usuario y la respuesta del modelo, supervisando en tiempo real la conversación. Esto permite evaluar las respuestas de cada iteración dentro del contexto completo del diálogo, con el fin de identificar un ataque como el descrito.

Independientemente de los mecanismos que las empresas de herramientas de IA estén desarrollando para evitar situaciones como la descrita en el artículo del NYT, existe la necesidad de consolidar un marco jurídico, así como mecanismos basados en cómputo forense que permitan identificar y, en su caso, sancionar actos maliciosos.

La mayoría de los países cuenta con instituciones de seguridad, como la policía cibernética, que mediante metodologías de investigación forense digital permiten identificar dispositivos y cuentas de usuarios maliciosos, analizar historiales de conversaciones y archivos generados, y construir información que pueda sustentar una investigación judicial.

Por otro lado, el tema que todavía sigue sobre la mesa legislativa —y que avanza con mayor rapidez en regiones como Europa— es el del marco jurídico de la IA. La discusión versa sobre el hecho de que la responsabilidad de un probable ataque de múltiples turnos es imputable a la persona —sea individuo, empresa u organización—, ya que la IA no es sujeto de derecho penal.

De tal suerte que el castigo recae sobre las personas responsables y, en muchos países, existen leyes que permiten sancionar este tipo de comportamiento. Por ejemplo, el marco jurídico de la Unión Europea prohíbe explícitamente usar cualquier tipo de herramienta o algoritmo de IA para 16 delitos graves, como terrorismo, trata de personas y tráfico de armas, entre otros.

México es, sin duda, uno de los países que más ha avanzado en temas de legislación y regulación de la IA en América Latina. El Senado de la República ha trabajado, con ayuda de más de 70 especialistas en IA, en la Ley General de Inteligencia Artificial, en la cual se define con claridad la figura legal de la IA; se clasifican los actos prohibidos y los riesgos; se define una autoridad nacional en temas de IA; y se establece un régimen de sanciones. Desde el punto de vista técnico, en nuestro país se han logrado avances importantes en el desarrollo de mecanismos de ciberseguridad que contemplan el uso malicioso de la IA.

Sin embargo, existen grandes dudas sobre la capacidad del Estado mexicano para prevenir ataques cibernéticos, así como para investigar y eventualmente sancionar a los responsables. Por un lado, se tiene un sistema judicial desbordado y una fiscalía con capacidades muy limitadas de investigación de crímenes digitales —falta de peritos especializados, plataformas tecnológicas, entre otros recursos—.

Recientemente, dependencias gubernamentales mexicanas, entre ellas el SAT y el INE, sufrieron un ciberataque. Si bien no se trató de un ataque con armas biológicas, sí fue un hackeo en el cual las herramientas Claude Code y ChatGPT presuntamente fueron utilizadas para generar gran parte de los comandos del algoritmo de intrusión. El atacante empleó técnicas similares a las descritas previamente.

La historia del NYT, en conjunto con el caso documentado en India, el ciberataque a dependencias mexicanas y las investigaciones de especialistas en ciberseguridad, brinda un panorama sobre la vulnerabilidad de las herramientas de IA ante ataques de múltiples turnos o de escalada progresiva. Esto dicta un sentido de urgencia para que, por un lado, las empresas de IA desarrollen mecanismos que permitan identificar y bloquear este tipo de uso malicioso; y, por otro, se requiere consolidar un marco jurídico en temas de inteligencia artificial que permita regular su uso, acompañado de una fiscalía con capacidades humanas y tecnológicas adecuadas.