80% de la información usada por IA sale del internet

Nos hemos lanzado a usar las herramientas de inteligencia artificial generativa (ChatGPT, Copilot, Midjourney, entre otras) sin entender muy bien cómo funcionan. Hacemos preguntas y demandas para que creen un texto, un discurso, una traducción, que pongan la información en una tabla o representen un texto en formato de imagen. Además, hemos podido ver como día a día la precisión, calidad y funcionamiento de estas herramientas mejoraba de forma exponencial.

Y mientras vamos aprendiendo a usar estas herramientas, nos olvidamos de preguntar ¿de dónde salen los datos que alimentan estas herramientas?, ¿hay algún límite para su uso?, ¿cómo mejoran tan rápido?, ¿van a mantener ese ritmo de mejora a lo largo del tiempo?

¿De dónde salen los datos?

Para que herramientas de Inteligencia Artificial funcionen son entrenadas con una gran cantidad de datos. No es que “usen todo lo que hay en internet”.

En 2007 se fundó Common Crawl, en California, una organización que tiene como objetivo que cualquiera pueda acceder a todos los datos de internet. Así, mantiene un repositorio abierto y gratuito de datos de rastreo web que cualquiera puede utilizar. Cada tres meses se descargan Internet (es decir, hacen un crawling de toda la web que, medido en tokens, serían unos cinco trillones de tokens), lo ordenan (eliminan duplicidades, páginas no entradas…) y lo ponen en abierto y de forma gratuita para todo aquél que quiera utilizarlo.

Aquí acuden todas las organizaciones que necesitan datos para entrenar a sus algoritmos. Además de estos datos, que pueden representar hasta 80% de todo lo que usan, muchas de ellas llegan a acuerdos con repositorios (medios de comunicación, agencias de noticias) para obtener también sus datos (a menudo “cerrados”) y completar el entrenamiento de sus algoritmos.

La IA es tan buena como los datos de los que aprende. Las empresas que invierten en soluciones basadas en IA suelen plantearse la misma pregunta crucial: ¿cuántos datos son suficientes para entrenar un modelo fiable y eficiente? La respuesta no es tan simple como que cuanto más grande, mejor. La calidad es tan importante como la cantidad. La clave está en comprender el equilibrio entre ambas.

El mito de que más datos siempre son mejores

Muchos creen que alimentar un sistema de IA con la mayor cantidad de datos posible la hará más eficiente, pero si los datos son confusos, inconsistentes o irrelevantes, el modelo de IA tendrá dificultades para ofrecer resultados significativos. Es como entrenar a un chef con cientos de recetas aleatorias con ingredientes faltantes e instrucciones poco claras. En lugar de dominarlas, se obtiene confusión.

El papel del aprendizaje continuo en el entrenamiento de IA

La IA no deja de aprender tras su entrenamiento inicial. A medida que el entorno empresarial evoluciona, surgen nuevas tendencias y el comportamiento de los clientes cambia, los modelos de IA necesitan información continua para mantenerse relevantes. Aquí es donde entra en juego el aprendizaje continuo. En lugar de centrarse únicamente en acumular grandes conjuntos de datos, las empresas deberían priorizar la alimentación de la IA con datos relevantes y actualizados en tiempo real.

Riesgos de adentrarse en la IA de manera descuidada

La Inteligencia Artificial es parte cada vez más preponderante de nuestro día a día: ya sea fuente de consulta o como herramienta para optimizar cuestiones laborales y de estudio. Lo cierto es que un uso incorrecto o descuidado de la IA puede exponernos a riesgos innecesarios y peligrosos.

En este escenario, la empresa WeLiveSecurity realizó una encuesta, en septiembre de 2025, entre más de 1,000 personas de Venezuela, México, Colombia, Argentina, Perú, Guatemala, Chile, Ecuador, El Salvador, Uruguay, Panamá, Honduras, Costa Rica, Nicaragua, Bolivia, República Dominicana y Paraguay.

Uno de los datos obtenidos es que el 80% dijo usar la IA (45% lo hace frecuentemente, y 35% ocasionalmente),

chart visualization

pero 55% no siempre revisa la información obtenida. El 14% no lo hace nunca, y el 39% lo hace solamente a veces.

chart visualization

Si bien es cierto que los modelos de IA pueden entregar información certera, no están exentos de generar respuestas incorrectas o sesgadas. Por eso, para garantizar la seguridad siempre es aconsejable contrastar la información obtenida con fuentes oficiales.

Datos personales: el gran descuido

Otro punto a tener en cuenta es que el 40% afirmó compartir con frecuencia o esporádicamente información personal y laboral con la Inteligencia Artificial (el 17% siempre, y el 25% a veces). Lo que preocupa más es que casi el 60% no lee las políticas de privacidad y que solo la mitad de las personas toma una medida concreta para proteger su información.

En principio, es aconsejable evitar compartir datos personales y sensibles. Por ejemplo, no ingresar proactivamente información personal, como por ejemplo contraseñas o datos bancarios, en cualquier chat de IA, porque estas herramientas pueden procesar dicha información e incluso utilizarla para entrenar futuros modelos, por lo cual es necesario minimizar el riesgo de que esos datos se almacenen y se expongan en el futuro.

Además de no compartir información personal y laboral en este tipo de herramientas, es muy importante tomar conocimiento de todas las configuraciones de privacidad para entender qué tipo de datos se almacenan, si se comparten con terceros y cómo pueden ser utilizados en el futuro.

El futuro y la IA: optimismo y preocupación

De cara al futuro, la Inteligencia Artificial es vista con muy buenos ojos por la mayoría de los encuestados: 80% la ve como algo positivo. Un 43% cree que la IA será útil en los próximos años, pero con riesgos asociados. Entre las principales preocupaciones vinculadas al uso de la IA, se encuentran:

  • 65%: fraudes y estafas
  • 47%: deepfakes y fakenews
  • 45%: falta de privacidad y recopilación de datos

Respecto del primer punto (fraudes y estafas), no es una novedad que el cibercrimen ha encontrado en la Inteligencia Artificial una herramienta más que potente para llevar sus estafas y fraudes a otro nivel. De hecho, aumentó el número de correos de phishing, dado que la IA generativa genera contenidos cada vez más convincentes para que las víctimas revelen información sensible u obtener algún rédito económico.

Las estafas por audio también se han perfeccionado, al punto que se necesitan tan solo unos pocos segundos de la voz de una persona para producir algo peligrosamente real.

En cuanto a las deepfakes y fakenews, hay un dato del MIT que avala esta preocupación: las noticias falsas tenían un 70% de probabilidad más de ser compartidas que las noticias reales. Si bien el estudio tiene ya algunos años, basta con pasar algunas horas en redes sociales y foros para suponer que ese número sigue siendo válido.

De hecho, los ciberdelincuentes también utilizan la información fabricada como una herramienta. Hay sitios web que aparentan ser medios legítimos y publican artículos diseñados para generar alarma. ¿El objetivo? Redirigir a los usuarios a páginas maliciosas. Este tipo de phishing combina desinformación con tácticas de ingeniería social, creando escenarios convincentes que facilitan el fraude digital.

Respecto del último punto (privacidad y recopilación de datos), remarcamos lo apuntado anteriormente: es clave entender qué tipo de datos almacena la herramienta utilizada, si luego se comparte con terceros y de qué manera será usada esa información en el futuro.

De acuerdo con analistas, la Inteligencia Artificial gana terreno, pero queda mucho camino por recorrer en cuanto a los hábitos responsables: revisar meticulosamente la información, tener cuidado al compartir datos sensibles e interesarse en las políticas de privacidad son acciones que deberían incorporarse a la cotidianidad.

La solución no está en temer a la herramienta o dejar de usarla, sino en incorporar acciones concretas, para utilizarla de manera segura y crítica.

 

(Con información de Wired y WeLiveSecurity)