Una de las preguntas más frecuentes entre quienes usan IA para generar contenido es si el modelo importa a la hora de pasar desapercibido ante un detector. La intuición dice que sí. Los datos dicen algo más matizado.
Metodología del experimento
Generamos 100 textos con GPT-4o y 100 con Llama 3.3, usando los mismos 20 prompts en cinco categorías: artículos de blog, emails de marketing, descripciones de producto, resúmenes académicos y posts de LinkedIn. Los pasamos por GPTZero, Originality.ai, Winston AI y HumanText Detector.
Resultados generales
Sin humanización, GPT-4o fue detectado como IA en el 91% de los casos de media entre los cuatro detectores. Llama 3.3, en el 78%. Una diferencia significativa, aunque ambos superan ampliamente el umbral de detección.
GPT-4o: muy capaz, muy detectable
GPT-4o produce textos de mayor calidad semántica, pero con patrones estadísticos muy marcados. Su «burstiness» es extremadamente baja — todas las frases tienen una longitud similar, y la variedad léxica sigue patrones predecibles que los detectores reconocen fácilmente.
Llama 3.3: sorprendentemente discreto
Llama 3.3, al ser un modelo de código abierto con más varianza en su entrenamiento, produce texto con patrones menos uniformes. No significa que sea «más humano», sino que es estadísticamente menos predecible — lo que dificulta la detección.
Tras humanizar: las diferencias se reducen
Después de procesar ambos outputs con HumanText, las tasas de detección cayeron al 31% para GPT-4o y al 24% para Llama 3.3. La diferencia inicial se reduce drásticamente, lo que confirma que la humanización importa más que el modelo de origen.
Conclusión
El modelo importa, pero la humanización importa más. Si ya usas ChatGPT, no necesitas cambiar. Simplemente humaniza el output antes de publicar. Si estás eligiendo un modelo nuevo, Llama 3.3 es el que mejor punto de partida ofrece.
Pruébalo ahora
Humaniza tu texto en segundos
Gratis, sin registro, resultados inmediatos. Hasta 2.000 palabras por consulta.