ChatGPT vs Llama 3: ¿cuál genera texto más difícil de detectar?

Una de las preguntas más frecuentes entre quienes usan IA para generar contenido es si el modelo importa a la hora de pasar desapercibido ante un detector. La intuición dice que sí. Los datos dicen algo más matizado.

Metodología del experimento

Generamos 100 textos con GPT-4o y 100 con Llama 3.3, usando los mismos 20 prompts en cinco categorías: artículos de blog, emails de marketing, descripciones de producto, resúmenes académicos y posts de LinkedIn. Los pasamos por GPTZero, Originality.ai, Winston AI y HumanText Detector.

Resultados generales

Sin humanización, GPT-4o fue detectado como IA en el 91% de los casos de media entre los cuatro detectores. Llama 3.3, en el 78%. Una diferencia significativa, aunque ambos superan ampliamente el umbral de detección.

GPT-4o: muy capaz, muy detectable

GPT-4o produce textos de mayor calidad semántica, pero con patrones estadísticos muy marcados. Su «burstiness» es extremadamente baja — todas las frases tienen una longitud similar, y la variedad léxica sigue patrones predecibles que los detectores reconocen fácilmente.

Llama 3.3: sorprendentemente discreto

Llama 3.3, al ser un modelo de código abierto con más varianza en su entrenamiento, produce texto con patrones menos uniformes. No significa que sea «más humano», sino que es estadísticamente menos predecible — lo que dificulta la detección.

💡

Por eso HumanText usa Llama 3.3 como motor de humanización: su arquitectura produce variaciones más naturales que modelos más grandes pero más «perfectos».

Tras humanizar: las diferencias se reducen

Después de procesar ambos outputs con HumanText, las tasas de detección cayeron al 31% para GPT-4o y al 24% para Llama 3.3. La diferencia inicial se reduce drásticamente, lo que confirma que la humanización importa más que el modelo de origen.

Conclusión

El modelo importa, pero la humanización importa más. Si ya usas ChatGPT, no necesitas cambiar. Simplemente humaniza el output antes de publicar. Si estás eligiendo un modelo nuevo, Llama 3.3 es el que mejor punto de partida ofrece.

Pruébalo ahora

Humaniza tu texto en segundos

Gratis, sin registro, resultados inmediatos. Hasta 2.000 palabras por consulta.

Humanizar texto gratis Ver todas las herramientas

Metodología del experimento

Resultados generales

GPT-4o: muy capaz, muy detectable

Llama 3.3: sorprendentemente discreto

Tras humanizar: las diferencias se reducen

Conclusión

Humaniza tu texto en segundos

También te puede interesar