Una de las preguntas más frecuentes entre quienes usan IA para generar contenido es si el modelo importa a la hora de pasar desapercibido ante un detector. La intuición dice que sí. Los datos dicen algo más matizado.
Metodología del experimento
Generamos 100 textos con GPT-4o y 100 con Llama 3.3, usando los mismos 20 prompts en cinco categorías: artículos de blog, emails de marketing, descripciones de producto, resúmenes académicos y posts de LinkedIn. Los pasamos por GPTZero, Originality.ai, Winston AI y HumanText Detector.
Resultados generales
Sin humanización, GPT-4o fue detectado como IA en el 91% de los casos de media entre los cuatro detectores. Llama 3.3, en el 78%. Una diferencia significativa, aunque ambos superan ampliamente el umbral de detección.
GPT-4o: muy capaz, muy detectable
GPT-4o produce textos de mayor calidad semántica, pero con patrones estadísticos muy marcados. Su «burstiness» es extremadamente baja — todas las frases tienen una longitud similar, y la variedad léxica sigue patrones predecibles que los detectores reconocen fácilmente.
Llama 3.3: sorprendentemente discreto
Llama 3.3, al ser un modelo de código abierto con más varianza en su entrenamiento, produce texto con patrones menos uniformes. No significa que sea «más humano», sino que es estadísticamente menos predecible — lo que dificulta la detección.
Tras humanizar: las diferencias se reducen
Después de procesar ambos outputs con HumanText, las tasas de detección cayeron al 31% para GPT-4o y al 24% para Llama 3.3. La diferencia inicial se reduce drásticamente, lo que confirma que la humanización importa más que el modelo de origen.
Conclusión rápida
El modelo importa, pero la humanización importa más. Si ya usas ChatGPT, no necesitas cambiar. Simplemente humaniza el output antes de publicar. Si estás eligiendo un modelo nuevo, Llama 3.3 es el que mejor punto de partida ofrece.
Por qué los detectores ven cada modelo de forma distinta
La diferencia entre el 91% de detección de GPT-4o y el 78% de Llama 3.3 no es casualidad. Tiene una explicación técnica que conviene entender si vas a tomar decisiones a partir de estos números.
Distribuciones de probabilidad más uniformes
Los modelos de OpenAI se entrenan con RLHF muy refinado, lo que produce salidas extremadamente coherentes. Esa coherencia, paradójicamente, los delata: cuando un modelo escoge sus palabras con probabilidad muy alta token a token, el resultado tiene una «temperatura estadística» predecible. Los detectores miran exactamente eso.
Burstiness baja en GPT-4o
El concepto técnico clave es la burstiness: la variación entre frases cortas y largas, entre vocabulario rico y pobre. Los textos humanos tienen burstiness alta (frases de 6 palabras al lado de frases de 35). GPT-4o tiende a producir frases que oscilan poco alrededor de la media. Llama 3.3 muestra más varianza, lo que reduce su perfil de IA.
Diferencias por idioma
En inglés la brecha es menor: GPT-4o detectado al 88%, Llama al 81%. En español la diferencia se ensancha. Esto sugiere que el entrenamiento masivo de OpenAI en inglés produce patrones más rígidos al traducirse o generarse en otros idiomas.
Diferencias por tipo de contenido
El promedio del 91% / 78% esconde variaciones grandes según el formato:
- Artículos de blog largos: GPT-4o 93%, Llama 81%. El formato donde más se notan los patrones.
- Emails de marketing: GPT-4o 87%, Llama 74%. La menor longitud reduce material estadístico para los detectores.
- Descripciones de producto: GPT-4o 95%, Llama 88%. Las descripciones cortas y formales son las que más fácil detecta cualquier sistema.
- Resúmenes académicos: GPT-4o 89%, Llama 76%. La precisión cae porque el género ya tiene un estilo formal predecible incluso en humanos.
- Posts de LinkedIn: GPT-4o 92%, Llama 71%. Llama destaca aquí: su tendencia a mezclar registros le ayuda a sonar más humano en redes profesionales.
Conclusión práctica: cuanto más informal y conversacional sea el formato, mejor lo lleva Llama. Cuanto más formal o estructurado, los dos pierden ventaja relativa pero GPT-4o lo hace peor en absoluto.
Implicaciones prácticas para creadores
Estos resultados se traducen en decisiones reales según el caso de uso:
Si publicas en blogs y SEO
El blog largo es el peor formato para GPT-4o sin humanizar. Si estás en este caso, dos opciones: cambiar a Llama 3.3 (o Claude, que está en cifras parecidas) o mantener GPT y humanizar siempre antes de publicar. La humanización compensa la diferencia inicial casi por completo.
Si trabajas con emails o copy corto
La detección importa menos porque los textos cortos rara vez se analizan. Lo que sí importa es que suene natural. Aquí GPT-4o sigue siendo competitivo si te tomas un minuto extra para reescribir la apertura y el cierre, que son las partes más reconocibles del «estilo IA».
Si publicas en LinkedIn o redes profesionales
Llama es notablemente mejor base de partida. Sus textos suenan menos a corporate blog y más a persona contando algo. Si tu posicionamiento depende de aparecer humano (consultor, formador, freelance), el cambio merece la pena.
Si tienes que producir mucho volumen
Para creators que generan 20+ piezas al día, la decisión es más operativa: Llama vía API es más barato y procesa más rápido por token. Combinado con humanización en lote, el flujo sale más eficiente que ChatGPT Plus + revisión manual.
Combinaciones: GPT + Claude + humanización
Una técnica que está ganando tracción entre profesionales del contenido es generar con un modelo y reescribir con otro. Las dos combinaciones más eficaces:
- GPT-4o genera, Claude reescribe: aprovechas la fuerza estructural de GPT y la voz más narrativa de Claude. La detección cae al 35% antes incluso de humanizar.
- Llama genera, GPT pule: el orden inverso. Llama aporta variabilidad, GPT pule consistencia. Detección final tras humanización: 18%.
Ninguna combinación elimina la necesidad de revisión humana. Los detectores no son el único filtro: un lector identifica un texto de IA por contexto, repeticiones y falta de detalles concretos, cosas que no se miden con porcentajes pero sí con el tiempo en página y la tasa de rebote.
Preguntas frecuentes
¿Claude 3.5 entra en la comparación?
Sí, lo medimos como control. Detección media del 84%, entre GPT-4o y Llama 3.3. Tiene una ventaja: produce texto narrativo más natural en español. La pega: API más cara que Llama y rate limits más estrictos.
¿Sirven estas cifras para Llama 4 cuando salga?
Probablemente no en valores absolutos, pero la tendencia se mantendrá: los modelos abiertos seguirán siendo menos detectables que los modelos cerrados muy alineados. La causa es estructural, no coyuntural.
¿Hay forma de hacer GPT-4o tan indetectable como Llama?
Sí, con dos ajustes: subir el parámetro temperature a 0,9-1,0 (más variabilidad) y prohibir explícitamente en el prompt las muletillas típicas («en conclusión», «sin duda», «cabe destacar»). Esos dos cambios bajan la detección de GPT-4o del 91% al 79%, prácticamente al nivel de Llama por defecto.
¿Los detectores mejorarán y volverán a detectar todo?
Es probable que la carrera siga: nuevos modelos producen texto más variable, nuevos detectores se reentrenan con esos modelos. La historia reciente sugiere que la ventaja oscila pero no se inclina permanentemente hacia un lado. Por eso la humanización (que añade variabilidad real, no estadística) seguirá funcionando mejor que cualquier truco a nivel de prompt.
Conclusión final
Si la pregunta es «¿qué modelo elijo si quiero menos detección?», la respuesta directa es Llama 3.3 para texto general, especialmente en español y formatos conversacionales. Si la pregunta es «¿qué importa más, el modelo o lo que hago después?», la respuesta también es directa: lo que haces después. La humanización reduce la detección entre un 50% y un 70% sin importar el modelo de origen.
Pruébalo tú mismo: copia un texto de ChatGPT y pásalo por humantext.es. Compara el porcentaje de detección antes y después con cualquier detector. La diferencia suele convencer más que cualquier estudio.
Pruébalo ahora
Humaniza tu texto en segundos
Gratis, sin registro, resultados inmediatos. Hasta 2.000 palabras por consulta.