El Dr. David Wright, un experto en lingüística forense, ha examinado miles de correos electrónicos para mostrar que es posible identificar a alguien analizando pequeñas secuencias de palabras y probar así de quién es el autor. La investigación busca ayudar en los retos que se tienen cuando se enfrentan con evidencia lingüística en la Corte o en reportes específicos.
Los científicos usan métodos como algoritmos y análisis estadístico para medir la similitud entre textos. Sin embargo, esto puede ser para los expertos difícil de explicar, es decir, el por qué estos esquemas distinguen entre los estilos de escritura de las personas y los hacen únicos.
Como parte de su investigación, el Dr. Wright analizó miles de correos de 12 empleados de una excompañía de energía e identificó correctamente en un 95% a los autores de los mismos, en donde las muestras de correo no eran mayores de 1000 palabras.
La técnica usada fue comparar qué tan frecuentemente los empleados usaban una secuencia particular de palabras en sus correos. estas secuencias de palabras eran de longitud variable, de dos a seis palabras y eran tan básicas como “por favor, revisemos y entonces discutamos en asunto”, por ejemplo. Esto es como medir si aparecen las “muletillas” que todos tenemos en el lenguaje y que, desde luego, también se observa en el idioma escrito.
AlphaGo Zero: un avance de la Inteligencia Artificial sin precedente
La investigación se basó en miles de correos electrónicos de la compañía de energía estadounidense Enron. Más de 1.7 millones de correos de esta …