Saltar al contenido

Traductor de Google: Qué es y cómo usar

enero 10, 2022

El Traductor de Google , o útil , es la herramienta más conocida en el mundo para la traducción automática. Es posible gracias a la gran cantidad de datos de Google. Para un extraño en la industria de la traducción como yo, Google Translate parecía representar un gran avance en la calidad de la traducción cuando se presentó por primera vez. Sin embargo, desde entonces, sus mejoras de calidad parecen más incrementales cuando son visibles para todos. ¿Cómo le fue tan bien al Traductor de Google? ¿Y cómo se puede evitar el estándar de calidad y seguir mejorando?

Uno de los aspectos positivos de ser periodista es que cuando tienes preguntas como esta, puedes simplemente llamar a las personas que mejor conoces y preguntarles. El equipo de prensa de Google respondió a mi correo electrónico y me hizo varias preguntas sobre el Traductor.

Primero, ¿de dónde obtuvo Google todos sus datos? Él rastrea y guarda texto de aproximadamente un billón de páginas web, pero ¿cómo sabe qué es el texto traducido por humanos para ejecutar sus algoritmos de aprendizaje estadístico? Pensé que tal vez los humanos seleccionaran y codificaran los textos para introducirlos en el motor.

¿Eres una persona que traduce al Traductor de Google?

Pero Google explicó que el motor de búsqueda simplemente busca páginas que parecen ser traducciones entre sí. Quizás tengan dominios idénticos, solo uno termina en / pt y el otro termina en / br. Quizás tengan nombres propios o números idénticos en la misma posición. El software no considera una coincidencia como más o menos probable que sea una traducción; es una decisión binaria o binaria, dentro o fuera.

¿Cómo estuvo tan bien? El salto inicial de calidad provino de la masa pura. Un artículo de 2009 de tres investigadores de Google respondió a la «envidia física» que sienten los estudiantes de los fenómenos humanos. Un artículo clásico de la década de 1960 se titulaba «La eficacia irracional de las matemáticas en las ciencias naturales», exaltando el poder de fórmulas como f = ma. La lingüística no tiene tal fórmula. Pero los investigadores de Google respondieron llamando a su artículo de 2009 «La efectividad irracional de los datos».

El enfoque de Google es que un enfoque simple en cantidades masivas de datos es mejor que un enfoque inteligente en datos limitados. Con tantos datos, es de esperar que los errores se cancelen en un gran agregado.

Además de todos estos datos confusos sin etiquetar y sin etiquetar, Google obtiene algunos datos especiales de traductores profesionales: la Oficina Europea de Patentes comparte datos con Google, por ejemplo, aunque Hughes dice que estos datos son EPO (a pesar de su alta calidad) que actualmente no tienen un peso especial. en el traductor público de Google . Señala con sensatez que muchas personas utilizan Google Translate para slangia o con fines de lenguaje hablado, por lo que dar demasiado peso al tipo de lenguaje en una solicitud de patente sería menos que ideal.

Pero incluso Google tiene límites sobre lo que pueden hacer grandes cantidades de datos. Hay miles de posibles pares de idiomas en las docenas de idiomas que ofrece Google Translate. Pero para la gran mayoría de estos pares (por ejemplo, finlandés-zulú), hay poco o ningún texto de capacitación disponible, incluso en un billón de páginas web. Por lo tanto, el usuario que espera traducir del finlandés al zulú en Google Translate experimentará un idioma «puente», casi con certeza el inglés.

Esto, por supuesto, amplía las posibilidades de error. Asya Pereltsvaig, que enseña lingüística en Stanford, tomó Google Translate para traducir una canción infantil rusa con «dos gansos felices» al francés y convertir deux oies gay: dos gansos gay. El culpable fue, por supuesto, el doble significado de «gay» en inglés, el idioma puente entre el ruso y el francés.

Esto conduce a otro problema. Pereltsvaig tradujo esta frase con Google Translate, por muy mala que sea. La traducción falsa ahora se encuentra en la web, donde Google la rastreará y se puede devolver al Traductor de Google. ¿Y si el servicio, para decirlo sin rodeos, consume su propia basura?

Hughes reconoce el problema con franqueza. Google trató de «etiquetar» electrónicamente sus traducciones para que el rastreador las reconociera y tratara de evitar que los errores regresen al sistema como entrada. Y luego están las páginas web que simplemente tienen el mismo texto, sospechosamente, en todos los idiomas que ofrece Google Translate. El sistema puede adivinar que estos fueron traducidos por Google y evitar retroalimentarlos al sistema.

¿Más datos ayudarían a una organización que ya tiene tantos? ¿Diez billones de páginas serían visiblemente mejores que un billón? Hughes vuelve a ser franco: para los pares de idiomas más comunes, «hemos llegado al límite en el que más datos son útiles».

El traductor de Google usa cámara

Sus esfuerzos se han centrado en hacer que Google Translate sea más inteligente, jugando con mejoras basadas en reglas para ver si mejoran la calidad. En otras palabras, si el primer gran salto de Google Translate provino de una enorme capacidad de datos y computación, al menos para los grandes lenguajes, su próximo salto dependerá más de la ingeniería de software inteligente. Por ejemplo, el análisis automático puede mejorar el orden de las palabras en las traducciones.

Y menciona las redes neuronales como una vía de búsqueda particularmente emocionante; esto, después de todo, ha sido particularmente útil en el reconocimiento de voz de Google.

Pero hay otra forma: la gran empresa de software está pidiendo a los buenos usuarios humanos que se ciñan a sus conocimientos. Si es un usuario frecuente del Traductor de Google, probablemente haya notado «Ayude a mejorar el Traductor de Google» en la parte inferior de la página. Estos esfuerzos impulsados ​​por el usuario tienen un impacto particularmente fuerte para aquellos idiomas para los que los datos son escasos y los usuarios son voluntarios entusiastas.

Un titán de datos como Google es lo suficientemente inteligente como para conocer los límites de los datos. Hughes espera que algunos avances radicales (no discutidos) aún puedan conducir a un salto repentino en la calidad de Google Translate. Pero incluso en ausencia, se espera que los ciclos de recopilación de datos y la innovación incremental eleven gradualmente la aguja de la calidad. Y la sabiduría de las multitudes, los usuarios de Google, podría aumentar aún más.