base de conocimiento
CTRL+F para buscar su palabra clave

Tatoeba

Tatoeba

Tatoeba.org es una base de datos colaborativa gratuita en línea de oraciones de ejemplo dirigidas a estudiantes de idiomas extranjeros. Su nombre proviene del término japonés "tatoeba" (例 え ばtatoeba ), que significa "por ejemplo". A diferencia de otros diccionarios en línea, que se centran en las palabras, Tatoeba se centra en la traducción de oraciones completas. Además, la estructura de la base de datos y la interfaz enfatizan las relaciones uno a muchos. Una oración no solo puede tener múltiples traducciones dentro de un solo idioma, sino que sus traducciones a todos los idiomas son fácilmente visibles, al igual que las traducciones indirectas que involucran una cadena de enlaces paso a paso de un idioma a otro.

El objetivo del proyecto.

El objetivo del Proyecto Tatoeba es crear una base de datos de oraciones y traducciones que pueda utilizar cualquier persona que desarrolle una aplicación de aprendizaje de idiomas. La idea es que el proyecto cree los datos, por lo que los programadores pueden centrarse en codificar la aplicación.

Los datos recopilados por el proyecto están disponibles gratuitamente bajo una licencia Creative Commons Attribution (CC-BY).

Contenido

A partir de junio de 2019, el Tatoeba Corpus tiene más de 7,500,000 oraciones en 337 idiomas. Los 10 idiomas principales constituyen el 73% del corpus. Noventa y ocho de estos idiomas tienen más de 1,000 oraciones. Los 14 idiomas principales tienen más de 100,000 oraciones cada uno. La interfaz está disponible en 48 idiomas diferentes.

Tatoeba.org es también el hogar actual del Tanaka Corpus, una serie de dominio público de aproximadamente 150,000 pares de oraciones inglés-japonés compilada por el profesor de la Universidad de Hyogo, Yasuhito Tanaka, lanzado por primera vez en 2001, y donde está siendo sometido a sus últimas revisiones.

La estadística real de todos los idiomas se encuentra en

Historia

Tatoeba fue fundada por Trang Ho en 2006. Originalmente organizó el proyecto en Sourceforge bajo el nombre de proyecto "multilangdict".

Interfaz

Los usuarios, incluso aquellos que no están registrados, pueden buscar palabras en cualquier idioma para recuperar oraciones que las usan. Cada oración en la base de datos Tatoeba se muestra junto a sus traducciones en otros idiomas; Las traducciones directas e indirectas son diferenciadas. Las oraciones están etiquetadas por contenido como materia, dialecto o vulgaridad; También tienen hilos de comentarios individuales para facilitar comentarios y correcciones de otros usuarios y notas culturales. A principios de 2016, más de 200,000 oraciones en 19 idiomas tenían lecturas de audio. Las oraciones también se pueden navegar por idioma, etiqueta o audio.

Los usuarios registrados pueden agregar nuevas oraciones o traducir o corregir las existentes, incluso si su idioma de destino no es su lengua materna. Sin embargo, se prefiere que los usuarios traduzcan a su idioma nativo o "más fuerte" y agreguen oraciones de su idioma nativo en lugar de traducir o agregar desde su idioma de destino. Las traducciones están vinculadas a la oración original automáticamente. Los usuarios pueden editar libremente sus propias oraciones, "adoptar" y corregir oraciones sin un propietario, y comentar las oraciones de otros. Los contribuyentes avanzados, un rango por encima de los contribuyentes ordinarios, pueden etiquetar, vincular y desvincular oraciones. Los mantenedores de corpus, un rango por encima de los contribuyentes avanzados, pueden eliminar etiquetas y eliminar oraciones. También pueden modificar las oraciones propias, aunque generalmente lo hacen solo si el propietario no responde a una solicitud para realizar el cambio.

Estructura de la base de datos

La estructura de datos básica de Tatoeba es una serie de nodos y enlaces. Cada oración es un nodo; cada enlace une dos oraciones con el mismo significado.

Licencia

Toda la base de datos de Tatoeba se publica bajo una licencia Creative Commons Attribution 2.0, liberándola para uso académico y de otro tipo.

Subsidios

Tatoeba recibió una subvención de Mozilla Drumbeat en diciembre de 2010.

Algunos trabajos en la infraestructura de Tatoeba fueron patrocinados por Google Summer of Code, edición 2014.

En mayo de 2018, recibieron una subvención del programa Mozilla Open Source Support (MOSS) de $ 25,000.

Uso

Los corpus de texto en paralelo, como Tatoeba, se utilizan para una variedad de tareas de procesamiento del lenguaje natural, como la traducción automática. Los datos de Tatoeba se han utilizado como datos para la traducción automática japonesa y estadística de la banca de árboles, así como el diccionario WWWJDIC japonés-inglés y los pares de oraciones bilingües y la práctica de lectura y traducción en japonés en www.ManyThings.org.

Edición sin conexión

El contenido seleccionado de Tatoeba - 83,932 frases en esperanto junto con todas sus traducciones a otros idiomas - apareció en la tercera edición del DVD multilingüe Esperanto Elektronike ("Esperanto electrónico") publicado en 6,000 copias por E @ I en julio de 2011.

Los datos delimitados por tabuladores listos para importar a Anki y software similar se pueden descargar desde http://www.manythings.org/anki/