Yandex enseñó redes neuronales a descifrar registros de archivo con ortografía compleja
Miscelánea / / April 03, 2023
Los manuscritos históricos, que son difíciles de analizar para una persona, se convierten casi instantáneamente en texto impreso mediante inteligencia artificial.
Yandex ha lanzado un nuevo servicio llamado Archive Search, que utiliza redes neuronales para descifrar registros de archivo con ortografía prerrevolucionaria compleja.
El servicio proporciona acceso a más de 2,5 millones de páginas de documentos históricos con transcripciones de texto. Su algoritmo, construido sobre la base de un sistema de reconocimiento óptico de caracteres, tiene en cuenta las peculiaridades de la escritura a mano, reconoce las letras que han perdido su relevancia y comprende la estructura especial de los documentos de archivo.
Los especialistas de la empresa entrenaron la red neuronal en una matriz de datos de cientos de miles de líneas escritas a mano de textos reales de los siglos XVIII y XIX y decenas de millones de ejemplos generados.
Manuscritos que son difíciles de analizar para una persona no preparada, la tecnología Yandex se convierte casi instantáneamente en texto impreso. Gracias a esto, en la base de datos del servicio, puede encontrar rápidamente documentos con una mención del apellido, la localidad o cualquier otra palabra.
La "búsqueda en archivos" aumentará la eficiencia del trabajo de historiadores, sociólogos, demógrafos, genealogistas y ayudará a quienes buscan información sobre su familia.
El primer fondo presentado en el servicio fue el Archivo Principal de Moscú: fue en sus materiales que los desarrolladores entrenaron la red neuronal. La base de datos también contiene documentos de los archivos de las regiones de Orenburg y Novgorod. Con el tiempo, aumentará la cantidad de almacenamientos y archivos escaneados disponibles.
Puede buscar materiales del siglo XVIII a principios del XX, que son los más populares entre los usuarios. Se trata de padrones parroquiales, hojas de confesión y cuentos de revisión con los resultados del censo de población. Los documentos se pueden encontrar en el catálogo o a través de la barra de búsqueda. Hay filtros por años, archivos, fondos e inventarios.
Junto al escaneo de cada página, se muestra una decodificación línea por línea realizada por redes neuronales. Si pasa el cursor sobre el fragmento deseado, se resaltará inmediatamente en la copia digital.