Digital

«Яндекс» научил нейросеть читать старинные рукописи

Telecom Daily | 31 января

Пресс-служба компании «Яндекс» сообщила, что теперь нейросеть может расшифровывать записи со сложной дореволюционной орфографией, написанные в XVIII–XIX веках и не всегда каллиграфическим почерком. Елена Бубнова, руководитель «Поиска Яндекса», добавила: «Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах «Яндекса».

Попробовать технологию в действии можно в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 млн страниц исторических документов с текстовой расшифровкой.

Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Известно, что материалы XVIII — начала XX веков больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса».

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.