

Каждый год на Ближнем Востоке находят всё более древние тексты, написанные как на иврите, так и на арамейском. Анализ этих текстов имеет колоссальное значение для ученых, изучающих культуру и историю этого региона.
Поскольку многие из этих надписей со временем были повреждены из-за землетрясений, пожаров, политических конфликтов и других природных и антропогенных причин, эпиграфисты – специалисты, занимающиеся реконструкцией, переводом и датировкой надписей, а также выявлением соответствующих обстоятельств, оставляли историкам задачу определения и интерпретации записанных событий. До недавнего времени они полагались на трудоемкие ручные процессы для восстановления недостающего контента, что стало серьезной проблемой при попытках восстановления пропущенных частей этих ценных текстов.
Теперь студенты факультета программной инженерии и информационных систем Университета Бен-Гуриона в Негеве (BGU) в Беэр-Шеве подошли к решению этой задачи, рассматривая ее как расширенную задачу моделирования замаскированного языка. В таком подходе поврежденный контент может включать в себя отдельные символы, n-граммы символов (части слов), отдельные слова и многословные n-граммы. Это исследование стало первой попыткой применить методы моделирования замаскированного языка к искаженным надписям на иврите и арамейском, использующим еврейский алфавит, в основном состоящий из согласных.
В своем заключительном проекте под руководством профессора Марка Ласта студенты четвертого курса бакалавриата Нив Фоно, Харель Мошайоф, Эльдар Кароль и Итай Асраф применили метод моделирования замаскированного языка к поврежденным надписям на иврите и арамейском языках.
Их модель под названием «Embible» была представлена на последнем заседании Европейского отделения Ассоциации компьютерной лингвистики в прошлом месяце. Они опубликовали свои результаты в журнале ACL Anthology под заголовком «Embible: реконструкция древних еврейских и арамейских текстов с использованием трансформеров».
Система проанализировала тысячи предложений из Танаха (еврейской Библии). Студенты обучили ее на 22 144 предложениях из Танаха. При тестировании на оставшихся 536 предложениях система показала значительный успех. Ансамбль моделей для предсказания слов и символов продемонстрировал наивысшую точность.
«Мы можем помочь историкам, которые посвятили свою жизнь как можно более точному воссозданию этих древних текстов», — подчеркнули они. И добавили: «Кроме того, я убежден, что модель можно адаптировать для работы с другими морфологически сложными древними языками».
Опубликовано на сайте The Jerusalem Post
Телеграм канал Радио Хамсин >>