Некоторые зашифрованные тексты не удается декодировать на протяжении сотен и даже тысяч лет. Вероятно, это получится изменить с помощью ИИ
10:40
, Сегодня
0
Что можно узнать из зашифрованных древних текстовВ Ватиканской апостольской библиотеке более четырех веков хранится рукописная книга из 408 страниц, большую часть которой до недавнего времени было невозможно прочитать. В тексте использованы 34 необычных символа вперемешку с отдельными латинскими буквами, а надпись на титульном листе сделана на арабском. Ключ к шифру, известному как шифр Борга, был утерян. Кроме того, некоторые страницы в силу возраста книги были повреждены.
Книга, написанная с использованием шифра Борга
Biblioteca Apostolica Vaticana
Как пишет «Би-би-си», ученым удалось расшифровать содержимое книги с помощью машинного обучения
. Текст, как гласила надпись в начале рукописи, содержал рецепты лечения «телесных недугов». После расшифровки выяснилось, что, например, для борьбы с дизентерией рекомендовалось выпивать несколько бокалов хорошего красного вина или ферментировать мускатный орех в тесте. Подобные методы лечения держались в тайне, поскольку могли вызвать подозрения в колдовстве.
Фрагмент расшифрованного текста
Beáta Megyesi / Stockholm University
Около 1% хранящихся в библиотеках и архивах материалов могут быть зашифрованными. Профессор вычислительной лингвистики Стокгольмского университета Беата Медьеши, работавшая над декодированием шифра Борга, считает, что процесс расшифровки можно значительно ускорить с помощью искусственного интеллекта.
В разные времена люди шифровали разведданные, ритуалы тайных обществ, медицинские знания, любовную переписку — все, что хотели сохранить в секрете. Расшифровка подобных документов, которых сейчас нет в исторических хрониках, может изменить наше представление об эпохе или о конкретных исторических деятелях. Например, в 2023 году криптографы расшифровали более 50 писем, которые королева Шотландии Мария Стюарт писала во время заточения в Англии, с 1578 по 1584 годы. Из этих писем стали известны подробности участия Стюарт в заговорах против Елизаветы I с целью возвращения трона, а также детали ее напряженных отношений с сыном — Яковом VI Шотландским, будущим королем Англии Яковом I.
Один из разворотов рукописной книги, написанной с использованием шифра Борга
Biblioteca Apostolica Vaticana
Некоторые шифры устроены очень просто: каждому символу соответствует латинская буква. Иногда для обозначения одной и той же буквы может использоваться сразу несколько различных знаков. Есть и более запутанные варианты. Кроме того, в шифр могут намеренно добавить лишние бессмысленные символы. А в отдельных случаях исследователи ничего не знают о языке, на котором изначально был написан зашифрованный текст.
Все это сильно усложняет им работу. Например, Сесиль Пьеро и ее коллеги около полугода расшифровывали три страницы текста. Это было письмо императора Священной Римской империи и короля Испании Карла V своему послу во Франции Жану де Сен-Морису. Император писал о возможном покушении на себя, которое, как он считал, готовил король Франции Франциск I. Письмо было зашифровано с использованием 120 символов. Некоторые из них заменяли целые слова.
Ключ к шифру Борга
Stockholm University
Сначала рукописный зашифрованный документ нужно перевести в цифровой формат. На две страницы, по словам Пьеро, может уйти целый день: дело часто осложняют неразборчивый почерк и выцветшие страницы. После этого электронный документ загружается в специальную программу, которая пытается подобрать ключ к шифру.
Искусственный интеллект начинает ускорять этот процесс. Так, Мишель Вальдиспюль из Университета Осло и ее коллеги использовали онлайн-платформу Transkribus для расшифровки письма эпохи Тридцатилетней войны (1618–1648 гг.г). Его в 1637 году написал дворянин Сигизмунд Хойснер фон Вандерслебен шведскому риксканцлеру Акселю Оксеншерне. Он сообщал об угрозе заговора среди союзников Швеции.
Transkribus, обученный на письмах на нескольких языках, написанных с XV по XVIII век, может распознавать и переводить рукописный текст в цифровой формат. С письмом фон Вандерслебена, которое было зашифровано с помощью чисел, инструмент справился успешно — хотя небольшое вмешательство со стороны ученых все же потребовалось.
У существующих инструментов для транскрипции возникают трудности, когда в документе используются нестандартные или вымышленные знаки. Поэтому Беата Медьеши, Мишель Вальдиспюль и их коллеги из разных стран вместе разрабатывают новый инструмент на основе ИИ, который смог бы преобразовать такие тексты в машиночитаемые документы — Descrypt.
После того, как исходный текст переведен в электронный формат, криптологи могут работать над его расшифровкой с помощью специальных программ (которые пока не используют ИИ). Простые шифры часто удается взломать, используя частотный анализ символов: их сопоставляют с буквами алфавита, которые встречаются в данном языке столь же часто. Например, наиболее распространенная буква в английском — E, тогда как Z, Q и X встречаются реже всего. Но в том же письме фон Вандерслебена для обозначения буквы E использовались восемь разных символов. Такой шифр можно было вскрыть только очень постепенно, методом проб и ошибок — и с участием человека, знающего старонемецкий язык. Вальдиспюль надеется, что ИИ со временем ускорит эту работу.
Чего хотят добиться исследователиМедьеши и ее коллеги пытаются полностью исключить из процесса этап транскрипции и сразу подбирать ключ к шифру на основе фотографий страниц. Исследователи обнаружили, что такой подход может работать в случае с простыми шифрами, где одному символу соответствует одна буква.
Систему протестировали на кодексе Копиале — немецкой зашифрованной рукописи XVII века объемом 105 страниц, которая рассказывает о тайном обществе масонского типа. Искусственный интеллект, обученный на образцах рукописного почерка и изображениях строк шифра в связке с их расшифровкой, смог декодировать те фрагменты текста, которые раньше не видел.
Главная сложность, которая стоит перед командой Descrypt, — это необходимость собрать достаточный объем данных для тренировки ИИ. Большие языковые модели вроде ChatGPT обучаются на триллионах слов, взятых из книг, статей и из интернета. В то же время масштаб находок исследователей, работающих над Descrypt, гораздо скромнее. Например, им удалось собрать 400 открыток конца XIX — начала XX веков. Судя по немногим расшифрованным фрагментам, это любовные письма на немецком языке.
Команда Медьеши создала чат-бот с ИИ, который выполняет транскрипцию и дешифровку текста за один этап. Он также документирует процесс и объясняет свои решения, что помогает исключить вероятность того, что ИИ галлюцинирует. Фрагмент в 500 символов из шифра Борга бот смог перевести и расшифровать примерно за полчаса. Он также предоставил перевод на английский. Система также справилась и с двумя другими шифрами, ключи к которым ученые подобрали ранее.
Команда Descrypt надеется, что сможет взломать шифры, которые до сих пор остаются неразгаданными. Вероятно, инструмент поможет в работе с древними текстами, написанными алфавитами, которые сегодня никто не может прочитать. Например, Фестский диск
с Крита, созданный во втором тысячелетии до нашей эры.
«Меня воодушевляет не только возможность разгадать одну конкретную историческую загадку, но и перспектива создания методов, которые могут помочь исследователям решить множество других задач», — говорит Медьеши.
Книга, написанная с использованием шифра Борга
Biblioteca Apostolica Vaticana
Как пишет «Би-би-си», ученым удалось расшифровать содержимое книги с помощью машинного обучения
. Текст, как гласила надпись в начале рукописи, содержал рецепты лечения «телесных недугов». После расшифровки выяснилось, что, например, для борьбы с дизентерией рекомендовалось выпивать несколько бокалов хорошего красного вина или ферментировать мускатный орех в тесте. Подобные методы лечения держались в тайне, поскольку могли вызвать подозрения в колдовстве.
Фрагмент расшифрованного текста
Beáta Megyesi / Stockholm University
Около 1% хранящихся в библиотеках и архивах материалов могут быть зашифрованными. Профессор вычислительной лингвистики Стокгольмского университета Беата Медьеши, работавшая над декодированием шифра Борга, считает, что процесс расшифровки можно значительно ускорить с помощью искусственного интеллекта.
В разные времена люди шифровали разведданные, ритуалы тайных обществ, медицинские знания, любовную переписку — все, что хотели сохранить в секрете. Расшифровка подобных документов, которых сейчас нет в исторических хрониках, может изменить наше представление об эпохе или о конкретных исторических деятелях. Например, в 2023 году криптографы расшифровали более 50 писем, которые королева Шотландии Мария Стюарт писала во время заточения в Англии, с 1578 по 1584 годы. Из этих писем стали известны подробности участия Стюарт в заговорах против Елизаветы I с целью возвращения трона, а также детали ее напряженных отношений с сыном — Яковом VI Шотландским, будущим королем Англии Яковом I.
Один из разворотов рукописной книги, написанной с использованием шифра Борга
Biblioteca Apostolica Vaticana
Некоторые шифры устроены очень просто: каждому символу соответствует латинская буква. Иногда для обозначения одной и той же буквы может использоваться сразу несколько различных знаков. Есть и более запутанные варианты. Кроме того, в шифр могут намеренно добавить лишние бессмысленные символы. А в отдельных случаях исследователи ничего не знают о языке, на котором изначально был написан зашифрованный текст.
Все это сильно усложняет им работу. Например, Сесиль Пьеро и ее коллеги около полугода расшифровывали три страницы текста. Это было письмо императора Священной Римской империи и короля Испании Карла V своему послу во Франции Жану де Сен-Морису. Император писал о возможном покушении на себя, которое, как он считал, готовил король Франции Франциск I. Письмо было зашифровано с использованием 120 символов. Некоторые из них заменяли целые слова.
Ключ к шифру Борга
Stockholm University
Сначала рукописный зашифрованный документ нужно перевести в цифровой формат. На две страницы, по словам Пьеро, может уйти целый день: дело часто осложняют неразборчивый почерк и выцветшие страницы. После этого электронный документ загружается в специальную программу, которая пытается подобрать ключ к шифру.
Искусственный интеллект начинает ускорять этот процесс. Так, Мишель Вальдиспюль из Университета Осло и ее коллеги использовали онлайн-платформу Transkribus для расшифровки письма эпохи Тридцатилетней войны (1618–1648 гг.г). Его в 1637 году написал дворянин Сигизмунд Хойснер фон Вандерслебен шведскому риксканцлеру Акселю Оксеншерне. Он сообщал об угрозе заговора среди союзников Швеции.
Transkribus, обученный на письмах на нескольких языках, написанных с XV по XVIII век, может распознавать и переводить рукописный текст в цифровой формат. С письмом фон Вандерслебена, которое было зашифровано с помощью чисел, инструмент справился успешно — хотя небольшое вмешательство со стороны ученых все же потребовалось.
У существующих инструментов для транскрипции возникают трудности, когда в документе используются нестандартные или вымышленные знаки. Поэтому Беата Медьеши, Мишель Вальдиспюль и их коллеги из разных стран вместе разрабатывают новый инструмент на основе ИИ, который смог бы преобразовать такие тексты в машиночитаемые документы — Descrypt.
После того, как исходный текст переведен в электронный формат, криптологи могут работать над его расшифровкой с помощью специальных программ (которые пока не используют ИИ). Простые шифры часто удается взломать, используя частотный анализ символов: их сопоставляют с буквами алфавита, которые встречаются в данном языке столь же часто. Например, наиболее распространенная буква в английском — E, тогда как Z, Q и X встречаются реже всего. Но в том же письме фон Вандерслебена для обозначения буквы E использовались восемь разных символов. Такой шифр можно было вскрыть только очень постепенно, методом проб и ошибок — и с участием человека, знающего старонемецкий язык. Вальдиспюль надеется, что ИИ со временем ускорит эту работу.
Чего хотят добиться исследователиМедьеши и ее коллеги пытаются полностью исключить из процесса этап транскрипции и сразу подбирать ключ к шифру на основе фотографий страниц. Исследователи обнаружили, что такой подход может работать в случае с простыми шифрами, где одному символу соответствует одна буква.
Систему протестировали на кодексе Копиале — немецкой зашифрованной рукописи XVII века объемом 105 страниц, которая рассказывает о тайном обществе масонского типа. Искусственный интеллект, обученный на образцах рукописного почерка и изображениях строк шифра в связке с их расшифровкой, смог декодировать те фрагменты текста, которые раньше не видел.
Главная сложность, которая стоит перед командой Descrypt, — это необходимость собрать достаточный объем данных для тренировки ИИ. Большие языковые модели вроде ChatGPT обучаются на триллионах слов, взятых из книг, статей и из интернета. В то же время масштаб находок исследователей, работающих над Descrypt, гораздо скромнее. Например, им удалось собрать 400 открыток конца XIX — начала XX веков. Судя по немногим расшифрованным фрагментам, это любовные письма на немецком языке.
Команда Медьеши создала чат-бот с ИИ, который выполняет транскрипцию и дешифровку текста за один этап. Он также документирует процесс и объясняет свои решения, что помогает исключить вероятность того, что ИИ галлюцинирует. Фрагмент в 500 символов из шифра Борга бот смог перевести и расшифровать примерно за полчаса. Он также предоставил перевод на английский. Система также справилась и с двумя другими шифрами, ключи к которым ученые подобрали ранее.
Команда Descrypt надеется, что сможет взломать шифры, которые до сих пор остаются неразгаданными. Вероятно, инструмент поможет в работе с древними текстами, написанными алфавитами, которые сегодня никто не может прочитать. Например, Фестский диск
с Крита, созданный во втором тысячелетии до нашей эры.
«Меня воодушевляет не только возможность разгадать одну конкретную историческую загадку, но и перспектива создания методов, которые могут помочь исследователям решить множество других задач», — говорит Медьеши.
по материалам meduza
Комментарии
Комментариев пока что нет
Ещё Новости
