Как PDF стал фактически главным форматом для работы с документами
В 2022 году, когда российские компании начали массово переходить на отечественное программное обеспечение, сильнее остальных пострадал документооборот. Ведь раньше работа строилась по простой схеме: создать документ в экосистеме Microsoft (Windows, Office: Word, Excel, PowerPoint и т.п.), далее в корпоративном ЭДО обсудить правки и согласовать, продолжая использовать формат документов от MS Office, а уже затем распечатать документы или экспортировать его в PDF и отправить контрагенту по почте. Этот сценарий работал десятилетиями, но с отказом Microsoft от работы на российском рынке и в режиме экстренного перехода на новое ПО он сломался.
Сейчас у пользователей стоят разные операционные системы и разные офисные программы. Из-за чего документ, который создали в одной офисной программе в одном формате, в другой программе может открываться с ошибками — верстка съезжает или вовсе пропадают целые слова, шрифты меняются, таблицы распадаются. На выручку российскому документообороту пришел универсальный формат-посредник — PDF. Потому что, если вы не знаете, какая программа стоит у адресата, то PDF — может быть единственным вариантом, который он точно сможет открыть.
Отечественные программные продукты в настоящий момент не имеют единой спецификации в работе с PDF-документами, что приводит к разночтениям
Получилось, что пока одни отечественные производители офисных программ боролись с другими за умы и бюджеты пользователей, PDF-редакторы начали заменять классические текстовые и табличные редакторы в регулярной работе. Некоторые компании в требованиях к закупаемому ПО уже прямо пишут: нужен редактор для PDF, который позволяет создавать и править договоры и накладные с нуля, а еще вести расчеты и показывать видеоролики. Получился парадокс: формат PDF, который изначально задумывался как финальная не редактируемая версия документа (электронный аналог печатного документа), в России стал одним из основных рабочих форматов для совместной работы с документами и внесением в них правок.
К тому же российское законодательство закрепило формат PDF как основу документооборота: для межведомственного и кадрового обмена, для электронных договоров с контрагентами, а также для работы федеральных органов власти обязателен формат PDF/A.
Внутреннее устройство PDF и откуда берется хаос
Когда PDF-редакторы стали важным инструментом в российском электронном документообороте, возникла новая проблема: если вносить изменения в один PDF-документ в разных программах, то внешний вид документа может измениться настолько, что с ним становится неудобно работать.
Чтобы понять почему так происходит нужно заглянуть внутрь формата PDF. Электронный документ PDF — это не документ в привычном пользователю смысле (листы с текстом, таблицами и картинками, которые на экране выглядят так же как и при печати на принтере), а программный код с набором команд для программы: «нарисуй букву здесь», «сделай шрифт такого размера», «сдвинься в точку с такими координатами». Когда пользователь редактирует PDF в интерфейсе своей программы, на самом деле он меняет эти команды, а программы могут сохранить изменения двумя способами.
Инкрементальное сохранение. Редактор дописывает изменения в конец файла, не трогая оригинал. Это похоже на добавление записей на полях книги: книга остается прежней, но поля пестрят правками. Плюс: быстро. Минус: PDF-документ увеличивается в размерах и в нем может оставаться удаленная информация.
Полная перезапись. Редактор перестраивает структуру документа при сохранении заново — словно перепечатывает книгу в новой редакции. Плюс: файл чище и легче. Минус: это уже другой PDF со своей логикой.
Современные PDF-редакторы могут использовать оба этих способа, а также смешанный.
Эффект испорченного телефона
Но настоящая проблема в том, что разные программы, которые используются для редактирования и создания PDF-файлов (включая в том числе и ставшие привычными облачные сервисы для CRM, бухгалтерского учета, документооборота и другие), делают это по-разному и используют разные версии стандартов PDF, а единого правила нет.
Каждая программа по-своему читает PDF-файл и по-своему его сохраняет. Уже после первого полного сохранения первоначальная структура документа меняется. Работая годами в привычной экосистеме продуктов от Microsoft, Adobe и других западных производителей этого не замечаешь. Но сейчас в рамках одной компании или государственной организации может использоваться сразу несколько разных редакторов под разные операционные системы, каждый переход файла из одной программы в другую вносит свои изменения при его редактировании, порой необратимые.
Тихая угроза: как PDF-редактор компрометирует электронную подпись
Электронная подпись — это криптографическая гарантия неизменности: если в документе изменился хоть один байт, одно слово или одна цифра, тогда подпись «ломается» и становится недействительной. Именно такое ожидание возникает у пользователя, который видит в полученном документе красивый штамп электронной подписи с именем и должностью подписанта, датой и контрольными суммами.
Но этот штамп — только видимая часть. Чтобы подпись можно было действительно проверить, пользователю нужна вся «цепочка доверия»: «слепок» сертификата подписанта, информация о сертификатах удостоверяющего центра и так далее. Все эти файлы должны передаваться вместе с документом или быть заранее установленными на компьютере получателя. Но на практике этого не происходит: по электронной почте и в корпоративных системах документооборота пользователи пересылают друг другу только PDF-документы. И когда получатель видит в редакторе привычный «штамп» — он склонен доверять своим глазам, не подозревая, что за кадром скрывается отсутствие нужных служебных файлов и сертификатов.
Здесь возникает парадокс, опасный именно своей незаметностью. Подписанный документ со «штампом» вызывает больше доверия, чем неподписанный — пользователь буквально своими глазами видит «гарантию» и верит в нее. Но этот же документ по пути мог быть открыт в другом PDF-редакторе, где в него внесли правки, заменив пару цифр или даты — а «штамп» останется прежним. Электронная подпись кажется пользователю действительной, а на самом деле уже все сломано.
Настоящая проблема в том, что разные программы, которые используются для редактирования и создания PDF-файлов, делают это по-разному
Правильный ответ здесь однозначен: подписанный электронной подписью документ — должен быть неприкосновенен. Любые правки требуют снятия подписи и повторного подписания исправленной версии. Это не техническое ограничение, а юридическая логика: подпись удостоверяет конкретную редакцию, а не документ вообще. Проблема в том, что этой логики нет ни в одном регуляторном документе, описывающем требования к PDF-документам и способам работы с ними. Не существует стандарта, который бы предписывал каждому PDF-редактору запрещать редактирование подписанного файла или явно маркировать правки. Мало того, отдельные пользователи считают важным конкурентным преимуществом возможность PDF-редактора вносить «на лету» правки в подписанные документы.
Пока такого стандарта нет, бизнес работает в зоне неочевидного риска: документ выглядит подписанным, но его содержимое могло измениться уже после подписания — и ни отправитель, ни получатель об этом не знают.
Следующий шаг: стандартизация технических решений
Чтобы PDF-документы не искажались при переносе файла из одной программы в другую, нужно, чтобы все эти программы работали по единым открытым правилам.
Вот что для этого необходимо:
- общий способ читать и записывать PDF, чтобы все программы понимали файл одинаково;
- единый стандарт описания структуры документа — где заголовок, где абзац, где таблица;
- проверка перед сохранением, чтобы файл точно соответствовал этим правилам.
Почему это не сделано до сих пор? Глобально — исходно это политическая проблема: монополия западных корпораций на «правильную» интерпретацию спецификации PDF. Локально — до наступления фазы «активного импортозамещения» такой задачи не стояло. В России уже есть обязательный стандарт для государственных документов (PDF/A). Следующий шаг — сделать так, чтобы все программы для работы с PDF использовали единые технические правила чтения и записи документов, и тогда документы перестанут искажаться после нескольких правок.
Проблема PDF и искусственный интеллект
Корпоративные ИИ-ассистенты сегодня активно внедряют в банках, госкомпаниях, крупных и небольших компаниях. Принцип прост: загрузи документы, задай агенту вопросы и получи ответ со ссылкой на источник.
Но чтобы это действительно работало, система должна сначала «прочитать» документ, то есть извлечь из него текст и структуру. Как уже говорилось, PDF-файл хранит не документ, а инструкции для его «отрисовки». Сейчас это «лечится» внедрением в ИИ-системы модулей оптического распознавания текста (OCR). На практике это может означать, что для получения нужного результата компания должна потратить время на подготовку документов перед загрузкой в ИИ-системы. А в ряде случаев юридически значимые документы могут просто не попадать в ИИ-аналитику, потому что система «не увидела» в них текст из-за низкого качества исходного документа или не смогла определить его реальную структуру. При стандартизации такой сложный способ будет просто не нужен.
PDF-файл хранит не документ, а инструкции для его «отрисовки»
Если пропустить этап обучения ИИ-ассистента на подготовленных данных или использовать в обучении некачественные данные, то в работе ИИ-ассистент начинает галлюцинировать — агент «придумывает» несуществующие факты или искажает информацию из документа, что особенно опасно в юриспруденции, финансах и медицине. А при избыточной автоматизации пользователи начинают делегировать свои полномочия и принятие решений ИИ-ассистенту, теряя при этом навыки критической оценки информации и оценки рисков.
Выводы
Описанная проблема возникает каждый день в тысячах компаний: документы, прошедшие через несколько PDF-редакторов, теряют верстку; подписи формально остаются валидными, но документ уже изменен; корпоративные ИИ-системы не могут разобрать собственные же документы и обработать их.
Все это следствие одного и того же: у разных программ нет единых правил чтения и записи PDF. Каждая программа для редактирования PDF-документов делает это по-своему, а сам документ, переходя из рук в руки и из программы в программу, постепенно утрачивает исходную структуру. Гибкость формата PDF, которая когда-то считалась его преимуществом, в российской много платформенной среде оборачивается хаосом.
Можно продолжать выпускать новые версии редакторов, добавлять функции, улучшать интерфейсы. Но пока не будет единого «технологического языка» для работы с PDF, проблема останется. Документы будут по-прежнему искажаться при каждом полном сохранении, а юристы и ИТ-специалисты тратить время на разбор последствий технических разночтений. Пока каждая компания вынуждена подбирать «совместимые пары» программ и тратить ресурсы на ручную проверку.
Один из возможных путей — разработка стандартизованных библиотек (SDK) и стандартов, которые могут обеспечивать единообразный подход к работе с PDF-документами в любых прикладных программах. Специалисты Группы компаний СЕТЕРЕ и солидарные с нами исследователи формата PDF работают над созданием такого решения.
«Наша общая цель — не просто сделать еще один PDF-редактор для пользователей, а разработать и предложить всем российским производителям прикладного программного обеспечения единый и доступный инструментарий для работы с PDF-файлами, который сможет закрыть проблему на системном уровне и не будет зависеть от интересов и настроения мировых корпораций, которые в любой момент могут запретить вам использовать их технологии», — генеральный директор Группы СЕТЕРЕ Олег Ивченков.
Статья опубликована на CNEWS - ссылка