Текстология.RU - Об автороведческой экспертизе формализованных текстов

Зайцева Ю.В.

Об автороведческой экспертизе формализованных текстов

Последнее время эксперты-автороведы всё чаще сталкиваются с объектами, не вполне традиционными для автороведческого исследования. На исследование представляются не свободные тексты, на которые ориентированы классические методы, а формализованные. К таким текстам относятся словари, справочники, базы данных (БД) и прочая текстовая продукция, созданная по заданному шаблону. В отличие от типичных объектов исследования (художественных произведений, научных работ или показаний фигуранта по делу), такие тексты организованы единообразно, а свобода автора при их создании строго ограничена формальными правилами. Эти правила задают множество признаков, которые в случае свободного текста обычно считаются индивидуальными.

Дополнительную трудность представляют объём и структура исследуемых текстов. Чаще всего выполнить вручную сравнение справочников или словарей не представляется возможным просто из-за их огромной величины, а базу данных нельзя даже просмотреть без специального программного интерфейса.

Очевидно, что работа с формализованными текстами требует и отдельного методического подхода, и специального программного обеспечения.

Обыкновенно к исследованию пары формализованных текстов или БД на предмет плагиата ставятся (в числе прочих) следующие вопросы :

Совпадают ли тексты (или БД) А и Б полностью или частично?
Каков объём совпадения текстов (БД) А и Б?
Свидетельствуют ли совпадения между текстами (БД) А и Б о том, что один текст (БД) использовался при создании другого?
Представляют ли собой тексты А и Б оригинальные труды, отличающиеся по объекту описания, объему, содержанию, форме или иным характеристикам?
Являются ли различия между текстами (БД) А и Б существенными?

Опишем способы ответа на эти вопросы.

Прежде всего необходимо затребовать у суда электронные копии текстов, если эти тексты опубликованы на бумаге. В нашей практике не было случая, когда бы суд не обязал стороны представить электронные версии или отсканировать и распознать книги по нашему запросу. Правда, качество распознанных текстов обычно оставляет желать лучшего, поэтому дополнительно приходится писать программы очистки текстов от ошибок и «мусора».

Для ответа на первый вопрос необходимо произвести автоматизированное сравнение текстов. Простое сравнение стандартными средствами (напр., MS Word или встроенным редактором Norton Commander) может дать надёжный результат только в случае полного совпадения текстов. Но в этом вырожденном случае автороведческое исследование назначается крайне редко, поскольку ответ на все вопросы и так очевиден суду. В случаях же частичного совпадения такие средства не могут дать надёжного результата, поскольку даже совершенно независимые, но формализованные тексты могут содержать громадный процент совпадений, не зависящих от их авторства.

Так, в представленных нам на исследование технических справочниках по кабелям и проводам информация представлялась в виде множества таблиц, где названия полей совпадали, поскольку описывали стандартные характеристики кабелей (количество жил, сечение, удельный вес и т.д.), а сами поля содержали в основном информацию в числах. Стандартные программы сравнения «цеплялись» к первым же совпадениям в формальном представлении описания. Построенный на таких совпадениях вывод об общем авторстве ошибочен, поскольку аналогичная форма описания используется во всех справочниках по кабелям, независимо от авторства.

Для сравнения формализованных текстов необходимо создание специальной программы, которая сначала находит соответствие фрагментов двух текстов (напр., находит в двух словарях словарные статьи на одно и то же слово, в справочниках по кабелям – описания одного и того же кабеля, в базах данных – записи об одном и том же объекте), а потом сравнивает тексты по соответствующим фрагментам. Несколько таких программ было написано нами для сравнения различных текстов. Самая сложная из них была разработана для сравнения поступивших к нам на исследование словарей Ожегова и Шведовой за 1964, 1989 и 1997 гг.

Однако получение результатов сравнения, отвечающих в полной мере на вопрос 2, не даёт возможности ответить на вопросы об общем происхождении текстов или БД и о существенности совпадений между ними. Что значит, к примеру, вывод «тексты или базы данных совпадают на n%»? Много это или мало? Все ли тексты или БД подобного типа совпадают на n%, или это совпадение вызвано общим авторством?

Вообще говоря, для ответа на эти вопросы существует два способа.

Первый способ более точен, но пригоден только для сильно формализованных текстов, в основном для технических таблиц и БД:

1) при помощи генератора случайных (псевдослучайных) чисел набираются случайные выборки из n записей баз данных (БД1 и БД2);

2) в обеих набранных выборках находятся все ошибки (опечатки);

3) исследуется характер распределения ошибок (обычно такие ошибки случайны и их распределение равномерно, однако из осторожности следует исключить систематическую ошибку, вызванную, напр., погрешностью округления числовых данных);

4) исходя из характера распределения рассчитываются частота и количество ошибок в обеих БД;

5) рассчитывается количество совпадающих ошибок в обеих выборках;

6) рассчитывается вероятность случайного совпадения ошибок в двух текстах (БД).

Вероятность того, что не менее f ошибок в БД1 и БД2 совпали бы случайно,

где n – объём выборки,
k1 – количество ошибок в БД1,
k2 – количество ошибок вБД2,
f – количество совпадающих ошибок в двух БД,
с^k_n = n! /k! / (n-k)!

Данная величина без проблем рассчитывается на персональном компьютере, единственная сложность при расчёте – следить за аппаратной погрешностью, которая в случаях очень низких вероятностей может превысить их величину (что иногда бывает заметно по их отрицательному значению).

В случаях, когда известны вероятности ошибок, суммируемые величины можно домножить на эти вероятности.

Таким образом, ответ на вопрос об использовании одной БД при создании другой будет основан на вероятности случайного совпадения ошибок и опечаток в двух текстах (БД).

Напр., нам на исследование были представлены две словарные базы, содержащие фонетические транскрипции слов для программ автоматического чтения текстов на русском языке. Было вычислено, что вероятность случайного совпадения ошибок расстановки ударений в двух базах составила менее 10^-20. На этом основании был сделан вывод о том, что совпадения эти не случайны, а базы данных не вполне самостоятельны.

Однако устанавливать, какой из текстов является источником заимствования, а какой – результатом, нужно с большой осторожностью не только потому, что признаков собственно индивидуального авторского стиля в таких текстах чрезвычайно мало, но и потому что оба текста могли быть заимствованы и из третьего источника.

Второй способ решения задачи о самостоятельности текстов менее точный и более трудоёмкий, зато он пригоден для слабо формализованных текстов, напр., текстов толковых словарей, энциклопедий и т.п.

Очевидно, что совпадений в словарных статьях на одинаковые слова даже в независимых друг от друга словарях будет существенно больше, чем в паре случайно взятых текстов того же объёма. В паре случайных текстов будут совпадать в основном служебные слова (предлоги, союзы, местоимения, частицы) и некоторые высокочастотные слова русского языка (напр., глагол «быть»). Но тексты словарных статей на одно и то же слово будут жёстко связаны общей темой. Во-первых, в них будут совпадать сами слова, на которые написаны статьи. Во-вторых, будут совпадать слова в толкованиях, через которые объясняются заглавные слова. Напр., в любом толковании слова «ноздря» будет присутствовать слово «нос»; в любом толковании слова «племянник» - слова «сын», «брат» и «сестра» и т.п. Если применять к словарям тот же автороведческий подход, что и к свободным независимым текстам, то получится, что все толковые словари имеют одного автора.

К тому же в большинстве случаев у создателей справочных изданий существуют традиции преемственности. Авторы не начинают всю работу с нуля, а пользуются предыдущими изданиями, и такой подход считается приемлемым по прагматической причине: каждый раз собирать заново уже известные данные ради авторской оригинальности трудно и бессмысленно. В ряде случаев имена авторов на обложке не более чем бренд, поскольку над изданием работают авторские коллективы, иногда десятки человек.

При этом для разных областей знания процент совпадения в независимых справочных изданиях может быть разным. Здравый смысл подсказывает, что, к примеру, в двух телефонных справочниках будет больше совпадений, чем в двух толковых словарях. Но насколько больше?

Как правило, выяснить это без эксперимента невозможно. Для эксперимента можно взять образец аналогичного жанра, авторство которого не оспаривалось, отобрать из него контрольную выборку и сравнить с аналогичной выборкой из другого образца, зафиксировав сходства и различия. Таким образом будет получен эталонный процент совпадений для текстов заведомо разного авторства, благодаря которому можно будет количественно оценить совпадения в спорных текстах.

Разумеется, такой эксперимент не всегда можно поставить идеально чисто. Часто бывает, что образцов жанра, полностью аналогичных спорным, не существует, а имеющиеся отличаются по разным характеристикам: датировке, формату, объёму. В результате приходится делать ряд поправок на эти различия и приводить образцы в единообразный вид.

Особенно интересным в этом отношении оказалось проведённое нами исследование словарей Ожегова и Шведовой. Для сравнительного эксперимента был выбран словарь Ушакова. Этот словарь отличается от спорных по датировке и по объёму, однако является все же наиболее близким к ним из имеющихся толковых словарей.

Для сравнения из словников словарей Ожегова 1964 г. и Ушакова при помощи генератора псевдослучайных чисел были отобраны 500 слов, статьи на которые одновременно имелись в обоих словарях. Далее было проведено пословное сравнение словарных статей из двух выборок. Процент совпадения пары словарных статей вычислялся по формуле:

Q=А/В*100,

где А – кол-во совпадающих слов в паре словарных статей выборки словаря Ожегова и выборки словаря Ушакова; В – общее количество слов в статье из выборки словаря Ожегова.

Таким образом, величина Q интерпретировалась как процент вхождения словарной статьи из словаря Ожегова в словарную статью из словаря Ушакова.

На первом этапе эксперимента были устранены формальные различия в представлении одинаковой информации в выборках, не влияющие на смысл текста и информацию, содержащуюся в нём, напр., разные сокращения слов (пометы у Ожегова – прост., у Ушакова – простореч.; падеж у Ожегова – тв., у Ушакова – твор. ).

Далее была рассчитана выборочная средняя величины Q для всей выборки. Выборочная средняя составила Qср.=58%. Иначе говоря, среднее вхождение статьи из словаря Ожегова в статью из словаря Ушакова составило 58% статьи из словаря Ожегова. Или: средняя статья из словаря Ожегова на 58% состоит из слов аналогичной статьи из словаря Ушакова.

При этом точный процент вхождения текста выборки словаря Ожегова в текст выборки словаря Ушакова вычислялся по формуле:

где Аi – кол-во совпадающих слов в i-й паре словарных статей двух выборок; Вi – общее количество слов в i-й статье из выборки словаря Ожегова; n=500 – количество пар статей в выборке.

Эта величина на 1-м этапе эксперимента составила Qт=55%. Иначе говоря, при простом сравнении словарных статей вхождение выборки из словаря Ожегова в выборку из словаря Ушакова составило 55% выборки словаря Ожегова. Или: текст выборки словаря Ожегова на 55% состоит из текста выборки словаря Ушакова.

Однако такое сравнение было не вполне корректно, т.к. при этом подходе не учитывалась разница в способе представления одинаковых данных в двух словарях.

Многие слова, которые в словаре Ушакова были расположены в алфавитном порядке и имели отдельные статьи, в словаре Ожегова расположены в словарных гнёздах.

Поскольку спорные словари 1964 г., 1989 г. и 1997 г. имеют единообразный вид, а словари Ожегова 1964 г. и Ушакова – нет, для чистоты эксперимента было принято решение привести выборки из словарей в единообразный вид.

На 2-м этапе эксперимента расчёт показал, что после разделения статей Ожегова 1964 г. по таким словам (после разделения словарного гнезда на отдельные словарные статьи) средняя величина вхождения словарной статьи из словаря Ожегова в словарную статью из словаря Ушакова достигла Q ср.= 66% статьи из словаря Ожегова 1964 г.

Точный процент на окончательном этапе составил Qт=65%.

При сравнении словников двух словарей был рассчитан процент статей, которые есть в словаре Ожегова, но отсутствуют в словаре Ушакова. Их оказалось 2%.

Далее был вычислен средний процент вхождения статьи словаря Ожегова в статью словаря Ушакова с учётом добавленных Ожеговым слов.

Он составил:

(500*66)/(500+500/100*2) ≈ 65%.

Иначе говоря, в среднем статья Ожегова (включая добавленные Ожеговым статьи) на 65% состоит из тех же слов, что и статья словаря Ушакова.

Расчёт величин вхождения в обратную сторону (т.е. вхождения статьи словаря Ушакова в словарь Ожегова) в данном случае не имеет смысла, поскольку объёмы словарных статей сильно различаются из-за различий в формате словарей.

Однако для словарей одного формата, т.е. словарей 1964 г., 1989 г. и 1997 г., эта величина информативна.

Таким образом, на выборке было зафиксировано, что процент совпадающих слов в словарных статьях разных словарей существенно выше, чем в обычных текстах, и критерий совпадения при исследовании словарей должен корректироваться в соответствии с этим фактом.

Далее аналогичные величины были рассчитаны для словарей Ожегова 1964 г., 1989 г. и Ожегова, Шведовой 1997 г.

В результате оказалось, что в среднем совпадение слов в статьях словаря Ожегова 1964 г. и Ожегова 1989 г. составляет 59% от словаря Ожегова 1989 г. Для сравнения: на выборках из словаря Ушакова и словаря Ожегова 1964 г. статья словаря Ожегова 1964 г. в среднем на 65% состоит из слов статьи словаря Ушакова.

Таким образом, средняя статья словаря Ожегова 1989 г. содержит примерно на 6% меньше слов из словаря Ожегова 1964 г., чем средняя статья словаря Ожегова 1964 г. содержит слов из словаря Ушакова.

Иными словами, вклад авторов словаря Ожегова 1964 г. в текст словаря Ожегова 1989 г. в среднем на 6% меньше, чем вклад авторов словаря Ушакова в словарь Ожегова 1964 г.

В среднем совпадение слов в статьях словаря Ожегова 1964 г. и Ожегова, Шведовой 1997 г. составляет 56% от словаря Ожегова, Шведовой 1997 г.

Таким образом, средняя статья словаря Ожегова и Шведовой 1997 г. содержит примерно на 9% меньше слов из словаря Ожегова 1964 г., чем средняя статья словаря Ожегова 1964 г. содержит слов из словаря Ушакова.

Иными словами, вклад авторов словаря Ожегова 1964 г. в текст словаря Ожегова, Шведовой 1997 г. в среднем на 9% меньше, чем вклад авторов словаря Ушакова в словарь Ожегова 1964 г.

Полученные результаты дали возможность сделать вывод о существенности различий между словарями Ожегова и Шведовой строже и доказательнее.

Таким образом, надо признать, что:

1) методы, используемые в автороведческой экспертизе для сравнения свободных текстов, малопригодны для сравнения формализованных;
2) критерии самостоятельности текстов, построенные на объёмах их совпадения, следует разрабатывать отдельно для разных типов текстов, учитывая особенности их строения и формата;
3) для проведения корректного исследования формализованных текстов большого объёма в комиссию экспертов, помимо автороведа, целесообразно включать математика-программиста, способного написать программы автоматизированного сравнения объектов, создать удобный программный интерфейс для работы с результатами, сформулировать статистические критерии оценки признаков, рассчитать и интерпретировать количественные результаты.

Примечания

Все вопросы взяты из реальных исследований, выполненных нами по назначению судов.
Понятие «вхождение» применительно к символьным строкам интерпретируется аналогично понятию «пересечение» применительно к множествам. Фраза «Вхождение текста A в текст В равно n% текста А и k% текста В» интерпретируется как «n% слов текста A содержится в тексте B и составляет k% слов текста В» или «множество слов, содержащихся в обоих текстах, составляет n% текста A и k% текста В» или «объём текста, общего для обоих текстов А и В, составляет n% текста A и k% текста В». Фраза «Вхождение текста A в текст В равно n% текста А и k% текста В» эквивалентна фразе «Вхождение текста В в текст А равно n% текста А и k% текста В». Для краткости принято, что во фразе «вхождение текста A в текст В равно n%» под n подразумевается процент от текста А, а во фразе «вхождение текста В в текст А равно k%» под k подразумевается процент от текста В. Здесь и далее в аналогичных выражениях при отсутствии соответствующих уточнений процент следует считать относительно первого текста, указанного в выражении.
Точный процент отличается от среднего тем, что средний процент нечувствителен к величине статьи. Напр., вычислим средний процент на выборке из двух пар статей:
1) статья a словаря А из 100 слов, статья b словаря B из 200 слов, общие для обеих статей 90 слов;
2) статья a1 словаря А из 20 слов, статья b1 словаря B из 40 слов, общие для обеих статей 6 слов.
Средний процент для этой выборки составит:
Qср= (90/100*100+6/20*100)/2 =60% выборки из словаря А;
Qср= (90/200*100+6/40*100)/2 =30% выборки из словаря В.
Точный процент для этой же выборки составит:
Qт= (90+6)/(100+20)*100 =80% выборки из словаря А.
Qт= (90+6)/(200+40)*100 =40% выборки из словаря В.
Величина точного процента точнее величины среднего, т.к. в первой учитывается объём каждой статьи, а во второй нет. Однако средняя величина интересна в статистическом смысле тем, что её можно экстраполировать на генеральную совокупность. Поэтому здесь и далее рассчитывались обе величины.

Доклад был прочитан на 5-й Международной научно-практической конференции по криминалистике и судебной экспертизе «Криминалистические средства и методы в раскрытии и расследовании преступлений», 2-3 марта 2011 г., ЭКЦ МВД.