Текстология.RU - Атрибутор

Описание

[<<< НАЗАД]

Программа-атрибутор представляет собой лингвистический процессор для автоматического сравнения и классификации текстов по параметрам индивидуального авторского стиля. Первая версия программы настроена для сравнения художественных прозаических текстов, в основном романов.

Задачей этой программы является чтение и обработка присылаемого пользователем текста неизвестного происхождения с целью распознания его автора или выдачи списка наиболее близких к нему по стилистике авторов из числа входящих в некоторый заранее заданный перечень "эталонных" авторов. Предусмотрены три варианта вывода:

Скорее всего, этот текст принадлежит <эавтору имярек >. Этот вывод означает, что в нашей выборке имеются тексты присланного на исследования писателя.
Автора этого текста в нашей базе, по-видимому, нет. Этот вывод означает, что присланный текст содержит особенности индивидуального стиля, по которым он достаточно резко отличается от имеющихся в выборке писателей.
Этот текст, по-видимому, не содержит индивидуальных стилистических черт.
Список наиболее близких авторов (в порядке убывания вероятности):
<эавтор имярек >
<эавтор имярек >
<эавтор имярек >
Этот вывод означает, что присланный текст по стилистике не совпадает определенно ни с одним из имеющихся в выборке писателей и, в то же время, не имеет резких отличий сразу от нескольких из них.
Возможны как минимум два объяснения. Во-первых, расплывчатость стилистических показателей может быть связана с неоднородностью стилистики - отдельные фрагменты текста могут быть написаны настолько по-разному, что суммарный показатель оказывается излишне усредненным. Существует достаточно много художественных текстов, где стилистическая чересполосица (так сказать "полифония") входит в писательский замысел. Во-вторых, расплывчатость стиля может появляться вследствие подражательности или коллективного авторства, особенно в том случае, когда соавторы пишут по главам.

В следующей версии программы мы надеемся уйти от получившейся двусмысленности за счет проверки однородности стилистики на протяжении текста и определения точек перехода. То же самое касается и проверки романистики конкретного писателя на стилистическую однородность. Фактически проблема - в разбивке собрания сочинений некоторых авторов на различные периоды их творчества, характеризуемые сменой стиля. Такая работа предусматривается в будущем и программа может оказать существенную помощь при ее проведении, но тем не менее это потребует значительных затрат ручного труда при экспертной обработке текстов.

Кроме того, неполнота существующих в настоящее время электронных библиотек (или недостаточность времени, затраченного нами на поиски в Интернете) привели к некоторой неполноте перечней текстов для каждого из авторов базы. Грубо говоря, "полным собранием сочинений" наша база не обладает ни по одному из 103-х представленных в ней авторов. Для некоторых авторов это приводит к однобокости их описания в базе и, как следствие, к нераспознаванию текстов "из другой половины" собрания сочинений такого автора.

Добавим также, что посылая на тестирование перевод произведения иностранного автора следует учитывать две вещи:
- фактически автором данного текста является не единолично "законный" автор, а пара - автор-переводчик. Имеются многочисленные примеры экспертных оценок таких текстов, которые показывают, что разные переводы одного и того же текста могут сильно различаться по стилю. В дальнейшем предполагается провести работу по получению формальных оценок таких расхождений с помощью Атрибутора;
- по этой причине пока в базе Атрибутора переводов текстов иностранных авторов нет и получаемая вами оценка близости к имеющимся в базе отечественным авторам носит весьма условный характер.

Чтобы избежать ошибок, связанных со сравнением статистически несопоставимых объектов, объем исследуемого текста ограничен снизу. Для сравнения не принимаются тексты размером меньше 20 Кб (примерно 20 страниц). Если размер файла недостаточен, вместо вывода появляется надпись: Объем этого текста ( <20 Кб ) слишком мал для получения достоверных результатов.

Кроме того в программе предусмотрена небольшая защита от некоторых провокаций (от всех защититься вряд ли возможно). Иногда, когда вместо художественных текстов будут предлагаться явно нехудожественные, атрибутор попытается на это соответствующим образом ответить.

Для того, чтобы оценить исследуемый текст, его нужно скопировать в окно атрибутора. Для этого необходимо открыть этот текст в текстовом редакторе или просмотровике и левой кнопкой мыши выделить его целиком или выделить достаточный для атрибуции фрагмент. После этого требуется нажать правую кнопку мыши и в появившемся меню выбрать пункт "Копировать" ("Copy"). В результате текст оказывается скопированным в буфер операционной системы. После этого необходимо стать курсором в окно атрибутора и нажать правую кнопку мыши. В появившемся меню выбрать пункт "Вставить" ("Paste") и дождаться, пока текст появится в окне. После этого можно нажимать кнопку "Начать атрибуцию" и через некоторое время смотреть на полученный результат.

В качестве признаков для анализа и оценки индивидуального авторского стиля в этой версии атрибутора используются трехбуквенные сочетания - триады. Обработку проходят все слова текста, причем начало и конец слова дополняются пробелами, которые также учитываются в триадах. Например, слово "собака" разбирается на следующие цепочки _со соб оба бак ака ка_ . Одинаковые триады суммируются, из собранных по тексту триад получается профиль, который является поисковым образом, характеризующим авторский стиль.

В обработку попадают все слова текста за исключением имен собственных. Есть довольно много текстов, особенно это касается фантастических романов, где употребляются экзотические имена и названия, содержащие непривычные для русского языка буквосочетания. Во избежание их влияния на характеристики стиля, которое иногда оказывалось достаточно сильным, они были удалены из рассмотрения.

В лингвистическом смысле трехбуквенные сочетания представляют собой интегральную характеристику, объединяющую сразу несколько разнородных стилевых признаков. При такой методике отдельными триадами в подсчет попадают распределения однобуквенных и парами триад - двухбуквенных служебных слов, а это значительная часть наиболее частотных предлогов, союзов, частиц и междометий, которые традиционно считаются значимыми стилеметрическими показателями. По этой причине двухбуквенные и четырех- и более буквенные цепочки менее показательны, что и было выявлено в процессе проверки их различительной силы.

Остальные буквосочетания так или иначе отображают и грамматические явления (частоту грамматических частей употребленных в тексте слов), и лексические (буквосочетания из основы слова), причем нерасчлененно. Хотя различительная сила отдельных буквосочетаний очевидно неодинакова, в данной версии атрибутора при оценке и взвешивании это пока не учитывается.

Конечно, использование буквосочетаний для решения стилеметрических проблем является паллиативом и, скорее, удачным инженерным полурешением, нежели предметно обусловленным приемом. В данном случае, для первой версии он-лайновой программы нам показалось привлекательной простота обработки, обуславливающая высокую скорость работы программы. Использование морфологических и синтаксических процессоров или достаточно представительных словарей, хотя и придает атрибуции иное качество, позволяя решать стилеметрические вопросы с достаточной в смысле доказывания определенностью, пока еще слишком тяжеловесно для перенесения на интернет-страницы. Мы понимаем, что данная версия атрибутора является больше забавной игрушкой, чем инструментом, предназначенным для принятия ответственных решений, и собираемся в дальнейших версиях последовательно наращивать ее возможности.

В последующих версиях атрибутора предполагается движение от интегральности к аналитичности. Это будет касаться используемых лингвистических параметров - сходства и различия будут становиться все более вербализуемыми. Также планируются работы по повышению точности принимаемого решения и уменьшению требуемых объемов лингвистического материала в сравниваемых текстах. В известной степени мы идем по уже проторенному пути, считая признаком научной основательности воспроизведение и экспериментальную проверку уже полученных коллегами результатов. Первая выставленная в Интернете версия лингвоанализатора, использующая в качестве стилевых признаков буквосочетания (бинарные), принадлежит Д.Хмелеву и работает с августа 1999 года (http://www.rusf.ru/cgi-bin/fr.cgi). Мы постарались в меру возможностей учесть накопленный за это время опыт.

В эталонную выборку, на которой происходило обучение атрибутора, попали в основном романы и повести отечественных писателей 19 - 20 веков. Начальная выборка была получена от Д.Хмелева и состояла в основном из фантастических романов, собранных на сайте Русская фантастика. Оказалось, что в ней много мусора - произведений, написанных в соавторстве, коллективно и т.п., много технически дефектных файлов. В результате очистки выборки - выбрасывания лишнего и добавления недостающего - сейчас она состоит из произведений 103 авторов (полный перечень см. в разделе список и комментарии). Мы понимаем, что выборка пока далеко не полна и не очень представительна. Пополнение шло за счет ресурсов известных электронных библиотек, наибольшее количество текстов было получена в библиотеке Максима Мошкова (http://kulichki-win.rambler.ru/moshkow/). Вы можете помочь нам пополнить ее, прислав файлы отсутствующих в ней произведений на наш почтовый ящик ().

Выборка подбиралась таким образом, чтобы тексты разных писателей в максимальной степени различались друг от друга, а тексты одного писателя были максимально близки. Те случаи, когда известный писатель в какой-то период своего творчества резко менял стиль изложения, пока отсеивались и будут обработаны дополнительно.

В первую очередь отсеялись малоизвестные и плодовитые фантасты, не обладающие выраженной стилистической индивидуальностью. В большинстве случаев их романы больше похожи на произведения мэтров, причем различных, нежели "на самих себя". Более известные писатели пострадали частично. У фантаста Логинова пришлось исключить из выборки романы "Предтеча" и "Замошье", имеющие существенные отличия от общего корпуса его текстов, у Лукьяненко пострадали "Мальчик и тьма" и "Восточная баллада о доблестном менте". Из выборки Ф.М.Достоевского были исключены "Господин Прохарчин" и "Хозяйка", в большей степени тяготеющие к стилистике Гоголя, чем к собственному стилю Достоевского, что, впрочем, отмечала еще современная ему критика. В одной из библиотек, где нам удалось обнаружить известную с детства сказку "Ашик Кериб", она оказалась записанной за Львом Толстым. Однако атрибутор с этой новацией не согласился и нам пришлось оставить "Ашик Кериба" Лермонтову.

К сожалению, как говорилось выше, подобрать представительную выборку - по жанрам, тематике и периодизации литературного процесса - электронные библиотеки еще не позволяют, хотя их пополнение в последние полгода движется ускоренными темпами. Это касается не только литературной классики, в которой имеются досадные лакуны (даже по Тургеневу, Льву Толстому и Гоголю), но и популярных жанров, таких как отечественный детектив, исторический роман или детская литература. Поэтому построить автоматическую классификацию романов по жанрам, направлениям и литературным стилям в данной версии атрибутора не удалось, хотя к этому имеются достаточные предпосылки и дело только за пополнением выборки. Мы будем благодарны, если пользователи атрибутора нам в этом помогут. И, конечно, ждем замечаний и предложений по развитию программы.

А.Н.Тимашев

[В НАЧАЛО СТРАНИЦЫ]

Все права защищены согласно российскому и международному законодательству. Copyright © 1999 - 2007 ООО "Лингвистические компьютерные системы ЛКС". Авторские права на публикации принадлежат авторам статей. Ни один фрагмент сайта не может быть использован без предварительного разрешения правообладателя. Ссылка на сайт обязательна.
Сайт создан и поддерживается .