Законы Зипфа и автоматизация извлечения метаданных из электронных изданий
Известный математик

Если взять любой текст, то можно подсчитать, какие слова в нем сколько раз встречаются. Количество повторов слова в тексте можно назвать частотой. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте - 2 и т. д. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из этих нескольких значений. Если разделить частоту повторения слова на общее количество значащих слов в тексте, то получим его относительную частоту или вероятность встречи этого слова в тексте. Первый закон Зипфа гласит, что произведение вероятности встречи слова в тексте на его частоту приблизительно постоянно для любых текстов определенного языка. Сказанное иллюстрируется рис. 7.3

Второй закон Зипфа определяет соотношение между частотой и количеством слов, которые с этой частотой встречаются в тексте. Если построить график зависимости количества слов и частоты, то окажется, что характеризующая ее кривая остается неизменной для любых текстов в пределах одного языка. Сказанное иллюстрируется да иным и рис. 7.4

Данные рис. 7.3


Если рассматривать совокупность изданий, в особенности, посвященных одной и той же тематике, то вероятность случайного попадания малозначащих слов в выделенную область для группы изданий (см. рис. 7.3


С учетом инверсной частоты вес или значимость термина в каждом документе определится как произведение

где z - вес или значимость термина в издании; f - частота повторения термина в этом издании; i - инверсная частота этого термина в группе издании.
Процесс определения веса или значимости термина в издании легко алгоритмизируется. На этом принципе основана работа всех программ - экстракторов значащих слов. Надо сказать, что даже широко распространенный в нашей стране редактор Word, начиная с версии 1997 г., как-то выполняет функции извлечения терминов. Для этого используется команда «Реферат» в секции меню «Сервис». Соответствующее команде диалоговое окно показано на рис. 7.5

Как следует из данных рис. 7.5



Для того чтобы ключевые слова были занесены в нужное поле вкладки «Документ» окна «Свойства», в диалоговом окне, показанном на рис. 7.5

В поле «Ключевые слова» в примере отобрано пять слов, а именно: «в», «издательств», «области», «предусмотрен», «должен». Нетрудно за метить, что из пяти отобранных слов только одно соответствует тематике статьи «Современные издательства», причем одно из отобранных слов - предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работе названием на английском (а не на русском) языке. Надо сказать, что редактор Word 2000 ничем существенным не отличается от своего предшественника.
7.4.3.