Метод шинглов

Метод шинглов — алгоритм, разработанный специально для проверки уникальности статей в Интернете и борьбы с плагиатом. Авторами этого алгоритма являются Уди Манбер, который в 1994 г. предложил идею поиска дубликатов в Интернете, и Андрей Бродер, который в 1997 г. создал алгоритм, который назвал алгоритмом шинглов (шингл по английски — чешуйка).

Шинглы — последовательности слов определенной длины, выделенные из статьи. Они выбираются начиная с 1 слова, затем со 2, и т.д. Общее количество шинглов будет равно количеству слов текста минус длина шингла плюс 1. Для каждого шингла можно вычислить хеш и искать его среди шинглов имеющихся текстов.
Перед разбиением на шинглы текст приводится к нормальной форме — удаляется «мусор» (например, союзы, предлоги, HTML теги, знаки препинания), может также делаться приведение слов к некоторой «основной» форме — например, существительные можно приводить к форме именительного падежа единственного числа.
Метод шинглов используется поисковыми системами для определения плагиата. Перед публикацией новой статьи в Интернете также рекомендуется проверить ее уникальность, для этого существуют программы, разбивающие текст на шинглы и производящие их поиск в Интернете. Такие программы вычисляют уникальность текста в процентах. Обычно бывает достаточно, чтобы опубликованные на сайте тексты имели уникальность не меньше 90%. Если на сайте будет много статей с низкой уникальностью, поисковые системы могут выбросить его из индекса.

Одна мысль про “Метод шинглов”

  1. На данный момент уже используются в основном гибриды метода шинглов с другими алгоритмами обработки текста, с семантическими образами, например. Хотя как инструмент для промежуточной оценки рерайта он по прежнему работает, в сети есть хорошие онлайн реализации алгоритма шинглов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Перед отправкой формы: