| 2008-06-09 22:50:19 | Ответить |
|---|---|
|
Ruslan Voloshin Адрес: odessa Сообщений: 1293 Регистр: 2007-03-13 его блог 40 сообщ. |
Класификация текста по Байесовским алгоритмам |
|
Применимость Байесовского классификатора для задачи определения спама
------------
Наивный Байесовский классификатор Байесовский классификатор основан на использовании знаменитой теоремы Байеса, и первые упоминания о нем можно встретить еще в 1960-м году. За уже более чем 40-летнюю историю НБК использовался для решения самых разнообразных задач: от классификации текстов в новостных агентствах до первичной диагностики заболеваний в медицинских учреждениях. При постановке задачи для НБК в качестве характеристик обычно выбирается наличие или отсутствие каких либо слов в документе, то есть за множество характеристик T принимается множество всех слов в обрабатываемых документах. Таким образом, вес характеристики wi=1 в том случае, если слово ti было найдено, и wi=0 в обратном случае. В случае с фильтрами, которые используются для классификации спама, учитывается еще и область, в которой встретилось слово: заголовки, тема письма (subject), тело письма. То есть слово 'спам', встретившееся в теме письма, есть иной термин, чем слово 'спам' в теле письма. Занимаюсь вебом и продвижением сайтов.
|
|
| Bayesian, Байесовский алгоритм |