В главе об анализе данных нельзя обойти стороной тему распознавания
образов как одну из основных целей анализа. Для распознавания образов
можно использовать все описанные выше средства: нейронные сети, метод
опорных векторов, метод главных компонент и другие. Как вы видите,
распознавание образов имеет непосредственное отношение к машинному
обучению. Цель
системы-классификатора, подобно нейронной сети или методу опорных
векторов, — предсказать, к какому классу относится данная выборка, то
есть классифицировать ее. Поэтому системе-классификатору в целях
обучения следует передать множество выборок известных классов. После
обучения системы ей можно будет передавать для классификации новые
выборки. Как и в описанных выше методах, начальное множество выборок
известных классов обычно делится на два подмножества — обучающее и
тестовое. Тестовое множество помогает проверить, не переобучена ли
система. При
создании классификаторов применяются два подхода: мичиганский,
предложенный исследователями из Мичиганского университета, и
питтсбургский, появившийся, соответственно, в университете города
Питтсбурга. В мичиганском подходе описывается эволюционный алгоритм, в
котором в роли эволюционирующих особей выступают правила, каждое правило
содержит множество условий и цель. Класс выборки укажет правило, с набором условий которого совпадает выборка. В
питтсбургском подходе, напротив, каждая особь представляет собой
множество правил, а приспособленность особи оценивается по средней
ошибке для каждого из этих правил. Оба подхода, которые в немалой
степени дополняют друг друга, имеют свои преимущества и недостатки. В
последние 30 лет исследователи предлагают различные улучшения обоих
подходов, чтобы компенсировать их неэффективность.
|