Е.С.Борисов
четверг, 6 сентября 2007 г.
Стремительный рост сети интернет естественным образом породил проблемы поиска и упорядочивания информации. Сегодня в электронных хранилищах по всему миру содержатся терабайты информации. Информационных источников становится все больше и получить из этого океана нужные знания становится все труднее. Самостоятельно человек уже давно не в силах эффективно решать эту задачу, и даже существующие поисковые системы далеко не всегда справляются с ней. В связи с этими проблемами все актуальнее становится задача построения интеллектуальных информационных агентов. Такие системы, получив от пользователя задание, должны сами ''путешествовать'' по сети, классифицировать информацию, анализировать ее и на основе собранных знаний генерировать для пользователя небольшой, удобный для восприятия и максимально полный ответ, на поставленный им вопрос. В этой статье рассматривается задача классификации текстов на естественном языке как первый шаг к решению проблемы построения интеллектуальных информационных агентов.
|
Перед началом работы пользователю необходимо определить классы, с которыми будет работать система и подобрать множество учебных текстов. Далее из множества учебных текстов, определенным образом, выделяются слова - формируется словарь. На последнем этапе инициализации системы, используя учебные тексты и полученный словарь, обучается нейросетевой классификатор. После процедуры обучения классификатор текстов готов к работе.
Первая часть системы это частотный анализатор и словарь, здесь вычисляется т.н. частотная характеристика входного текста.
|
Частотный анализатор реализует известный лингвистический метод для обработки текстов на естественных языках - частотный анализ, который показывает распределение повторов слов в тексте. Эта часть системы определяет для каждого слова vi из словаря V его частоту вхождения fi в данный текст t (рис. 2 ). Частотная характеристика это вектор f=(f1,...fn)∈ F , длинна которого равна количеству слов в словаре V , каждая компонента fi это целое неотрицательное число:
Другими словами - для каждого слова vi ∈ V определяется число его вхождений fi ≥ 0 в данный текст t=t1t2t3...tk .
Частотную характеристику f можно рассматривать как точку в пространстве признаков F , соответствующую тексту t . Таким образом, на входе имеем текст t и словарь V , на выходе точку в пространстве признаков F .
Вторая часть системы классифицирует вектор частотных характеристик (точку в пространстве признаков), полученный с помощью частотного анализатора, т.е. разделяет все пространство признаков на определенное количество областей. Для решение этой задачи используется трёхслойная нейронная сеть с прямыми связями и непрерывной функции активации(сигмоид).
Размер входного слоя равен длине вектора частотной характеристики. Размер скрытых слоев и выходного слоя определяется количеством областей (числом классов), на которые мы будем делить пространство признаков. Сеть такой архитектуры позволяет выделять в пространстве признаков области любой формы и сложности [3].
На вход нейронной сети подается вектор частотной характеристики, на выходе получаем вектор (y0...ym). Номер j , для которого выход yj имеет максимальную активность (т.е. yj=max(yi) ; i=0...m), соответствует номеру класса входного образца.
Для обучения этой нейронной сети используется метод обратного распространения ошибки [3].
Прежде чем классификатор начнет работать его необходимо обучить на множестве учебных текстов. Эту процедуру можно разбить на четыре этапа:
Словарь - важная часть классификатора и для эффективной работы системы он должен быть оптимален т.е. удовлетворять следующим требованиям.
Составить словарь удовлетворяющий эти требования можно используя известные лингвистические закономерности. В этой работе был использован закон Бретфорда[ 2 ], который можно сформулировать следующим образом.
где pi - количество слов в i -той части списка.
Здесь необходимо упомянуть задачу нормализации слов в естественном языке, т.е. приведение слова к единственному числу именительного падежа. В данном случае мы ушли от этой проблемы следующим образом - в словаре хранятся только основы слов без окончаний. При частотном анализе проверяется не совпадение слов а вхождение слова из словаря в данное слово из текста. Такое решение не идеально поскольку порождает шум, но практика показала, что система работает вполне удовлетворительно.
После того как определены классы, подобраны соответствующие им учебные тексты, сформирован словарь и получены результаты частотного анализа учебных текстов, можно приступать к обучению нейронной сети.
Процесс обучения нейронной сети сводится к корректировке весовых коэффициентов ее связей в соответствии с методом обратного распространения ошибки [3].
Партия зеленых: Трехпроцентный барьер мы будем преодолевать с разгона Вопрос самостоятельного участия Партии зеленых Украины в парламентских выборах или блокирования с другими политическими силами окончательно будет решен на съезде партии. Об этом сегодня, 7 декабря, на пресс-конференции сообщил председатель политсовета ПЗУ Сергей Курыкин. Курыкин заявил, что, по его личному мнению, Партия зеленых...
Как сообщает Reuters, олимпийский огонь Игр-2006 прибыл сегодня в Рим.В четверг президент Италии Карло Чампи зажжет факел и передаст его первому участнику эстафеты олимпийского огня, олимпийскому чемпиону в марафонском беге Стефано Бальдини ...
В Челябинской области новогодние праздники закончатся эпидемией: волна заболеваемости гриппом на Южном Урале ожидается во второй декаде января.Однако медики утверждают, что пройти профилактическую вакцинацию еще не поздно: прививки можно ставить до конца декабря. ...
Екатеринбургские актеры меняют высокое искусство на рекламу и развлекательные телесериалы. В ноябре на Свердловской киностудии прошли кастинги трех телевизионных проектов с участием московских пиарщиков, менеджеров, телевизионщиков и кинематографистов. ...
Intel и STMicro стандартизируют мобильную флэш-память По условиям соглашения между Intel и STMicro, выпускаемые обеими компаниями чипы флэш-памяти NOR для сотовых телефонов будут идентичными. Это касается как микросхем, которые оба чипмейкера производят по 90-нанометровому, так планируемых к выпуску по 45-нанометровому техпроцессу. Последний будет запущен, предположительно, к 2008 году. Ожидается, что сотрудничество приведет к снижению цен на чипы NOR, что, соответственно скажется и на стоимости сотовых телефонов...
Исходные тексты программ [ здесь ].