Консалтинговая группа "Текарт" - центр компетенции "Робототехника".

Подробнее...
Основное меню
Категории новостей
Логотип

ИИ сканирует Интернет в поисках информации

Извлечение информации или автоматическая классификация элементов данных, хранящихся в виде обычного текста, является одной из главных тем исследований по искусственному интеллекту. На прошлой неделе прошла конференция ассоциации Компьютерной лингвистики.

На ней была высокого оценена работа исследователей Массачусетского технологического института, которые представили новый подхода к извлечению информации, переворачивающий с ног на голову традиционное машинное обучение.

Большинство систем машинного обучения прочесывают огромные массивы материалов в поиске шаблонов, которые соответствуют заданным человеком классификаторам. Например, люди могут маркировать части речи в наборе текстов, а система машинного обучения будет пытаться выявить закономерности, которые разрешают неоднозначности, например, когда английское «her» является объектом, а когда это прилагательное.

При этом, как правило, пытаются предоставить машине максимальный объем данных. Что в целом увеличивает шансы на то, что система будет в состоянии справиться с трудными проблемами. В своей новой работе исследователи MIT, напротив,обучают систему на мизерном объеме данных, поскольку они трудно доступны в заданном сценарии обучения. Но ограниченность информации исследователи считают легкой проблемой для решения.

Руководитель исследования, профессор электротехники и вычислительной техники Регина Барзилэй отмечает, что процесс извлечения машиной информации, на естественном языке, традиционно отличается от того, что делают в этом случае люди. «Когда вы читаете статью, в которой не можете ничего понять, что вы делаете? Вы ищете в Интернете другую, доступную для понимания».

По сути, новая система делает то же самое. Система машинного обучения, как правило, назначает каждому из классифицируемых элементов доверительный балл, который является мерой статистической вероятности того, что классификация является правильной. В новой системе, если доверительная оценка слишком низкая, то система автоматически генерирует поисковый запрос, предназначенный для загрузки текстов с высокой вероятностью содержания требуемых данных.

Затем она пытается извлечь соответствующие данные из новых текстов и сопоставляет с ранее полученными результатами. Если показатель достоверности остается слишком низким, она переходит к следующему тексту и так далее.

Примечательно, что каждое решение, которое делает система, это результат машинного обучения. Система обучается создавать поисковые запросы, оценивать вероятность того, что новый текст имеет отношение к задаче, а также определять наилучшую стратегию для совмещения результатов нескольких попыток извлечения данных.

В экспериментах исследователи применили свою систему к двум задачам. Одной из них был сбор данных о случаях массовых убийств в США, что является важным ресурсом для любого исследования по контролю над огнестрельным оружием. Другая задача была связана со сбором данных о загрязнении пищевых продуктов. Система была обучена отдельно для каждой задачи.

В первом случае систему попросили извлечь имя стрелка, местоположение съемки, количество раненых и убитых людей. В случае загрязнения пищевых продуктов извлекались данные о типе пищи, типе загрязнителя и местоположении. В каждом случае система была обучена примерно на 300 документах.

Например, имена причастных к убийствам стрелков были соотнесены с такими терминами, как «полиция», «выявленных», «арестовали» и «задержанных». В процессе обучения по каждой статье система была опрошена на возможность анализа других еще 9 или 10 найденных в Интернете статей.

Исследователи сравнили производительность их системы, с традиционными методами машинного обучения. По каждому элементу данных в обеих задачах новая система превзошла своих предшественников примерно на 10 процентов.

Комментарии

(0) Добавить комментарий

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован



Новые комментарии

Перспективы производства промышленных роботов в России
Мария
28.08.2024
08:13:38
Здраствуйте - можно ли узнать по поводу ультразвуковых датчиков мне для протезирования руки
Бесплатная мастерская для школьников и студентов
Гость
01.08.2024
06:19:40
Хорошая инициатива!