Новая работа исследователей Массачусетского технологического института представляет собой единую систему автоматизированного обнаружения ложных информационных вбросов, раскрывающую способность модели машинного обучения улавливать тонкие, но заметные различия в языке реальных и ложных сведений.
Исследование также подчеркивает, что детекторы поддельных новостей должны проходить более тщательное тестирование, чтобы эффективно действовать в реальных условиях.
Ложные новости являются формой пропаганды, созданной для того, чтобы ввести читателей в заблуждение с целью генерации определенного мнения на веб-сайтах или управления общественным мнением.
После того, как эта проблема стала весьма значимой, исследователи начали разрабатывать автоматические детекторы поддельных новостей – это так называемые нейронные сети, которые «учатся» на множестве данных распознавать лингвистические сигналы, указывающие на ложные статьи. Учитывая новые статьи для оценки, эти нейронные сети могут с достаточно высокой точностью отделять факты от вымысла в контролируемых условиях.
Исследуемая модель является сверточной нейронной сетью, которая обучается на базе данных из фальшивых и реальных новостей. Для обучения и тестирования исследователи использовали популярный набор поддельных новостей для исследований под названием Kaggle, который содержит около 12 000 фейков с 244 различных веб-сайтов. А также они собрали набор реальных новостных образцов, используя более 2000 статей из New York Times и более 9 000 из The Guardian.
В процессе обучения модель воспринимает язык статьи как «вложение слов», где слова представлены в виде векторов - в основном, массивов чисел - со словами схожего семантического значения. При этом модель фиксирует тройки слов в качестве шаблонов, которые обеспечивают некоторый контекст - например, отрицательный комментарий о политической партии. «Читая» новую статью, модель сканирует текст на наличие похожих шаблонов и отправляет их через ряд проверочных слоев. Конечный выходной слой определяет вероятность каждого шаблона: реальный или поддельный.
Исследователи сначала обучили и протестировали модель традиционным способом, используя те же темы. Но они думали, что это может создать пристрастие в модели, поскольку некоторые темы чаще всего являются предметом фальшивых или реальных новостей. Например, фальшивые новости обычно включают слова «Трамп» и «Клинтон».
Затем исследователи обучили модель по всем темам без какого-либо упоминания слова «Трамп» и протестировали модель только на образцах, которые были выделены из обучающих данных и содержали слово «Трамп». Хотя традиционный подход достиг 93 % точности, второй подход достиг 87 % точности. Исследователи отмечают, что этот разрыв подчеркивает важность использования тем, не затронутых в процессе обучения, чтобы модель могла обобщать полученные знания в новых темах.
Комментарии
(0) Добавить комментарий