— В XXI веке в мире идет полномасштабная информационная война. Fake news — сверхмощное оружие. Наш проект способен стать щитом, который оградит пользователей интернета от информационных атак, — говорит студент Степан Скрыльников, представивший проект на конкурсе.
В команде Степана Скрыльникова пятеро ребят. Все они одногруппники, друзья, учатся на четвертом курсе Пятигорского государственного университета по направлению «Интеллектуальные системы в гуманитарной сфере». Как-то на занятии Павел Посохов поделился с однокурсниками идеей поиска фейковых новостей и попросил помощи.
— Изначально это был мой сольный проект на конкурсе RuCode, — рассказывает Павел. — Это многоэтапный конкурс, в рамках которого были отборочные этапы, после них — подготовка, объяснение кейсов. Как раз одним из них был кейс от Сбербанка по поиску фейковых новостей. Они предоставили первоначальную выборку, на которую я и опирался. Затем я собрал свою, немного больше. Я подготовил модель, которая вошла в шорт-лист и заняла 15-е место среди 1041 участника. Я за это получил плюсик в карму от Сбербанка. И больше ничего.
С этой моделью Павел и обратился к ребятам.
— Мне нужна была помощь как минимум дизайнера. Но мне сложно организовывать людей и сложно презентовать: не могу объяснить простым языком, что я сделал.
Выслушав Павла, Степан Скрыльников сразу понял, что идею надо развивать и ее ждет успех. Он тут же предложил объединиться в команду и представить идею на ближайшем конкурсе предпринимателей, организованном Министерством науки и высшего образования РФ, пообещав взять на себя роль менеджера.
Ребята устроили мозговой штурм, распределили задачи. У каждого члена команды своя миссия в проекте.
Юрий Курочкин отвечает за «железо» — чтобы компьютерная техника «тянула».
— Моя задача — нейронный носитель. И это довольно тяжелая штука. Во время обучения модели требуется много ресурсов. Я должен следить, чтобы этих ресурсов хватало. Мы использовали Google Colab — это бесплатный облачный сервис на основе Jupyter Notebook. Google Colab предоставляет все необходимое для обучения нейронных сетей, для работы с «машин лернингом» — машинным обучением. Благодаря «Гуглу» у нас не возникало проблем.
Стас Крапивин занимается презентацией проекта.
— Когда я только узнал об этом проекте, я сказал, что мы далеко пойдем. Это было очень интересно, полезно и актуально. Но одно дело — придумать, другое — представить. Иногда очень интересные проекты остаются незамеченными из-за некачественной презентации. Она должна вызывать эмоции.
За дизайн отвечает Валерий Ефанов — натура творческая, музыкант и меломан. Считает, что основная функция красивого — доступность.
— Дизайн нужен для того, чтобы простому человеку было легко воспользоваться программой, чтобы это не был просто голый код.
Капитан Степан Скрыльников отвечает за слаженность работы всей команды. Ребята считают его самым активным и деятельным, системообразующим и ответственным.
Ну, а Павел Посохов продолжает заниматься собственно программой поиска ложных новостей.
Программу назвали «просто» — Fake news identifier. Жюри регионального этапа конкурса работу студентов оценило высоко: в финал вышли 10 проектов от каждого региона округа, и «фейк-определитель» по количеству баллов оказался на втором месте. Но жюри — это профессионалы, а ребятам было важно и мнение любителей.
— Мы тестировали программу на удобство использования, предоставляя доступ людям, не участвовавшим в разработке. Они все успешно работали с этой программой и отмечали легкость ее использования, — говорит Степан Скрыльников.
В презентации, которую парни охотно демонстрируют, мелькает знакомый персонаж — Берт с «Улицы Сезам», и он там не просто так: модель нейронной сети тоже называется Берт.
Как же работает фейк-уловитель? По словам разработчиков, программа не сопоставляет статью с базой новостей, не проверяет источники. Для анализа ей необходим лишь текст. Чем больше модель, тем больше факторов она может учесть. У Берта нет четкого списка команд, которые она исполняет, чтобы решить задачу. Такие модели обучаются на больших массивах данных. Для простоты восприятия можно думать о сети как об эксперте с огромным опытом в конкретной области. Только, в отличие от человека, он не может устать, не заметить ошибку или намеренно ввести в заблуждение. Если погрузиться в детали, программа делает анализ при помощи специфичных математических преобразований над информацией. Чем больше модель, тем больше таких операций она производит и тем больше факторов она может учесть. Берт — очень большая сеть (340 миллионов параметров), именно поэтому она рассматривает все аспекты текста, включая и смысл сказанного, и стилистику. Сложно сказать, какой отдельный признак в большей мере влияет на принятие решения.
Чтобы определить правдивость новости, искусственный интеллект сначала выбирает, к какой рубрике ее отнести, расставляет теги и лишь затем выдает цифры, показывающие вероятность того, что информация является правдивой. Для каждой операции нужна своя модель.
— В качестве примера на презентации мы взяли для проверки новость про Илона Маска, — рассказывает Степан. — Про то, что одна из чипированных им свиней получила докторскую степень по медицине. Очевидно, эта новость определилась как фейковая.
— Эта программа была бы очень полезна информационным агентствам, которые проверяют свои источники, а также крупному и среднему бизнесу, который может страховать себя таким образом от экономических проблем, связанных с дезинформацией, — рассказывает Степан. — Тот же Сбер — это крупный игрок, его бизнес во многом зависит от того, что происходит в мире. Ему необходимо оперативно реагировать на меняющуюся обстановку на рынке. Когда мы занимались этим проектом, мы собирали в том числе информацию об убытках, которые наносят fake news крупному бизнесу.
Например, поддельный пресс-релиз об отставке финансового директора французской строительной компании Vinci привел к тому, что акции компании обрушились на 20%. А когда The Wall Street Journal опубликовал сообщение о планах администрации Трампа ограничить инвестиции в американские ИТ-проекты и компании, связанные с Китаем, этот фейк повлиял на фондовые индексы и биржи.
Теоретически программу можно использовать даже в соцсетях, в новостных пабликах.
— Мы можем помочь и МВД, допустим, в поиске экстремистских новостей, — продолжает капитан команды. — Если речь о технической реализации, то программу возможно запустить и с компьютера, и с телефона уже сейчас, поскольку она исполняется на сервере. Однако выпустить ее на рынок мы не можем до окончательного решения всех вопросов, связанных с лицензированием.
Ребята и раньше участвовали в похожих конкурсах, хакатонах. Зачем? Ради опыта. Имея сертификаты конкурсов, больше шансов занять вакансию в крупной компании.
— Денежные призы — не самое главное, — говорит Павел.
Но и заработать на этом проекте можно, главное — его запатентовать.
— Конкурсов на создание подобной программы проводится много. Но готовых аналогов пока нет. И решения выдвигаются интересные, но ни одного готового продукта. У нас есть шанс занять место на рынке, — уверен Степан. — Сейчас мы увеличиваем точность своей модели, добавляем рубрики и теги. Допустим, если мы сможем расширить рубрику «мир», мы добьемся большего успеха. Но пока это сложно.
Идей у ребят много. Все зависит от поставленных задач от будущих работодателей. Один из кейсов, которые ребята планируют разработать в ближайшее время, — система предсказания болезней сердца. Еще одна идея — голосовой помощник для обучения английскому языку.