ИИ становится ключевым инструментом в химических исследованиях, предлагая новые методы для решения сложных задач, с которыми не справляются традиционные подходы. Машинное обучение, которое использует алгоритмы и статистические модели для принятия решений на основе данных и выполнения задач, находит все большее применение в химии.
Но для того, чтобы делать надежные прогнозы, машинное обучение также требует большого количества данных, которые не всегда доступны в химических исследованиях. Небольшие наборы химических данных просто не дают достаточной информации для обучения алгоритмов, что ограничивает их эффективность.
В новом исследовании ученые из команды Беренда Смита из EPFL нашли решение в больших языковых моделях, таких как GPT-3. Эти модели предварительно обучаются на огромных объемах текстов и известны своими широкими возможностями в понимании и создании человекоподобных текстов. GPT-3 лежит в основе более популярного ChatGPT.
Исследование, опубликованное в журнале Nature Machine Intelligence, представляет собой новый подход, который значительно упрощает химический анализ.
"GPT-3 не знаком с большей частью химической литературы, поэтому, если мы задаем ChatGPT вопрос по химии, ответы обычно ограничиваются тем, что можно найти в Википедии, - говорит Кевин Яблонка, ведущий научный сотрудник исследования. - Вместо этого мы настраиваем GPT-3 с помощью небольшого набора данных, преобразованных в вопросы и ответы, создавая новую модель, способную давать точные химические выводы".
Этот процесс включает в себя подачу GPT-3 курируемого списка вопросов и ответов. "Например, для высокоэнтропийных сплавов важно знать, находится ли сплав в одной фазе или имеет несколько фаз, - говорит Смит. - В литературе мы нашли множество сплавов, для которых ответ известен, и использовали эти данные для тонкой настройки GPT-3. В результате мы получили усовершенствованную модель искусственного интеллекта, которая обучена отвечать на этот вопрос только "да" или "нет"".
В ходе испытаний модель, обученная на относительно небольшом количестве вопросов и ответов, правильно ответила более чем на 95 % самых разнообразных химических задач, часто превосходя по точности современные модели машинного обучения.
Один из самых поразительных аспектов этого исследования - его простота и скорость. Традиционные модели машинного обучения требуют месяцев для разработки и большого количества данных для обучения. В отличие от них, подход, разработанный Яблонкой, занимает пять минут.
В пресс-релизе EPFL, отмечается, что последствия этого исследования очень глубоки. Оно представляет метод, который так же прост, как поиск литературы, и применим к различным химическим задачам. Возможность формулировать вопросы типа "Высок ли выход (химического вещества), полученного по этому (рецепту)?" и получать точные ответы может произвести революцию в планировании и проведении химических исследований.
В статье авторы заявляют: "Наряду с поиском в справочной литературе, запрос к основополагающей модели GPT может стать обычным способом начать проект, используя коллективные знания, закодированные в ней".
Фото: Unsplash/RephiLe water
Комментарии
(0) Добавить комментарий