| |
Левіцький, С. М. Метод синтезу бенчмарку для оцінювання робастної стійкості великих мовних моделей до дезінформації та маніпуляцій з фактами [Електронний ресурс] / С. М. Левіцький, В. Б. Мокін // Вісник Вінницького політехнічного інституту. – 2025. – № 1. – С. 128-136. – DOI: https://doi.org/10.31649/1997-9266-2025-178-1-128-136.
Запропоновано метод синтезу бенчмарків для оцінювання робастної стійкості LLM до багатоходових маніпуляцій з твердженнями, про які наперед точно відомо, що усі вони хибні. Метод дозволяє синтезувати бенчмарк, який сформує таку послідовність маніпуляцій хибного твердження, з яким врешті-решт LLM з поганою стійкістю погодиться, що цей фейк, насправді не є фейком. Метод основано на формуванні множини еталонних, виключно хибних, тверджень на основі заданої предметної області з їхньою подальшою кластеризацією та виділенням типових варіантів, на формуванні множин шаблонів для маніпуляцій з довільними твердженнями за використання логіки аргументації, без зміни хибності цих тверджень, та на використанні машинного навчання з підкріпленням для синтезу оптимальної політики (стратегії) формування послідовності маніпуляцій з фактами для кожного виду типового варіанта еталонних хибних тверджень. Запропоновано як критерій робастності LLM використовувати відсоток класифікації хибних тверджень як дійсно хибні. |