Представим, что у нас есть вопрос по тексту произведения "Ревизор".
Мы даём текстовой нейросети только этот вопрос, и сразу начинаем играть в "рулетку". Если эту модель обучили на всём тексте произведения, на множестве качественных конспектов, пересказов, статей и обсуждений, то она, скорее всего, выдаст правильный ответ. Если же модель только частично узнала о существовании такого произведения во время обучения, то мы уже можем быть уверены в правильности ответа только на 50 процентов, а то и меньше, ведь, может быть, те данные, которые она знает, помогут ей ответить на вопрос, а могут и не помочь, и в итоге модель может создать сборную солянку текста, в котором будут одновременно полностью правильные факты и полнейшая ложь с дичью. Ну а самый худший вариант будет, если модель знать не знает, что вообще это за произведение, и начнёт пороть откровенную чушь (галлюцинировать), подкрепляя её полностью выдуманными фактами и цитатами.
Задача всех LLM заключается в том, чтобы предсказать следующий токен в текстовой последовательности. Они не "понимают" смысл так же, как мы, а вычисляют наиболее вероятное продолжение текста на основе статистических закономерностей, выученных на огромных наборах данных. При генерации текста для выполнения любой задачи всё сводится к многократному процессу, где в начале мы даём промт модели, она предсказывает следующий токен, который добавляется к контексту, а дальше это повторяется до момента генерации останавливающего токена. А во время предсказания того самого токена модель выдаёт не один "правильный" ответ, а наиболее вероятные варианты, что даёт некую вариативность, ну и, конечно же, возможные ошибки. Если информации в промте и контексте не хватает, модель, вместо того чтобы остановиться, всегда продолжает работать. Она опирается на свои знания, которые были заложены в неё во время обучения, и пытается заполнить пробелы. Для неё важнее, чтобы текст был логичным и связным, чем чтобы он был правдой.
Поэтому глупо испытывать судьбу в надежде получить правильный ответ, когда можно хотя бы минимально потрудиться и дать текстовой нейросети информацию, которая поможет ей для ответа. Любые нейросети нужно использовать как ИНСТРУМЕНТ, а не как мифическую кнопку "Сделать красиво".