Помимо технических, галлюцинации могут возникать и из-за исходного материала ИИ, который может быть необъективным, неполным, противоречивым или даже ошибочным, о чем мы говорили в главе 2. У модели нет возможности отличить мнение или творческий вымысел от факта, образный язык от буквального, ненадежные источники от надежных. Модель может унаследовать предубеждения и предрассудки создателей, кураторов и настройщиков данных.
Бывает забавно, когда ИИ не может отличить, когда вымысел перетекает в реальность. Например, Колин Фрейзер, специалист по изучению данных, заметил, что на вопрос о случайном числе от 1 до 100 ChatGPT отвечает "42" в 10 % случаев. Если бы он действительно выбирал число случайным образом, он должен был бы отвечать "42" только в 1 проценте случаев. Ботаники-фантасты среди моих читателей, вероятно, уже догадались, почему 42 встречается гораздо чаще. В классической комедии Дугласа Адамса "Путеводитель автостопщика по Галактике" 42 - это ответ на "главный вопрос жизни, Вселенной и всего остального" (оставляя открытым более важный вопрос: что это был за вопрос?), а в Интернете это число стало шуткой. Таким образом, Фрейзер предполагает, что ИИ может увидеть гораздо больше 42, чем других чисел, что, в свою очередь, увеличивает вероятность того, что ИИ выдаст это число, галлюцинируя при этом, что дает вам случайный ответ.
Эти технические проблемы усугубляются тем, что для создания ответов они опираются на шаблоны, а не на хранилище данных. Если вы попросите ИИ привести цитату, он сгенерирует ее на основе связей между данными, которые он изучил, а не извлечет из памяти. Если цитата известная, например "Четыре часа и семь лет назад", ИИ закончит ее правильно: "...наши отцы основали на этом континенте новую нацию, созданную на принципах Свободы и верности постулату о том, что все люди созданы равными". ИИ видел эти связи достаточно раз, чтобы понять следующее слово. Если более неясное, например моя биография, он дополнит детали правдоподобными галлюцинациями, например GPT-4 будет настаивать на том, что я получил степень бакалавра по информатике. Все, что требует точного запоминания, скорее всего, приведет к галлюцинации, хотя предоставление ИИ возможности использовать внешние ресурсы, например веб-поиск, может изменить это уравнение.
И вы не сможете выяснить, почему ИИ генерирует галлюцинации, спросив его об этом. Он не осознает свои собственные процессы. Поэтому, если вы попросите его объяснить себя, ИИ вроде бы даст вам правильный ответ, но он не будет иметь ничего общего с процессом, который породил исходный результат. Система не может объяснить свои решения и даже не знает, что это были за решения. Вместо этого она (как вы уже догадались) просто генерирует текст, который, по ее мнению, порадует вас в ответ на ваш запрос. LLM, как правило, не оптимизированы для того, чтобы говорить "я не знаю", когда у них недостаточно информации. Вместо этого они дадут вам ответ, выражающий уверенность.
Один из самых известных ранних примеров галлюцинаций в LLM произошел в 2023 году, когда юрист по имени Стивен А. Шварц использовал ChatGPT для подготовки юридической записки по иску о нанесении телесных повреждений авиакомпании. Шварц использовал ChatGPT для изучения судебных документов; ИИ привел шесть поддельных дел. Затем он представил эти дела суду как реальные прецеденты, не проверив их подлинность или точность.
Фальшивые дела были обнаружены адвокатами защиты, которые не смогли найти никаких записей о них в юридических базах данных. Тогда они сообщили об этом судье, который потребовал от Шварца объяснить, откуда он взял информацию. Шварц признал, что использовал ChatGPT для создания дел и что у него не было намерения обмануть суд или действовать недобросовестно. Он утверждал, что не знал о природе и ограничениях ChatGPT и что узнал о нем от своих детей, обучающихся в колледже.
Судью, П. Кевина Кастела, не убедили объяснения Шварца. Он постановил, что Шварц действовал недобросовестно и ввел суд в заблуждение, предоставив ложную и ничем не подкрепленную информацию. Он также установил, что Шварц проигнорировал несколько тревожных сигналов, которые должны были предупредить его о том, что дела были поддельными, например, их нелепые названия, даты и ссылки. Он наложил совместный штраф в размере 5 000 долларов на Шварца и его соадвоката Питера ЛоДуку, который взял на себя ведение дела, когда оно перешло в другую юрисдикцию. Он также приказал им обратиться к судьям, упомянутым в фальшивых делах, с информацией о сложившейся ситуации.