Когда в прошлом году академик Джатан Садовски попытался провести аналогию, чтобы описать, как разрушаются программы искусственного интеллекта, он остановился на термине "Габсбургский искусственный интеллект".
Габсбурги были одним из самых могущественных королевских домов Европы, но целые ветви их семейной линии распались после столетий инбридинга.
Недавние исследования показали, что программы искусственного интеллекта, лежащие в основе таких продуктов, как ChatGPT, терпят аналогичный крах, когда им постоянно передают их собственные данные.
"Я думаю, что термин "габсбургский искусственный интеллект" очень хорошо прижился", - сказал Садовски агентству AFP, отметив, что его изобретение "стало еще более актуальным для того, как мы думаем о системах искусственного интеллекта".
Главная проблема заключается в том, что контент, созданный с помощью искусственного интеллекта, может захватить Интернет, что, в свою очередь, может сделать чат-ботов и генераторы изображений бесполезными и ввергнуть индустрию стоимостью в триллион долларов в штопор.
Но другие эксперты утверждают, что проблема преувеличена или ее можно решить.
И многие компании с энтузиазмом используют то, что они называют синтетическими данными, для обучения программ искусственного интеллекта. Эти искусственно созданные данные используются для дополнения или замены реальных данных. Это дешевле, чем контент, созданный человеком, но более предсказуемый.
"Для исследователей и компаний, создающих системы искусственного интеллекта, открытым остается вопрос о том, насколько синтетические данные являются избыточными", - сказал Садовски, преподаватель новых технологий в Австралийском университете Монаша.
- "Коровье бешенство" -
Обучающие программы искусственного интеллекта, известные в отрасли как large language models (LLM), предполагают использование огромного количества текста или изображений из Интернета.
Эта информация разбивается на триллионы крошечных машиночитаемых фрагментов, известных как токены.
Когда задается вопрос, программа, подобная ChatGPT, выбирает и собирает токены таким образом, чтобы ее обучающие данные указывали на то, что это наиболее вероятная последовательность, соответствующая запросу.
Но даже лучшие инструменты искусственного интеллекта генерируют ложь и бессмыслицу, и критики уже давно выражают обеспокоенность по поводу того, что произойдет, если модель будет основана на ее собственных результатах.
В конце июля статья в журнале Nature под названием "Модели искусственного интеллекта разрушаются при обучении на рекурсивно сгенерированных данных" стала поводом для обсуждения.
Авторы описали, как модели быстро отбрасывали более редкие элементы из своего исходного набора данных, и, как сообщает Nature, результаты вырождались в "тарабарщину".
Неделю спустя исследователи из университетов Райса и Стэнфорда опубликовали статью под названием "Самопоглощающие генеративные модели сходят с ума", в которой пришли к аналогичному выводу.
Они протестировали программы искусственного интеллекта, генерирующие изображения, и показали, что результаты становятся более общими и лишенными нежелательных элементов по мере добавления данных, сгенерированных с помощью искусственного интеллекта, к базовой модели.
Они назвали модельный коллапс "Модельным расстройством аутофагии" (MAD) и сравнили его с коровьим бешенством, смертельным заболеванием, вызываемым скармливанием останков мертвых коров другим коровам.
- "Сценарий конца света" -
Эти исследователи обеспокоены тем, что текст, изображения и видео, созданные с помощью искусственного интеллекта, очищают Интернет от полезных данных, созданных человеком.
"Один из сценариев конца света заключается в том, что, если MAD не будет контролироваться в течение многих поколений, это может негативно сказаться на качестве данных и разнообразии всего Интернета", - говорится в заявлении одного из авторов из Университета Райса Ричарда Баранюка.
Однако отраслевые эксперты остаются невозмутимыми.
Anthropic и Hugging Face, два лидера в этой области, которые гордятся своим этичным подходом к технологиям, рассказали агентству AFP, что они использовали данные, сгенерированные искусственным интеллектом, для точной настройки или фильтрации своих наборов данных.
Антон Ложков, инженер по машинному обучению в Hugging Face, сказал, что статья Nature дает интересную теоретическую перспективу, но ее сценарий катастрофы нереалистичен.
"В реальности обучение на нескольких циклах синтетических данных просто не проводится", - сказал он.
Однако он сказал, что исследователи, как и все остальные, разочарованы состоянием Интернета.
"Большая часть Интернета - это мусор", - сказал он, добавив, что Hugging Face уже приложил огромные усилия для очистки данных, иногда отбрасывая до 90 процентов.
Он надеялся, что веб-пользователи помогут очистить Интернет, просто отказавшись от использования сгенерированного контента.
"Я твердо верю, что люди заметят последствия и поймут сгенерированные данные намного раньше, чем это сделают модели", - сказал он.
(Этот сюжет не редактировался сотрудниками NDTV и автоматически сгенерирован из синдицированной ленты.)