Американский бизнесмен Илон Маск подтвердил опасения экспертов о нехватке реальных данных для обучения искусственного интеллекта. В беседе на платформе X (Twitter) с председателем Stagwell Марком Пенном он заявил, что "в прошлом году человеческие знания, пригодные для обучения ИИ, были практически исчерпаны". Это мнение перекликается с заявлением бывшего главного научного сотрудника OpenAI Ильи Суцкевера, который еще в декабре на конференции NeurIPS говорил о достижении "пика данных" в индустрии. Об этом сообщает издание TechCrunch.
Маск, глава компании xAI, предложил решение проблемы — использование синтетических данных, генерируемых самими ИИ-моделями. По его словам, синтетические данные позволят ИИ проводить самооценку и самообучение. Этот подход уже активно применяется крупными компаниями, включая Microsoft, Meta, OpenAI и Anthropic. По данным Gartner, 60% данных, используемых в проектах ИИ и аналитики в 2024 году, являются синтетическими. В качестве примеров применения синтетических данных Маск привел модели Microsoft Phi-4, Google Gemma, Anthropic Claude 3.5 Sonnet и серию моделей Llama от Meta.
Использование синтетических данных сулит экономию средств. Стартап Writer заявляет, что разработка их модели Palmyra X 004, почти полностью основанной на синтетических данных, обошлась в $700 000 против оценочных $4,6 млн для аналогичной модели OpenAI.
Однако есть и обратная сторона медали. Исследования указывают на риск "коллапса модели": синтетические данные, созданные на основе имеющихся, могут усилить существующие предвзятости и ограничить креативность ИИ, снижая его функциональность.