Компания DeepSeek анонсировала обновленную модель VL2, предназначенную для распознавания информации на изображениях. Об этом сообщает VC.
В рамках обновления компания представила серию моделей DeepSeek-VL2, построенных на основе метода Mixture of Experts (MoE), что позволяет объединять несколько нейросетей для решения комплексных задач. В серию вошли модели DeepSeek-VL2-Tiny, VL2-Small и VL2, содержащие 1 млрд, 2,8 млрд и 4,5 млрд параметров соответственно. Заявляется, что эти модели превосходят предыдущую версию DeepSeek-VL.
По словам разработчиков, VL2 способна понимать и объяснять содержание документов, таблиц и диаграмм, а также предлагать рецепты по фотографиям продуктов. Более того, она распознает письменный текст и может его напечатать. Пользователи отмечают высокую точность и эффективность новой модели.
Кроме того, новая модель способна идентифицировать объекты на одном изображении и находить аналогичные объекты на другом.
В настоящее время DeepSeek-VL2 доступна в виде бесплатной демоверсии на платформе Hugging Face. Когда новую модель добавят в чат-бот, не уточняется.