В Китае представили еще одну ИИ-модель: претендует на лидерство в индустрии
Подразделение Alibaba Group, специализирующееся на искусственном интеллекте, представило обновленную флагманскую модель Qwen2.5-Max. По данным компании, разработка демонстрирует более высокие показатели в сравнении с рядом популярных решений, включая GPT-4o от OpenAI, DeepSeek-V3, Llama-3.1-405B и Claude 3.5 Sonnet. В отличие от предыдущих релизов, выход новинки не спровоцировал резких колебаний на технологическом рынке.
Как следует из технической документации, Qwen2.5-Max обучалась на массиве данных объемом свыше 20 триллионов токенов. Для оптимизации модели применялись методы контролируемой тонкой настройки (SFT) и обучения с подкреплением, основанного на обратной связи (RLHF). Тестирование проводилось на таких платформах, как MMLU-Pro, LiveCodeBench, LiveBench и Arena-Hard, где система показала "значительное превосходство в большинстве дисциплин".
"Текущие результаты подтверждают потенциал базовой архитектуры, — заявили разработчики. — Дальнейшее совершенствование посттренировочных алгоритмов позволит вывести следующую версию модели на качественно новый уровень".
Доступ к Qwen2.5-Max уже открыт через интерфейс Qwen Chat, а интеграция с внешними сервисами возможна через облачную платформу Alibaba Cloud Model Studio. Параллельно компания продолжает развивать мультимодальную модель Qwen2.5-VL, предназначенную для анализа текстово-визуальных данных, которая также доступна пользователям Qwen Chat.
The burst of DeepSeek V3 has attracted attention from the whole AI community to large-scale MoE models. Concurrently, we have been building Qwen2.5-Max, a large MoE LLM pretrained on massive data and post-trained with curated SFT and RLHF recipes. It achieves competitive… pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) January 28, 2025