Команда Alibaba Qwen официально опубликовала свои последние результаты исследований — большую языковую модель QwQ-32B. Имея всего лишь около 1/21 параметров DeepSeek-R1, QwQ-32B достигла скачка производительности посредством обучения с подкреплением.
Все комментарии