Расскажите об этом видео своим друзьям в социальных сетях!
QR-код страницы с видео

Reward Modelling Пчелин Константин Константинович 00:17 Вступление 02:33 Языковая модель как MDP 04:24 Зачем нужна reward model ? 09:26 Модель Брэдли-Терри 11:57 Обучение Reward Model 21:32 Reward Overoptimization 31:48 Reward Shaping 36:32..., видео от 2026-04-27 загрузил на rutube Teach-In...