KURAGE online | 人間 の情報

KURAGE online | 人間 の情報

RLHF:人間による評価を利用して強化学習エージェントを訓練する方法 | AI-SCHOLAR

投稿日:

3つの要点✔️ エージェントの振る舞いを人間が比較評価して良さを定量化し,それを近似するreward modelを学習✔️ reward modelを利用して,強化学習関連キーワードはありません

Copyright© KURAGE online | 人間 の情報 , 2024 All Rights Reserved Powered by STINGER.