• 简体   /   繁体
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习-计算机应用研究2025年04期

DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习

作者:闫雷鸣 刘健 朱永昕 字体:      

摘 要:离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效(试读)...

计算机应用研究

2025年第04期