DPC-DQRL：动态行为克隆约束的离线-在线双Q值强化学习-计算机应用研究2025年04期

DPC-DQRL：动态行为克隆约束的离线-在线双Q值强化学习

作者：闫雷鸣刘健朱永昕字体：小中大

打印

摘要：离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃；后者由于保留离线约束导致性能提升缓慢，影响训练效（试读）...

计算机应用研究

2025年第04期

期刊目录

面向社交媒体的讽刺检测研究综述
Graph Transformer技术与研究进展：从基础理论到前沿应用
基于双链架构与BBF-Merkle树的高速公路事故救援数据共享方法
考虑平行进口下区块链追溯对企业跨国IP授权影响和策略分析
DPC-DQRL：动态行为克隆约束的离线-在线双Q值强化学习
基于强化学习策略的梯度下降学习求解GCP
融合先验知识与引导策略搜索的机器人轴孔装配方法
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制
基于时空预测的多策略网约车调度算法
面向飞机蒙皮检测任务的空-地异构机器人协同覆盖路径规划
任务和参与者匹配意愿规则约束下的移动群智感知多任务分配
融合多层图与分类信息的双意图会话推荐
基于知识增强的跨模态融合网络的多模态对话情绪识别模型
基于细粒度图像-方面的情感增强方面级情感分析
一种基于运动状态的轨迹预测方法
考虑工时区间的可重入混合流水车间调度方法
基于部分标准对齐的协同遗传规划算法解决本体匹配问题
注意力机制驱动的个性化联邦学习特征分离方法
基于平滑插值和自适应相似矩阵的推荐算法
融合迁移学习和解纠缠负采样的去偏推荐方法
基于改进DDQN算法的复杂网络关键节点识别方法
无人机辅助移动边缘计算中的视频任务卸载算法
基于交通流仿真的智能路侧设施管控效果测度方法
基于先验知识的问诊系统文本结构化解析方法
广义更新过程下生产系统最优维修策略
神经网络算子
融合静态程序分析与集成学习的Android代码异味共存检测
基于强化学习的无人机网络自适应QoS路由算法
工业5G-TSN融合网络的异构流量整形器设计
移动群智感知中基于纳什讨价还价博弈的多任务分配策略
感知时间不可区分的车辆群智感知隐私保护任务分配方案
VANET中高效的格基异构多接收者签密方案
基于矩阵的安全多方计算同态加密方案
基于相邻均值差直方图的高容量可逆信息隐藏算法
基于可验证秘密共享与智能合约的隐私保护算法
无线传感器网络中基于PUF的轻量级多网关身份认证协议
ASGC-STT：基于自适应空间图卷积和时空Transformer的人体行为识别
基于图像-文本大模型CLIP微调的零样本参考图像分割
联合边缘特征的物流驾驶员危险行为识别
面向隐私保护的无镜头成像坐姿识别技术
基于关节结构依赖的三维人体姿态估计与优化策略
基于多模态特征融合的场景文本识别

鲁东大学图书馆电子阅览室

DPC-DQRL：动态行为克隆约束的离线-在线双Q值强化学习

计算机应用研究

2025年第04期

期刊目录

鲁东大学图书馆电子阅览室

新用户注册

注册成功

修改电子邮件