Offline reinforcement learningDeep reinforcement learningPolicy distillationDouble actors-critics frameworkEx-perience replay mechanism
离线强化学习 深度强化学习 策略蒸馏 双行动者-评论家框架 经验回放机制
国家自然科学基金国家自然科学基金国家自然科学基金国家自然科学基金国家自然科学基金新疆维吾尔自治区自然科学基金江苏高校优势学科建设工程资助项目
62376179617723556170205561876217621761752022D01A238
2024