本申请涉及一种基于模型预测的机器人控制方法、装置、计算机设备和存储介质。方法包括:通过表示机器人的控制约束和状态约束的障碍函数,构建机器人安全相关的代价函数和控制策略结构,构造值函数网络,在任意时刻k,根据k+1,…,k+L预测时刻的代价函数的累加和k+L+1时刻的值函数网络,得到多步策略评估的参考代价函数,通过最小化值函数网络和参考代价函数的误差的平方,得到值函数权值更新律;构造策略逼近网络,得到策略权值矩阵的策略权值更新律,用于计算机器人的控制量。本发明提出一种基于障碍函数的控制策略,可实现最优性和安全性的平衡,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束。