在强化学习中,Bootstrapping和无标注样本训练是其区别于监督学习的核心特性。以下通过分层解释来理解这一机制:
一、什么是强化学习中的 Bootstrapping?Bootstrapping(自举)指模型在更新时依赖自身的当前估计
2025-04-10