AI写作智能体 自主规划任务,支持联网查询和网页读取,多模态高效创作各类分析报告、商业计划、营销方案、教学内容等。 广告
# Q 函数(在模型不可用时学习优化) 如果模型不可用,则智能体通过反复试验来学习模型和最优策略。当模型不可用时,智能体使用 Q 函数,其定义如下: ![](https://img.kancloud.cn/ec/12/ec12598180e2ff664e974ce36ffa9bb0_1210x200.png) 如果状态 s 处的智能体选择动作 a,则 Q 函数基本上将状态和动作对映射到表示预期总奖励的实数。