2022-09-02 15:00

怎样训练出一个所向披靡的AI赛车手?

#5分钟科普

GT Sophy,当今最强的AI赛车手,它在人气最高的纽博格林北环,以17秒的优势破解了F1七冠王汉密尔顿的赛道记录。它的开发者在登上了nature封面的官方论文里提到,让一个起初连油门踏板都不会踩的AI最终变成所向披靡的赛道之王,背后的秘密是一套特别设计的强化学习算法。


什么是“强化学习”?其实和驯猫是一个道理,猫咪听话时奖励一根猫条,尿炕、抓沙发时给予一些惩罚。强化学习就是通过不断的奖励与惩罚,让一个智能体在与环境交互的过程中,逐渐学会一套能够最大化自身收益的行为。那么,要如何把“奖励”真正送到AI手里呢?

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定