深度学习断点续训问题
由yuchi0792创建,最终由yuchi0792 被浏览 42 用户
问题
您好,老师:
目前在使用bigquant平台使用神经网路建立深度学习模型时。设置的epoch为2000-3000,训练时间往往需要5个小时以上。在这中间很容易因为网络问题发生训练中断。
虽然平台有了保存策略问题,也可以恢复到断点。但是,恢复到断点时只是显示出之前的未完成训练结果,无法接着原来的断点继续训练。点击运行后,依旧从头开始训练模型。这样无法完成一个耗时长的模型训练。
希望告知设置断定续训的方法或者步骤。
十分感激。谢谢