基本信息
摘要:本发明公开了一种海量小文件的人工智能训练的方法、系统、设备和存储介质,方法包括:响应于启动人工智能训练任务,从远端中心存储获取数据集并根据块的结构定义将数据集中的小文件合并成数据块;响应于开始训练或者更新epoch,基于数据块之间和数据块内的同步shuffle机制生成训练任务数据集列表;根据训练任务数据集列表得到数据块的文件列表信息;以及根据数据块的文件列表信息获取文件数据,在本地以一个或多个数据块粒度缓存文件数据并进行人工智能任务的训练。本发明解决了海量小文件在训练中读取数据时I/O带宽利用率低问题,并缓解了I/O读取速率与GPU计算速率的不匹配问题,提高了计算资源的利用率,加速了海量小文件的整个训练过程。
摘要附图: