训练集增补后两个非常诡异的错误

  2019-5-8 


这错误原因说了等于没说,完全不知道问题出在哪,只能靠 想 象 力

  1. Pytorch: cuda runtime error (59) : device-side assert triggered at /pytorch/aten/src/THC/generic/THCT........错误

    在新增了一个类别进入训练集之后(5+1)出现了非常奇怪的CUDA报错

    这个错误原因一般是①网络输出的label和标签(训练集种类)数量应该相同

    ②是否存在-1标签

    我的最后一层应该nn.Linear(32768, 5)改为nn.Linear(32768, 6)

    很容易忽略很隐蔽的错误!而且这个错误定位并不准。找了我半天时间,

  2. DataLoader worker (pid 20991) is killed by signal: Killed.

    检查内存,CPU %MEM一直在增加,跑了很多次都同样出错

    Out of memory

    查阅了很多资料,github上有些人也遇到这个问题,有说是因为后台线程设置太多,也以后说enumerate写法问题,还有个说是pytorch的问题

    a lot of those issues are because of third party libraries not being fork safe. One alternative resolution might be to use the spawn start method.

    最后将子线程设置为1解决

    N M B


且听风吟