训练集增补后两个非常诡异的错误

2019-5-8

这错误原因说了等于没说，完全不知道问题出在哪，只能靠 想象力

Pytorch: cuda runtime error (59) : device-side assert triggered at /pytorch/aten/src/THC/generic/THCT........错误

在新增了一个类别进入训练集之后（5+1）出现了非常奇怪的CUDA报错

这个错误原因一般是①网络输出的label和标签（训练集种类）数量应该相同

②是否存在-1标签

我的最后一层应该nn.Linear(32768, 5)改为nn.Linear(32768, 6)

很容易忽略很隐蔽的错误！而且这个错误定位并不准。找了我半天时间，
DataLoader worker (pid 20991) is killed by signal: Killed.

检查内存，CPU %MEM一直在增加，跑了很多次都同样出错

Out of memory了

查阅了很多资料，github上有些人也遇到这个问题，有说是因为后台线程设置太多，也以后说enumerate写法问题，还有个说是pytorch的问题

a lot of those issues are because of third party libraries not being fork safe. One alternative resolution might be to use the spawn start method.

最后将子线程设置为1解决

N M B

赏

MySQL索引

fixed不生效

Author

且听风吟

宵晓咲

© 2019 hexo-sakura