Hello
Alors déjà : est-ce qu'il s'agit de dire "il y a/n'y a pas un humain sur cette image" (classification), ou est-ce qu'il s'agit de dire "il y a un humain et il est à telle position sur l'image" ? (~segmentation, classification etc) C'est deux problèmes différents !
Ensuite ça aiderait de connaître le but de ton TIPE, où tu en es, ce que tu veux accomplir. Il faut en particulier faire attention parce que tout refaire ca peut être ambitieux !
Sinon tu as raison, les CNN sont un très bon choix pour ce genre de problèmes.
Pour coder tout ça, je recommanderais d'utiliser des librairies comme tensorflow (de google,
https://www.tensorflow.org/get_started/get_started ),ou caffe (
http://caffe.berkeleyvision.org/ )
Il y a déjà beaucoup de modèles disponibles, notamment celui du vgg (
http://www.robots.ox.ac.uk/~vgg/research/very_deep/ ). Ils publient leurs modèles et les poids résultant de l'entraînement. Tout ça c'est fait sur des photos "normales".
Ca ne veut pas dire que tu ne peux pas te servir de ce qu'ils ont. Ca peut être envisageable d'insérer un bloc avant le vgg16 qui prend en entrée une image thermique a 3 channels, qui recrache une image a 3 channels, et de réentrainer les dernières couches (dense layers).
L'idée c'est que ce réseau a déjà été entraîné, donc chaque couche encoderait des caractéristiques utiles. La seule partie à changer serait donc celle qui fait la classification -> les dernières couches. Le reste serait fixé et non entraîné.
Je ne sais pas si ca donnerait des résultats satisfaisants, mais ça peut valoir le coup d'essayer !
Sinon tu peux AU MOINS reprendre la même architecture et réentrainer de zero, c'est vraiment pas dur il y a des dépôts github avec tout ça (cherche vgg16 ou vgg19)
Est-ce que tu as accès à une/des carte graphique nvidia? L'entraînement sur processeur c'est assez laborieux, donc si jamais tu peux te débrouiller pour avoir accès à qqch, ça pourra t'aider!