3.o Exercício de ICIN

Prof. Adolfo Bauchspiess
LARA - Laboratório de Automação e Robótica
ENE - Departamento de Engenharia Elétrica
UnB - Universidade de Brasília

ENE0154 - Inteligência Computacional

3^o Exercício - CIFAR10 Aprendizagem Profunda com Saída "Outro"

Objetivo:

Utilizando o banco de imagens CIFAR10, construir uma rede convolucional profunda para reconhecer 10 classes. Saída "outro" imagem não reconhecida.

Introdução:

As redes redes neurais profundas revolucionaram recentemente (a partir de ~2010!) as aplicações de inteligência artificial conexionista. O teorema de Cybenko, 1989, prova que redes neurais artificias com apenas uma camada escondida são aproximadores universais. Porém, várias camadas convolucionais (CNN) produziram, pela primeira vez na história das RNAs, resultados práticos e uma miríade de aplicações comerciais. CNNs são treinadas para produzir mapas de caracteríscas (features), tornando viável o reconhecimento de padrões em imagens. MNIST, CIFAR-10, CIFAR-100, ImageNet são alguns dos bancos de imagens que consagraram diferentes paradigmas de aprendizagem profunda (AlexNet, ResNet, VGG, Inception, ViT etc.)

O treinamento depende de uma base de dados ampla o suficiente para que a rede tenha boa capacidade de generalização. Neste trabalho será utilizada a base CIFAR-10 (trainset = torchvision.datasets.CIFAR10()), com 50.000 imagens de treinamento, 5.000 de teste e 5.000 de validação. As imagens de 32x32 pixeis correspondem a 10 classes. Diferentes categorias, como "aviões", "passaros", "gatos" e "cachorros" estão disponíveis. Como referência*, o SotA ("State of the Art") do CIFAR-10, 2018, apresenta acurácia de 99,0%.

Diferentes topologias de CNN estão disponiveis na internet. Para uma implementação didática em TensorFlow, ver, por exemplo: https://github.com/acht7111020/CNN_object_classification/tree/master/train. **ResNet é uma das topologias mais populares em várias áreas de aplicação de RNAs.

*SotA - 99.0%, Yanping Huang et al. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism (Nov 2018, arXiv 2018)
**10Dec2015, arXiv 1512.03385, Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Deep Residual Learning for Image Recognition

Procedimento:

Considerar os conjuntos de treinamento, validação e teste.
Normalizar o tamanho das imagens, caso necessário, para a dimensão de entrada escolhida para a RNA.
Caso alguma classe tenha poucas imagens - equilibrar o treinamento: Duplicar imagens de classes menos representadas.
Projetar 3 redes com diferentes números de camadas convolucinais (e números de mapas de características) intercaladas por camadas de pooling e terminadas camadas densas, visando melhorar a taxa de acerto de classificação. Mencionar as topologias testadas. Apresentar a "melhor" RNA.
Verificar a melhor rede, entre as treinadas anteriormente, mas agora com 11 categorias. A classe adicional "outros" é ativada se nenhum neurônio da camada de saída (antes do softmax) atingir o limiar = 0,4. Não é feito nenhum treinamento novo. Em caso de dúvida é "outro" e não o "menos ruim".

Verificar a influência do limiar "outro" na acurácia. (Em um banco de dados rotulado este procedimento é "tendencioso", mas na classificação de imagens do mundo real, não rotuladas, evita "diagnósticos forçados", eg. [0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.09 0.11], winner = 0.11(!).

Códigos:

Ex3_IC_TF.ipynb (TensorFlow by Yuji_Lima_Sumihara)
Ex3_IC_pyTorch.ipynb (PyTorch, AB)

Relatório:

Além dos itens usuais, não esqueça de incluir:

A topologia das redes utilizadas.
As matrizes de confusão dos classificadores.
Alguns exemplos das imagens utilizadas no treinamento e imagens de teste e validação.
Alguns exemplos de mapas de características - imagens filtradas no início, meio e final da CNN (antes do "flatten").
Através de uma tabela, resuma os resultados para as diferentes topologias de rede. Taxas de acerto (accurarcy e loss), tempo de treinamento.
Hardware utilizado (CPU, GPU, TPU, DevCloud, Colab etc.)
Comente sobre o melhor resultado, comparando-o, sempre que possível, aos resultados descritos na literatura.

Código fonte (com um "mínimo" de comentários - markup cells, comentários in-line).

⁺Image: Medium, CIFAR-10 Image classification using PyTorch

Bom Aprendizado Profundo !!