Classificação de imagem: é a aplicação mais simples, na qual o algoritmo de aprendizagem profunda vai fornecer um ou mais textos relatando o que a imagem contém.
Detecção de objetos: é um tipo de solução muito adotada, que depende de um funcionamento em tempo real. O objetivo aqui é criar o que chamamos de uma caixa delimitadora ao redor dos objetos de interesse. Matematicamente essas caixas podem ser geradas fornecendo dois pontos no espaço analisado. A forma mais comum é utilizar as coordenadas do centro da caixa, a largura e a altura.
Segmentação semântica: para cada imagem de entrada, todos os píxeis são classificados em classes predeterminadas. Esse procedimento detecta, isola e agrupa os objetos da imagem de entrada em sua classe específica.
Segmentação de instâncias: é uma extensão da detecção de objetos, na qual, além da caixa delimitadora ao redor dos objetos, são feitas máscaras individuais para cada objeto.
Segmentação panóptica: é o método mais recente de segmentação, no qual combina-se a segmentação semântica e a segmentação de instâncias, fornecendo uma análise mais profunda das cenas. A comunidade de visão computacional separa os alvos em dois tipos: “things” (coisas em inglês, que, neste caso, são objetos bem definidos, como casas, carros, piscinas) e “stuff” (também significa coisa em inglês, mas de forma mais genérica e, por isso, trata-se, neste caso, de elementos amorfos, que constituem a paisagem de fundo, tais como vias e lagos).