A Terra sob os olhos da inteligência artificial profunda

Departamento de Geografia
Universidade de Brasília
Departamento de Geografia
Universidade de Brasília
Departamento de Geografia
Universidade de Brasília

“Uma imagem vale mais que mil palavras”, já dizia o filósofo chinês Confúcio (552 a.C-489 a.C.). E o que dizer de milhares, milhões de imagens geradas por monitoramento remoto a partir de satélites? São capazes de gerar informações sobre diversas áreas do nosso cotidiano. Mas quantos olhos seriam necessários para processar tantos dados? É aí que entra a inteligência artificial, com as técnicas de aprendizado de máquina e aprendizado profundo, revolucionando a forma como os computadores “veem” e “entendem” os registros da superfície terrestre.

O emprego de imagens nos estudos da superfície da Terra é chamado de sensoriamento remoto. E, como já diz o nome, essa tecnologia permite obter informações sem a necessidade de contato físico direto do indivíduo com o objeto de análise. Para tal, são usados sensores a bordo de diferentes plataformas como balões, aeronaves e drones. Mas foi há 50 anos, mais exatamente em 1972, que sensores foram embarcados em satélites, alcançando abrangência global e com periodicidade constante. Esse avanço transformou por completo a visão humana do nosso planeta e impactou, de uma só vez, vários campos da ciência.

De fato, a aquisição periódica de dados na escala global, por meio de imagens, permite mapear os diversos elementos que compõem a superfície terrestre, os oceanos e a atmosfera e entender os processos de mudanças naturais e causadas pelos humanos.

Ao longo dos anos, a tecnologia de imageamento (captura de imagens) por satélite foi aprimorada com aumento da quantidade de dados coletados. Para se ter uma ideia, o primeiro satélite para imageamento (Landsat-1) tinha 3 metros de altura, 1,5 metro de diâmetro e pesava aproximadamente 950 quilos. E, atualmente, estão em operação microssatélites da Planet Labs com tamanho de 10 x 10 x 30 centímetros (menor que uma caixa de sapatos) e peso de 5 quilos. Essa tecnologia de miniaturização permitiu colocar em operação uma constelação com mais de 100 microssatélites, que adquirem diariamente imagens com alta resolução.

A tecnologia de miniaturização permitiu colocar em operação uma constelação com mais de 100 microssatélites, que adquirem diariamente imagens com alta resolução

As séries temporais compostas por sucessivas imagens do mesmo local formam um filme que demonstra as variações sazonais de vegetações, ciclos de crescimento das plantações, regimes de cheias e vazantes dos rios, variações climáticas, derretimento da calota polar, crescimento das cidades, desflorestamentos, entre outros. O acompanhamento desse grande número de sensores em operação aumenta o volume de dados que cresce exponencialmente ao longo do tempo, no que consiste num dos mais expressivos big data (banco de macrodados) construídos pela humanidade.

Mas, neste cenário surge uma questão: como processar esse gigantesco volume de imagens, visando a extrair informações com alta acurácia e de forma rápida para atender as diversas áreas de conhecimento.

A inteligência artificial com visão humana

Tornou-se, portanto, um desafio desenvolver métodos automatizados baseados em inteligência artificial para o processamento desse big data de imagens e obter a eficiência da visão humana. A visão humana possui notável proficiência na identificação de objetos e no estabelecimento de conexões semânticas, permitindo abstrair representações visuais considerando diversos fatores de mudanças como geometria, variação de fundo e oclusão. Além disso, a interpretação de uma cena não se limita a identificar os objetos presentes, mas também efetuar uma pormenorizada caracterização semântica das inter-relações dos objetos.

A interpretação de uma cena não se limita a identificar os objetos presentes, mas também efetuar uma pormenorizada caracterização semântica das inter-relações dos objetos

As primeiras classificações de imagens de sensoriamento remoto baseavam-se em métodos estatísticos que buscavam agregar píxeis (ou em inglês pixels) similares (menor unidade das imagens) considerando os valores presentes nas diversas bandas espectrais. No entanto, a classificação baseada por informações restritas ao píxel apresenta severas limitações para distinguir objetos complexos compostos por diferentes elementos.

Por exemplo, a identificação de uma motocicleta não é possível por agrupamento de pixeis similares, uma vez que essa é composta por diferentes elementos, tais como pneus, retrovisores, banco, entre outros, que variam de cor, textura e tamanho. A completa compreensão desses objetos ocorre em um nível semântico onde todas as partes do objeto estão conjuntamente integradas em sua identificação. Portanto, a agregação de diferentes partes que compõem um todo requer uma compreensão semântica

Conceitos de machine e deep learning

Nesse contexto, métodos de inteligência artificial despontam no propósito de extrair informações semânticas automatizadas, revolucionando o processamento de dados de sons, textos, imagens, entre outros. É bom lembrar que a inteligência artificial pode ser compreendida como processos computacionais que imitam o comportamento humano. IA é um termo muito amplo, dentro do qual, quando se trata de visão computacional, destacam-se a aprendizagem de máquina (machine learning) e sua subárea denominada de aprendizagem profunda (deep learning).

A inteligência artificial pode ser compreendida como processos computacionais que imitam o comportamento humano

A aprendizagem de máquina é a área do conhecimento que desenvolve algoritmos visando à organização de dados, reconhecimento de padrões e compreensões inteligentes. Complementarmente, a aprendizagem profunda se constitui em uma parte específica do aprendizado de máquina que utiliza redes neurais artificiais, estruturas compostas por neurônios em camadas sequenciais que imitam a rede neural do cérebro humano. O termo profundo faz menção ao número de camadas, que estabelecem conexões e direções de propagação de dados em sistemas não-lineares que possibilitam o entendimento em vários níveis de abstração (Figura 1).

Figura 1. Comparação da rede neural simples com a da aprendizagem profunda

No campo da visão computacional, as redes neurais convolucionais (Convolutional Neural Networks, com a sigla do inglês CNN) são as principais ferramentas devido à alta capacidade de extrair informações dentro de um contexto e entender padrões espaciais e de texturas em um alto nível, incluindo informações da categoria do objeto, localização e forma. As redes neurais convolucionais permitem diferentes aplicações, sendo as principais (Figura 2):

Figura 2. Comparação dos diferentes métodos de aplicação de aprendizagem profunda.

Classificação de imagem: é a aplicação mais simples, na qual o algoritmo de aprendizagem profunda vai fornecer um ou mais textos relatando o que a imagem contém.

Detecção de objetos: é um tipo de solução muito adotada, que depende de um funcionamento em tempo real. O objetivo aqui é criar o que chamamos de uma caixa delimitadora ao redor dos objetos de interesse. Matematicamente essas caixas podem ser geradas fornecendo dois pontos no espaço analisado. A forma mais comum é utilizar as coordenadas do centro da caixa, a largura e a altura.

Segmentação semântica: para cada imagem de entrada, todos os píxeis são classificados em classes predeterminadas. Esse procedimento detecta, isola e agrupa os objetos da imagem de entrada em sua classe específica.

Segmentação de instâncias: é uma extensão da detecção de objetos, na qual, além da caixa delimitadora ao redor dos objetos, são feitas máscaras individuais para cada objeto.

Segmentação panóptica: é o método mais recente de segmentação, no qual combina-se a segmentação semântica e a segmentação de instâncias, fornecendo uma análise mais profunda das cenas. A comunidade de visão computacional separa os alvos em dois tipos: “things” (coisas em inglês, que, neste caso, são objetos bem definidos, como casas, carros, piscinas) e “stuff” (também significa coisa em inglês, mas de forma mais genérica e, por isso, trata-se, neste caso, de elementos amorfos, que constituem a paisagem de fundo, tais como vias e lagos).

Desafio antes do aprendizado

Um grande desafio para a aplicação de métodos de aprendizagem profunda é a necessidade de elaboração de um grande banco de dados para minimizar os erros e obter interpretações de alta qualidade. Para tal, é necessário fazer previamente, com o trabalho humano, a descrição detalhada dos objetos de interesse nas cenas. Nesse processo de aprendizagem, as imagens originais devem ser rotuladas especificando os elementos que se deseja extrair. A partir do banco de dados montado, com as imagens originais (entradas) e as rotuladas (saídas esperadas), treina-se o algoritmo para estabelecer conexões causais, que permitem a identificação correta de dados, mesmo daqueles nunca vistos antes pelo algoritmo.

Um grande desafio para a aplicação de métodos de aprendizagem profunda é a necessidade de elaboração de um grande banco de dados para minimizar os erros e obter interpretações de alta qualidade

As imagens orbitais ou de aerolevantamentos apresentam peculiaridades e exigem ajustes para o emprego da aprendizagem profunda, em processos diferentes dos que envolvem as imagens obtidas pelos celulares. O primeiro ponto de distinção refere-se às grandes dimensões dessas imagens, tornando imperativo a subdivisão delas em quadros menores, por questões de capacidade computacional. Para tanto, utiliza-se um mecanismo de janela deslizante, no qual uma janela móvel com tamanho fixo percorre a imagem e classifica quadro por quadro. A segunda diferença é que as imagens orbitais apresentam um número variado de bandas espectrais, diferindo das imagens coloridas de celulares e filmadoras compostas por três cores: vermelho, verde e azul. No caso das imagens de satélite ou orbitais, normalmente existem bandas referentes às faixas espectrais do visível, infravermelho ou micro-ondas, que ajudam a melhor identificação dos alvos. Assim, bancos de dados específicos para esses tipos de imagens devem ser elaborados considerando as diferenças dos sensores com relação às resoluções espectrais, espaciais e temporais, uma vez que a maioria dos bancos de dados estruturados existentes utilizam imagens comuns de celulares e máquinas fotográficas.

Mas, afinal, quais são as aplicações da aprendizagem profunda nos estudos de sensoriamento remoto? A seguir, alguns exemplos das pesquisas do Laboratório de Sistemas de Informações Espaciais (LSIE) da Universidade de Brasília (UnB).

Olhos no desflorestamento da Amazônia

O desmatamento da Amazônia tem enormes impactos ambientais e climáticos. Seu controle é, portanto, fundamental. E não é possível controlar sem monitorar. Os testes empregando algoritmos de redes neurais convolucionais (CNN) para detecção do desmatamento na região amazônica brasileira mostraram que esta é uma excelente alternativa para o monitoramento e o auxílio na fiscalização, proporcionando mais acurácia, rapidez e ausência de ruído nas classificações (figura 3).

Figura 3. Detecção de mudanças anuais de desmatamento na Amazônia, usando
imagens Landsat e aprendizagem profunda

O desmatamento da Amazônia tem enormes impactos ambientais e climáticos. Seu controle é, portanto, fundamental. E não é possível controlar sem monitorar.

O agro na mira

A análise espacial e da dinâmica da produção agrícola é estratégica para o desenvolvimento dessa atividade, a segurança alimentar e os sistemas agrícolas sustentáveis. Nesse sentido, estudos foram realizados na detecção de arrozais na região Sul do Brasil usando CNN e séries temporais de imagens radar que evidenciam os diferentes estágios do plantio e os diferenciando de outros cultivos (figura 4).

Figura 4. Emprego da segmentação semântica e imagens de radar Sentinel-1 para a
detecção de plantios de arroz. A cor verde representa as áreas de acerto, e a vermelha
de erros

O círculo da irrigação

O mapeamento de áreas com sistema de irrigação por pivô central (dispositivo ao centro de uma área circular que fornece a água) é estratégico para a estimativa da produção agrícola e a gestão dos recursos hídricos. O mapeamento por meio do aprendizado profundo permite detectar as feições circulares independentemente dos tipos de plantio, usando segmentação semântica ou de instância e imagens ópticas ou radar. A figura 5 mostra um exemplo, usando segmentação de instância e imagens Landsat.

Figura 5. Segmentação de instância de pivôs centrais, usando imagens de satélite
Landsat próximos ao Distrito Federal

Óleo ao mar

A crescente exploração de petróleo em alto mar torna frequentes os derramamentos de óleo, que ocasionam perdas econômicas e forte impacto ambiental nos ecossistemas marinhos e nas áreas costeiras. O monitoramento dessas vastas áreas oceânicas é um fator primordial para uma rápida detecção, retenção e limpeza desses derramamentos. O emprego de métodos baseados em CNN e imagens de radar demonstraram alto potencial para monitorar esses desastres ambientais, aumentando a rapidez e a eficiência na sua identificação e contenção (Figura 6).

Figura 6. Segmentação semântica de derramamento de óleo na Bacia de Campos,
usando imagem radar Sentinel-1

Fiscalização de áreas e obras públicas

A gestão de áreas públicas é essencial para promover o bem-estar social e defender os interesses coletivos em relação aos objetivos privados, envolvendo questões econômicas, sociais e ambientais. Outro fator que exige monitoramento é a fiscalização remota de construções de obras. Nesse contexto, foram desenvolvidos métodos com CNN para o mapeamento de áreas de praias com infraestrutura turística para exploração comercial (figura 7) e o mapeamento de construções de usinas fotovoltaicas.

Figura 7. Segmentação panóptica de infraestruturas turística na praia do Futuro,
Fortaleza

Mapeamento urbano

As técnicas de aprendizagem profunda apresentam grande potencial para o mapeamento das infraestruturas das cidades, contribuindo para o planejamento urbano. A figura 8 apresenta exemplos de segmentação panóptica na cidade de Brasília usando imagens aéreas.

Figura 8. Segmentação panóptica de áreas urbanas de Brasília, usando imagens de
fotografias aéreas

Depois de conhecer todos esses exemplos, percebe-se que, apesar de serem tecnologias complexas e desconhecidas da população em geral, a aprendizagem de máquina e a aprendizagem profunda usadas no sensoriamento remoto já fazem parte do cotidiano de todos nós. E o mais importante: contribuindo para avanços em diferentes setores como segurança, agricultura e proteção do meio ambiente.

Bem, P.P. de et al. 2021. Irrigated rice crop identification in Southern Brazil using convolutional neural networks and Sentinel-1 time series. Remote Sens. Appl. Soc. Environ. 24, 100627. https://doi.org/10.1016/j.rsase.2021.100627

De Albuquerque, A.O. et al. 2021. Dealing With Clouds and Seasonal Changes for Center Pivot Irrigation Systems Detection Using Instance Segmentation in Sentinel-2 Time Series. IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 14, 8447–8457. https://doi.org/10.1109/JSTARS.2021.3104726

De Bem, P.P.et al. 2020. Change Detection of Deforestation in the Brazilian Amazon Using Landsat Data and Convolutional Neural Networks. Remote Sens. 12, 901. https://doi.org/10.3390/rs12060901

De Carvalho, O.L.F. et al. 2022. Panoptic Segmentation Meets Remote Sensing. Remote Sens. 14, 965. https://doi.org/10.3390/rs14040965

De Carvalho, O.L.F. et al. Instance segmentation for governmental inspection of small touristic infrastructure in beach zones using multispectral high-resolution worldview-3 imagery. ISPRS Int. J. Geo-Information 10. https://doi.org/10.3390/ijgi10120813

De Moura, N.V.A. et al. 2022. Deep-water oil-spill monitoring and recurrence analysis in the Brazilian territory using Sentinel-1 time series and deep learning. Int. J. Appl. Earth Obs. Geoinf. 107, 102695. https://doi.org/10.1016/j.jag.2022.102695

Seu Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Outros conteúdos desta edição

725_480 att-79058
725_480 att-79037
725_480 att-79103
725_480 att-79363
725_480 att-79274
614_256 att-79434
725_480 att-79129
725_480 att-79088
725_480 att-79148
725_480 att-79429
725_480 att-79453
725_480 att-79341
725_480 att-79523
725_480 att-79333
725_480 att-79493

Outros conteúdos nesta categoria

725_480 att-81551
725_480 att-79624
725_480 att-79058
725_480 att-79037
725_480 att-90212
725_480 att-90189
725_480 att-90203
725_480 att-90172
725_480 att-89383
725_480 att-89442
725_480 att-89408
725_480 att-89345
725_480 att-88660
725_480 att-88521
725_480 att-88612