Primeiramente, "o que é um teste reCAPTCHA?"

Você já precisou provar que era humano para algum site? Pois bem, esse tipo de teste consiste num tipo de validação que protege sites e aplicações de spam e atividades abusivas. Mas vai bem além disso...

O objetivo não é somente provar pro Google que você não é um robô. Estas associações de palavras a imagens servem como um serviço gratuito de geração de dados para treinar modelos de inteligência artificial.

E o que o incêndio tem a ver com isso? Calma, vamos por partes.

Em um mundo com infinidades de soluções que utilizam IA, o ouro da era atual tornou-se a geração de dados. No teste acima, ao clicar em imagens associadas a táxis, o usuário está indicando quais imagens contém um táxi. A ampla disponibilidade desses dados oferece oportunidades para o treinamento de diversos algoritmos.

Para entender o porque disso, é interessante o conceito de aprendizado supervisionado (supervised learning). Esta é uma técnica para elaborar algoritmos de aprendizado de máquina (machine learning) que busca classificar dados com base na coleta de padrões ou recursos que caracterizam as diferentes classes.

As classes representam um grupo de objetos com características, padrões ou recursos similares. No exemplo citado ao longo deste artigo, a classe seria justamente o táxi.

Para fazer isso, um modelo de aprendizado de máquina supervisionado é fornecido com muitos dados rotulados, chamados de dados de treinamento. Dados rotulados são aqueles que já contam com alguma identificação de classe, justamente por essa razão é considerado supervisionado, já que um humano precisa rotular esses dados. Este algoritmo então aprenderá os recursos associados a uma classe para que possa classificar novos dados.

Voltando aos táxis para tornar esse entendimento mais palpável: os dados rotulados seriam justamente a associação de imagens às classes presentes e os padrões similares seriam, por exemplo, a cor amarela presente na maioria dos táxis.

Bom, tendo isso em vista e sabendo que geralmente são necessários milhares ou milhões de dados cuidadosamente rotulados para se atingir um bom modelo, quem vai fazer o trabalho de formiguinha para classificar todos os dados? VOCÊ.

Sim, somente um ser humano poderia fazer isso. Inclusive, em muitos casos, utilizasse de ferramentas para geração gratuita desses rótulos. É onde entra o Google com a ferramenta reCAPTCHA.

O teste apresenta imagens já rotuladas corretamente como descriminado na figura acima (seleção 1, representando as imagens onde há táxis, e seleção 3, grupo de imagens sem a presença de táxis).

No entanto, também coloca ao menos uma imagem que ainda não há confirmação da presença do objeto (seleção 2, na figura acima).

As imagens já rotuladas servem de fato para definir se é um humano que esta controlando as ações da sua máquina ou um robô programado para isso.

As outras são classificações gratuitas que os usuários fornecem.

Esses novos dados rotulados podem servir de insumo para um algoritmo de reconhecimento de táxis.

Isto aplicado, por exemplo, à imagens de incêndio florestal, poderia auxiliar no treinamento de algoritmos de detecção prévia de queimadas, aumentando a eficiência de combate das brigadas e economizando recursos utilizados devido a um combate em fases inicias do fogo. O reCAPTCHA ficaria mais ou menos assim:

Com um propósito desses, com certeza você não se incomodaria em responder, de vez em quando, se você é um robô ou não, né?

Este é o primeiro de uma série de artigos que discorrem sobre combate a incêndios, monitoramento florestal e inteligência artificial aplicada a imagens.

First of all, do you know what is a reCAPTCHA test?

Have you ever needed to prove that you are human to a website? Well, this type of test is a type of validation that protects sites and applications from spam and abusive activities. But it goes well beyond that...

The goal is not only to prove to Google that you are not a robot. These associations of words to images serve as a free data generation service to train artificial intelligence models.

And what does the fire have to do with it? Hold on, let's break it down.

In a world with endless solutions that use AI, the gold of the current era has become data generation. In the test above, by clicking on images associated with taxis, the user is indicating which images contain a taxi. The widespread availability of this data offers opportunities for training various algorithms.

To understand why this is, it is interesting to understand the concept of supervised learning. This is a technique for developing machine learning algorithms that seeks to classify data based on the collection of patterns or features that characterize the different classes.

Classes represent a group of objects with similar characteristics, patterns or features. In the example mentioned throughout this article, the class would be precisely the taxi.

To do this, a supervised machine learning model is provided with lots of labeled data, called training data. Labeled data is data that already has some class identification, precisely for this reason it is considered supervised, as a human needs to label this data. This algorithm will then learn the features associated with a class so that it can classify new data.

Returning to taxis to make this understanding more palpable: the labeled data would be precisely the association of images with the present classes and the similar patterns would be, for example, the yellow color present in most taxis.

Well, keeping that in mind and knowing that usually thousands or even millions of carefully labeled data are needed to achieve a good model, who is going to do the grunt work of classifying all the data? YOU.

Yes, only a human being could do that. In fact, in many cases, free labeling tools are used to generate these labels. This is where Google comes in with the reCAPTCHA tool.

The test presents correctly labeled images as shown in the figure above (selection 1, representing images with taxis, and selection 3, a group of images without taxis).

However, it also includes at least one image that has not yet been confirmed to have the object present (selection 2, in the figure above).

The correctly labeled images serve to determine whether it is a human controlling the actions of the machine or a robot programmed for it.

The others are free classifications that users provide.

These new labeled data can serve as input for a taxi recognition algorithm.

Applied, for example, to forest fire images, it could assist in training algorithms for early detection of wildfires, increasing the efficiency of firefighting brigades and saving resources used due to fighting at early stages of the fire. The reCAPTCHA would look something like this:

With a purpose like this, you certainly wouldn't mind answering, every now and then, whether you're a robot or not, right?

This is the first in a series of articles that discuss firefighting, forest monitoring, and artificial intelligence applied to images.

Como os testes reCAPTCHA da Google poderiam ajudar a reduzir queimadas

How Google reCAPTCHA tests could help reduce wildfires

How Google reCAPTCHA tests could help reduce wildfires

First of all, do you know what is a reCAPTCHA test?

See also

A complete guide to Integrated Fire Management in Brazil: foundations, challenges, and technologies

The increase in hotspots in Mato Grosso

Wildland fires in Brazil: an environmental catastrophe

Contact us to learn more about our solutions for forest fire management or to request a demonstration