A aprendizagem profunda foi um dos grandes avanços no campo da inteligência artificial. Geralmente, existe a crença de que uma aprendizagem profunda pode ser tudo o que é necessário para replicar a inteligência humana. Contudo, a realidade é que ainda existem desafios, uma vez que a exposição de uma rede neural a um conjunto de dados desconhecido irá revelá-la de forma frágil.

Por exemplo, no caso de carros autónomos, são aparentemente eficazes, mas os sistemas de IA podem facilmente enganar-se. Se o sistema só foi treinado para identificar objectos a partir de perspectivas laterais, provavelmente não os reconhecerá a partir de uma perspectiva superior.

Tirando partido do impacto e do grande investimento envolvido no desenvolvimento da IA nos dias de hoje, surgem todos os dias novas propostas para desenvolver Aprendizagem Profunda, Aprendizagem Mecânica, novos algoritmos, e assim por diante.

Recentemente, Geoffrey Hinton apresentou o GLOM, um projecto que aborda dois dos problemas mais difíceis para os sistemas de percepção visual. Em primeiro lugar, compreender uma cena inteira em relação aos objectos e às suas partes naturais, e em segundo lugar, reconhecer os objectos quando vistos de uma nova perspectiva. Embora a abordagem GLOM esteja actualmente centrada na visão, o seu desenvolvimento é esperado para aplicações linguísticas.

O problema com as redes é que o agrupamento de partes pode ser complicado para os computadores, já que por vezes as partes podem ser ambíguas. Ou seja, um círculo pode representar um olho ou uma roda. Inicialmente, a primeira geração de IA tentou reconhecer objectos de geometria numa relação chamada part-whole, que consiste na orientação espacial entre as partes, e entre as partes e o todo.

Em paralelo, a segunda geração baseou-se numa aprendizagem profunda, formando a rede neural com grandes volumes de dados e informação. A ideia do GLOM combina as melhores propriedades de ambas as gerações.

Consequentemente, o GLOM apresenta boas expectativas no sentido de alcançar a percepção da IA num método mais humano do que as redes neuronais actuais.

Portanto, se a sua aposta for possível, Hinton irá desencadear uma nova revolução na inteligência artificial, como já fez em ocasiões anteriores. O GLOM pode representar a próxima geração de redes neurais artificiais.

A arquitectura GLOM

O desenvolvimento desta arquitectura consistiu basicamente na introdução de estratégias intuitivas à IA. Assim, é uma questão de observar a heurística que as pessoas têm, construindo estas redes neurais e demonstrando depois que estas redes funcionam melhor em visão como resultado.

Assim, com a percepção visual, as partes de um objecto são analisadas para que a IA seja capaz de compreender o todo. Por exemplo, no reconhecimento facial, poderia reconhecer apenas o nariz de uma pessoa para a identificar, isto seria uma hierarquia de parte e do todo.

No ser humano, o cérebro é capaz de compreender este tipo de hierarquia parcial, criando algo conhecido como “árvore parse”, isto é um diagrama ramificado capaz de demonstrar a relação hierárquica entre o todo, as suas partes e subpartes. Por exemplo, um rosto seria o topo da árvore hierárquica, onde o nariz, a boca e os olhos seriam os ramos abaixo e formariam o todo.

Por conseguinte, a ideia inicial de Hinton com GLOM é replicar esta árvore numa rede neural, embora a sua replicação seja exactamente difícil devido a dificuldades técnicas. A dificuldade é que a rede neural teria de analisar cada imagem individual numa única árvore, e a arquitectura estática das redes torna difícil a adopção de uma nova estrutura para cada nova imagem vista.

Assim, a forma de compreender a arquitectura GLOM é dividir uma imagem de interesse numa grelha, em que cada parte é um local na imagem. Agora, para cada localização na rede existem cerca de cinco níveis e, nível por nível, o sistema faz uma previsão com um vector que representa a informação.

Por exemplo, um primeiro nível poderia descrever os cílios de um olho e o nível seguinte, encarregado de construir uma representação coerente, prevê que faz parte do rosto visto de um ângulo específico. Basicamente, esta coerência é alcançada quando vectores ao mesmo nível de vários locais apontam na mesma direcção, gerando uma conclusão de que ambos os vectores pertencem ao mesmo olho, e a níveis mais altos da árvore, ambos os vectores pertencem à mesma face.

No entanto, a rede faz uma média selectiva, por predições vizinhas que mostram semelhanças, ou seja, apenas as predições de locais semelhantes são aceites por uma câmara de eco. Isto significa, uma situação em que a informação é amplificada pela transmissão e repetição num sistema fechado.

Assim, em GLOM, os vectores com apenas ligeiras variações da mesma direcção geram previsões colectivas que são reforçadas e amplificadas sobre uma imagem.

O que torna o GLOM diferente de outras redes neuronais?

Algumas redes neurais recentes utilizam a correspondência vectorial para activação, enquanto que a GLOM utiliza ilhas de correspondência vectorial, conhecidas como ilhas de acordo, para obter uma convenção de representação de árvores parciais na rede neural.

Exemplos em relação a diferentes partes faciais são muito adequados para compreender o GLOM. Um deles é quando diferentes vectores estão de acordo em que todos eles representam parte de um olho, o seu grupo é representativo de um olho numa rede parse-árvore para o rosto.

Por sua vez, outro grupo maior de vectores correspondentes pode representar o nariz na árvore, pelo que o grupo no topo da árvore representaria a inferência e a conclusão de que a imagem como um todo representa um rosto humano.

Consequentemente, a representação em árvore parse é que o objecto representa uma grande ilha e, por sua vez, as partes do objecto representam ilhas de nível inferior. As subpartes são ilhas cada vez mais pequenas. No caso da face, o pupilo representa uma ilha que é menor do que a representada pelo olho inteiro e que, ao mesmo tempo, é menor do que a ilha representada pela face.

GLOM: a intuição é crucial para a percepção

O principal objectivo do GLOM é alcançar o objectivo da intuição modelar. De acordo com Hinton, a intuição é crucial para a percepção. Por conseguinte, a intuição é definida neste campo como a capacidade de fazer analogias sem esforço.

Os seres humanos dão coerência ao seu ambiente através de raciocínio analógico, mapeando semelhanças entre objectos, ideias ou conceitos, ou seja, de um vector para outro. As semelhanças entre os vectores seriam o método de como as redes neurais empregariam um raciocínio intuitivo analógico. Dito de outra forma, a intuição é capaz de captar o método único em que o cérebro humano gera conhecimento.

Assim, o objectivo do GLOM é poder modelar a intuição para peças que não estão bem definidas ou se a sua percepção é dificultada por vários factores, tais como a posição do objecto ou o perfil a partir do qual é observado.

Primeiro arranque do GLOM

Em Toronto, a Google Research iniciou a fase de investigação experimental do GLOM. Os engenheiros de software estão a utilizar simulações informáticas para verificar se o GLOM pode criar ilhas para compreender as partes e a integridade de um objecto, sendo algumas dessas partes ambíguas.

Actualmente, as experiências estão a utilizar elipses de diferentes tamanhos que podem ser arranjadas para formar uma ovelha e um rosto. Utilizando entradas aleatórias de diferentes elipses, o modelo deve criar previsões e lidar com a incerteza se cada elipse faz parte da ovelha ou do rosto, e dentro destas que partes compõem as elipses que as compõem. Além disso, para qualquer acontecimento imprevisto, o modelo deve corrigir-se a si próprio.

O próximo avanço será definir uma linha de base, capaz de identificar se a actual rede neural de aprendizagem profunda comum estaria errada no desempenho desta tarefa. Até agora o GLOM, está a ser impulsionado pela criação e rotulagem de dados para encontrar previsões correctas.

Conclusões

Em conclusão, se a GLOM enfrentar o desafio de representar uma árvore parse numa rede neural, seria um sucesso, uma vez que os faria funcionar correctamente quase sem erros.

Geoff Hinton fez grandes contribuições de valor para o mundo da IA, muitas das suas intuições provaram ser correctas, e espera-se que a GLOM seja mais uma delas, especialmente quando o próprio criador do modelo lhe deposita tão grandes esperanças.

Além disso, o poder deste modelo reside na analogia da câmara de eco, em analogias matemáticas, e mesmo em algumas analogias biológicas. Tudo isto traz consigo um design disruptivo e inovador na engenharia que envolve a IA.

Inicialmente, a ideia do GLOM nasceu como uma espécie de reflexão filosófica, mas após testes-piloto realizados pela Google Research, está a provar ser um modelo válido e eficaz. Anteriormente, os modelos de redes neurais nunca pareceram ser uma ideia viável ou viável no início, mas provaram ser estudos que funcionam notavelmente bem. Assim, espera-se que a tendência para o modelo GLOM seja a mesma.

Contudo, o GLOM não pretende ser a chave para a IA capaz de resolver grandes problemas com agilidade, mas pretende ser um daqueles avanços que irão impulsionar o futuro das redes neurais, proporcionando-lhes uma semelhança com o pensamento humano, tais como construir sobre experiências passadas, generalizar, extrapolar, e compreender.

Portanto, o futuro da IA reside em ser tão semelhante ao pensamento humano quanto possível, porque se fosse mais humano, os aspectos negativos e erros cometidos pelas redes neurais poderiam ser previstos e a sua origem compreendida.

No entanto, por agora este é um projecto ainda por desenvolver que se encontra em fase experimental, mas Hinton quis tornar esta informação pública para qualquer pessoa que a queira experimentar. Sugere também que o público faça novas combinações desta ideia, na esperança de alcançar uma nova filosofia na ciência da IA.