La companyia Google ha mostrat, en l’esdeveniment internacional Search On, com els avenços en intel·ligència artificial estan ajudant a transformar els seus productes d’informació, creant experiències de recerca més afins amb la forma en què funciona la ment humana i multidimensionals com les mateixes persones. En l’esmentat esdeveniment s’han presentat tres novetats principals per trobar exactament el que busquem en les nostres recerques combinant imatges, sons, text i veu, com fa de forma natural l’ésser humà.

Una recerca visual més natural, amb la multirecerca, una manera nova de fer recerques utilitzant imatges i text simultàniament.

La traducció de l’entorn. Utilitzant els avenços en intel·ligència artificial, Google passa de traduir text a traduir imatges. Avui ja s’utilitza més de mil milions de vegades al mes per traduir el text d’imatges a més d’un centenar d’idiomes.

Utilització de la visió immersiva per explorar el món. Mitjançant els avenços en visió artificial i models predictius, ha reinventant el que entenem per un «mapa». Els clàssics en dues dimensions evolucionaran cap a una vista multidimensional del món real, que permetrà experimentar un lloc com si es fos allà.

«Fa més de dues dècades que treballem en la nostra missió d’organitzar la informació del món i fer-la accessible i útil per a tothom. Al principi, va ser la recerca de text però, amb el temps, hem anat creant maneres més naturals i intuïtives de trobar informació. Per exemple, ara pots buscar què és el que veus amb la càmera o fer preguntes de viva veu», s’ha informat durant l’esdeveniment.

Des de la perspectiva de Google s’entreveu un món en el qual es pot trobar exactament el que es busca combinant imatges, sons, text i veu, com fa de forma natural l’ésser humà.

Recerca visual

Utilitza les càmeres com a eina, el teclat del futur, amb què accedir a informació i comprendre millor l’entorn. El 2017 va néixer Lens, que permet buscar el que veiem utilitzant la càmera o una imatge. En el dia d’avui, Lens s’utilitza per respondre a vuit mil milions de preguntes cada mes.

La recerca visual és més natural amb la multirecerca, una manera nova de fer recerques utilitzant imatges i text simultàniament. Fa uns mesos, es va implementar la versió beta del mode multirecerca als Estats Units i, a Search On, s’ha anunciat que estarà disponible en més de setanta idiomes en els pròxims mesos. Un pas més enllà es fa amb la multirecerca a prop de mi, que permet fer una foto a una cosa desconeguda, com un plat de menjar o una planta, i trobar-lo en un lloc pròxim, com un restaurant o un centre de jardineria. Aquesta tardor es donarà el tret de sortida a aquesta eina en anglès, als Estats Units. 

Traduir el món al voltant

Un dels potencials més grans de la percepció visual és la seva capacitat per trencar les barreres lingüístiques. Mitjançant la intel·ligència artificial, s’ha passat de traduir text a traduir imatges. Google ja s’utilitza més de mil milions de vegades al mes per traduir el text d’imatges a més d’un centenar d’idiomes. Però, sovint, el que forma el significat és la combinació de les paraules i el seu context (les imatges en les quals s’inscriu el text). Avui dia, ja es combina el text traduït amb aquestes imatges contextuals, gràcies a una tecnologia d’aprenentatge automàtic anomenada Xarxes Generatives Antagòniques (RGA o GAN, per les seves sigles en anglès). Si, per exemple, s’apunta amb la càmera a una revista en un altre idioma, veurem a la pantalla el text traduït superposat sobre les imatges que l’acompanyen. 

Visió immersiva

Gràcies als avenços en visió artificial i models predictius, Google reinventa els mapes. Els clàssics en dues dimensions evolucionaran cap a una vista multidimensional, que permetrà experimentar un lloc de manera personalitzada.

Igual com la possibilitat de consultar el trànsit en temps real en mode navegació va canviar Google Maps, fent-ho més útil, s’ha aconseguit un altre avenç significatiu amb la vista immersiva de Google Maps, amb més informació com les condicions meteorològiques o com està de freqüentat un lloc determinat. Amb aquesta experiència és possible fer-se una idea de com és un lloc abans fins i tot de posar-hi un peu, per decidir on es vol anar i quan.

Al fusionar una representació avançada del món amb models predictius, es dona idea de com serà un lloc demà, la setmana vinent o fins i tot d’aquí un mes. En el dia d’avui, es àmplia la primera versió d’aquesta funció amb imatges aèries de dos-cents cinquanta enclavaments emblemàtics. En els pròxims mesos arribarà la vista immersiva a cinc grans ciutats.