Destacat »

1 Agost 2019 – 8:00

Tornem el dia 1 de setembre.
Que passeu un bon estiu!
“Les vacances consisteixen en no tenir res a fer i disposar de tot el dia per fer-ho”. Robert Orben
😉

Read the full story »
Col·legi

el Col·legi, informació rellevant sobre el COEINF, activitats, relacions i varis

Formació

formació continuada i orientació professional, convenis de formació amb altres entitats

Opinió

Articles d’opinió, de divulgació o de propostes tecnològiques dels col·legiats, adherits, associats o col·laboradors d’entitats afins al COEINF

Esdeveniments

tots els esdeveniments rellevants del sector TIC

Professió

món laboral, emprenedors, enginyers en informàtica, entrevistes, certificacions, deontologia, carreres professionals, …

Home » Notícies

Una màquina s’ensenya a si mateixa a guanyar en tot

Submitted by on 11 Desembre 2018 – 9:00No Comment
Share Button

DeepMind desenvolupa una intel·ligència artificial invencible en els tres jocs de tauler més complexos gràcies a un algoritme que competeix sense instruccions.

L’objectiu està lluny: aconseguir una sola màquina capaç d’enfrontar-se a qualsevol repte o tasca sense ajuda. Fins ara, els grans èxits de la intel·ligència artificial es generen amb màquines dedicades específicament a una tasca, entrenades per a això en unes condicions molt concretes, incapaços d’adaptar-se a un canvi substancial. Però els passets que es van donant cap a aquest objectiu són fermes. L’últim progrés el signa DeepMind, que ha aconseguit que un mateix programa esdevingui invencible en escacs, shogi (una versió japonesa del joc) i go, els tres jocs de tauler més exigents per a l’intel·lecte. Però el món real és molt més complex i imprevisible.

L’assoliment de DeepMind, la divisió d’intel·ligència artificial de Google, promet generar importants avanços. Aquest programa, anomenat AlphaZero, ha après només a jugar sobre aquests difícils taulers, com expliquen els seus desenvolupadors a la revista Science . De zero (d’aquí el seu nom), sense ajuda ni exemples de jugadors reals. En altres ocasions, l’ordinador aprenia perquè ho alimentaven amb tot el coneixement humà, milions de jugades i exemples reals, ia partir d’aquí el cervell de silici triava les millors estratègies. Deep Blue va vèncer així a Kaspàrov. I AlphaGo vèncer així a Lee Sedol. Però AlphaZero aprèn de si mateix i en tot just un grapat d’hores; tan sols li expliquen les regles del joc ia partir d’aquí ha estat capaç de convertir-se en el millor jugador de tots els temps en aquestes tres disciplines. Els programes que millor juguen a escacs, al shogi i al go-sense rival entre els humans i dissenyats durant anys específicament per a aquesta tasca- amb prou feines són capaços d’esgarrapar una victòria entre milers de derrotes.

És més, aquesta intel·ligència artificial és capaç de vèncer amb una mà lligada a l’esquena. En enfrontar ordinadors contra ordinadors, s’atorgaven uns temps a cada aparell per pensar el seu moviment. La intel·ligència de AlphaZero era tan superior que guanyava fins i tot quan se li concedia tan sols una desena part del temps que als seus rivals per a processar la informació i moure. I no és una qüestió de potència computacional, és perquè se li ha atorgat una forma de raonar més profunda i selectiva. En escacs, valora únicament 60.000 possibilitats per segon enfront dels 60 milions d’opcions que estudia el seu rival, Stockfish, el més potent jugador d’escacs fins ara. L’algoritme busca només entre els moviments més prometedors.

 

Però AlphaZero no només venç, revoluciona el joc. Com la màquina aprèn sola, sense models ni exemples, comença amb decisions aleatòries i al cap d’un temps comença a descobrirles jugades i plantejaments que porten usant segles els humans. Però de seguida troba millors enfocaments, completament nous, creant un estil de joc propi i poc ortodox. “Està lliure de les limitacions de la manera en què els humans pensen sobre el joc”, explica Demis Hassabis, cap de DeepMind, pel que ha incorporat al tauler estratègies desconegudes que ja estan fascinant els experts. En escacs, es parla de com les seves peces s’arremolinen al voltant del rei de l’oponent amb força, dinamisme i determinació. Menysprea el valor material de les peces i prefereix fer sacrificis impensables des del principi de la partida perquè al final valdrà la pena. En el shogi, realitza moviments que van en contra de tots els manuals, com moure al rei al centre del tauler, perquè suposa posar-lo en perill, però per AlphaZero es converteix en una forma de mantenir el control del camp de batalla. Quan es va fer el mateix en el mil·lenari go,la màquina va arribar a la conclusió que el coneixement humà era un llast.

“Els escacs s’ha utilitzat com una pedra de Rosetta tant de la cognició humana com de la màquina durant més d’un segle”, assegura Garri Kaspàrov, en una nota proporcionada per DeepMind. “En lloc de processar instruccions i coneixements humans a una velocitat tremenda, com totes les màquines d’escacs anteriors, AlphaZero genera el seu propi coneixement. I no puc dissimular la meva satisfacció per que jugui amb un estil molt dinàmic, molt semblant al meu!” , festeja qui dominés els escacs mundial des de mitjans dels vuitanta fins a l’arrencada d’aquest segle.

L’entrenament de AlphaZero, llançat a la fi de 2017, és fulminant: va trigar nou hores a preparar-se per vèncer a escacs, 12 per al shogi i 13 dies per el go, el més complex dels tres. I quan se li deixava anar a la sorra, davant de les millors màquines en cada joc, amb prou feines es despentinava per vèncer. Al cap de quatre hores ja era el millor jugador de la història dels escacs; dues hores li va durar Elm, el millor en shogi; i 30 hores va trigar a sotmetre al seu germà AlphaGo, la màquina desenvolupada per DeepMind per ser imbatible al go.

L’especialista d’IBM en intel·ligència artificial Murray Campbell posa algunes pegues a l’assoliment d’DeepMind, sobretot des de la perspectiva computacional, ja que ni els programes d’escacs ni els de shogi podrien aprofitar les unitats de processament per a les que AlphaZero ha estat dissenyat, ” cosa que dificulta les comparacions directes “. “Les seves xarxes neuronals són molt poderoses, però requereixen una gran quantitat de càlculs. Els processadors que utilitza AlphaZero són molt ràpids per executar xarxes neuronals, però no poden ser utilitzats per programes de jocs convencionals que no usen xarxes neuronals”, explica a EL PAÍS aquest expert, que va desenvolupar Deep Blue per batre Kaspàrov.

Un campió d’escacs inútil

“L’objectiu d’DeepMind és construir sistemes que puguin resoldre alguns dels problemes més complexos del món real; crear un programa que pugui ensenyar-se a si mateix com jugar escacs de classe mundial, shogi i go partint de zero és un pas important en aquest trajecte”, assegura Hassabis. El seu equip, liderat per David Silver, ha desenvolupat la màquina perquè aprengui jugant contra si mateixa a través d’un procés d’assaig i error denominat aprenentatge per reforç. Per AlphaZero s’han basat en xarxes neuronals profundes que permeten aquest raonament sofisticat i sengles algoritmes de recerca i raonament que són de propòsit general, el que li permet adaptar-se per guanyar a diferents jocs. No obstant això,

“Cal ser cauts”, adverteix Miguel Lázaro, Investigador espanyol en intel·ligència artificial de l’empresa puntera Vicarious. I afegeix: “Malgrat l’expectació que aquests avenços generen, aquest tipus de jocs són una manera inadequada de mesurar el progrés en intel·ligència artificial general”. Per Lázaro, la comprensió del joc per part de AlphaZero està codificada de manera opaca a l’interior de la xarxa neuronal, de manera que segueix sense poder adaptar-se a un canvi en l’entorn oa una nova regla de joc, una cosa que els obligaria a tornar a començar de zero. Campbell coincideix amb Lázaro en què AlphaZero mostra “fragilitat”, de manera que “si es canviessin les regles del joc, encara que fos una mica, necessitaria una quantitat significativa de reentrenament”. Ells mateixos ho reconeixien de fa mesos: si canvien de cop les dimensions del tauler”.

Per Lázaro, que treballa per a una empresa que busca un enfocament més humà i adaptable per a la intel·ligència de les màquines, aquest tipus de jocs són massa deterministes. Tota la informació sobre la partida està disponible i el resultat d’una acció és perfectament predictible, una cosa “molt diferent de l’escenari al que habitualment s’enfronta la intel·ligència humana”. “Nosaltres vam fer accions el resultat només podem preveure parcialment en entorns dels quals només observem una part”, descriu.

Segons Lázaro, AlphaZero podria ser l’exemple més recent de la paradoxa de Moravec : “És fàcil aconseguir que els ordinadors mostrin capacitats similars a les d’un humà adult en proves d’intel·ligència, i difícil o impossible aconseguir que posseeixin les habilitats perceptives i motrius de un bebè d’un any “. És a dir, és més fàcil aconseguir una màquina imbatible en escacs que una que sàpiga interactuar de forma natural amb el món, tan imperfecte i imprevisible. “Les decisions que hem de prendre a l’hora de preparar un sandvitx, manipulant i acoblant els ingredients, semblen molt més senzilles, però no obstant això són molt més complicades, des de la perspectiva computacional, que els jocs de taula en què competeix AlphaZero” , rasa Lázaro.

A més de les grans exigències computacionals que demana AlphaZero, Campbell afegeix un últim problema als progressos de DeepMind: la manca de interpretabilitat. “Si bé AlphaZero pot identificar el que creu que és el millor moviment i proporcionar seqüències de moviments per recolzar-, no és capaç d’explicar les seves decisions en termes que els humans puguin entendre fàcilment”, assegura l’expert d’IBM. És a dir, no sabem els motius pels quals tria una determinada opció, el que pot ser un greu problema a portar aquests algoritmes a altres àmbits de decisió.

JAVIER SALAS – EL PAÍS

 

Etiquetes: ,

Aquesta web utilitza 'cookies' pròpies i de tercers per oferir-te una millor experiència i servei. Al navegar o utilitzar els nostres serveis, acceptes l'ús que fem de les 'cookies'. De tota manera, pots canviar la configuració de 'cookies' en qualsevol moment ACEPTAR
Aviso de cookies
Check Our FeedVisit Us On LinkedinVisit Us On TwitterVisit Us On Facebook