Segueix-nos a:

Blogs

Bloc del grup de recerca GRITS. Xarxes de pròxima generació per a la Internet del futur, Fog computing i Internet de les coses per implementar els nostres dissenys personalitzats en núvols híbrids cibersegurs, en sistemes d’emmagatzematge a gran escala i comunicacions de llarga distància.

06 març 2019 | Publicat per ealvarez

The dawn of Big Data

Durant les últimes tres dècades, els sistemes de computació per ordinador han experimentat un creixement incessable en quant a prestacions i rendiment, el que ha propiciat el desenvolupament continu d'aplicacions que depenen d'aquests sistemes per processar i emmagatzemar dades. De fet, les millores pel que fa al hardware i les xarxes de comunicacions han ampliat l'abast i les dimensions d'aquestes aplicacions "dada-dependents" (des dels clàssics servidors de fitxers fins a Internet, passant per altres camps com la robòtica o l'automoció) . Aquesta evolució també ha fet que les exigències dels usuaris cap a aquests sistemes també hagin anat creixent amb el pas del temps, per exemple, avui dia no seria admissible esperar 30 minuts per escoltar una cançó descarregada d'Internet.

Històricament, els requeriments dels usuaris havien anat creixent proporcionalment amb la tecnologia disponible del moment -sempre hi havia hagut una caixa més gran per empaquetar un nou problema més gran. No obstant això, en els últims anys la quantitat de dades a processar diàriament, s'ha disparat de tal manera que les tècniques tradicionals de processament i emmagatzematge d'informació estan quedat ràpidament obsoletes. Per exemple, es diu que per a un minut: es pugen 72 noves hores de vídeo a YouTube, s'emmagatzemen 100 terabits d'informació (notificacions, visites a pàgines, fotos, clics, etc.) a Facebook, es generen prop de 500.000 tuits a Twitter, s’envien 200 milions de correus electrònics i es comparteixen 350.000 fotografies per WhatsApp. Definitivament, si un treu els comptes de la quantitat de dades que passen entre nosaltres al llarg del dia, els resultats són esgarrifoses

Aquest nou ordre de magnitud en les dades ha donat lloc a la definició del concepte Big Data. En general, es diu que aquest terme fa referència a qualsevol conjunt de dades que satisfaci el que es coneix com les 3Vs: Volum, Velocitat i Varietat (alguns autors comencen a parlar de 6Vs afegint Veracitat, Visualització i Valor a les tres anteriors). Atès que aquests tres (o sis) paràmetres depenen de la naturalesa de cada problema, avui dia hi ha una gran confusió sobre les implicacions i l'abast del concepte Big Data. En realitat, Big Data no fa referència únicament a les dades en sí, sinó que també inclou tota la part d'enginyeria, recerca i desenvolupament de negoci relacionada amb emmagatzemar, processar i extreure informació valuosa d'una quantitat ingent de dades. Així doncs, aquestes línies pretenen aportar una mica més de llum a aquest concepte (1) justificant què ens ha portat a encunyar el terme Big Data, (2) emfatitzant perquè Big Data és tan diferent als sistemes tradicionals de gestió de dades i (3) apuntant les oportunitats que el Big Data obre als nous enginyers i científics de dades.

Segons la meva opinió, el Big Data ha estat motivat per dos grans fets: l'augment de l'ample de banda de les connexions a Internet (l'ADSL d'avui dia ens han fet oblidar els mòdems de 56Kbps de fa pocs anys) i el creixement de els smartphones (s'estima que 1 de cada 3 persones al món té un telèfon intel·ligent). I és que la combinació d'aquests dos factors ha portat al fet que els usuaris, que no dubten a instal·lar més i més aplicacions en els seus telèfons, generin de forma inconscient infinitat de dades dia i nit (calendaris, missatgeria, xarxes socials, jocs, etc). A més, aquests usuaris, que típicament desconeixen les complexitats tecnològiques que suposa processar tanta informació, esperen i fins i tot exigeixen una alta qualitat en el servei i tenen molt poca tolerància a les desconnexions (es calcula que Facebook va perdre $500 milions en anuncis per una caiguda del servei de 30 minuts), el que complica la feina als arquitectes d'aquests sistemes.

Malgrat els últims avenços tecnològics, els arquitectes de sistemes que dissenyen infraestructures per suportar Big Data han donat amb dues limitacions: l'ample de banda d'Internet i l'emmagatzematge de dades distribuït.

D'una banda, avui dia encara és més ràpid enviar 100 discos durs amb 1 terabit d'informació (recordin, 1 minut d'informació que es genera a Facebook) de costa a costa dels Estats Units a través d'una empresa de missatgeria que no enviant les dades per Internet. Aquesta limitació en l'ample de banda d'Internet, ha fet invertir el vell paradigma en sistemes distribuïts que consistia en apropar les dades (històricament de volum reduït) a les unitats de computació (tradicionalment de cost més elevat); quan es tracta de Big Data, el que es busca és apropar les unitats de computació (avui dia de cost reduït) allà on es generen els grans volums de dades.

 

D'altra banda, malgrat tota la investigació que s'està fent en el camp de sistemes distribuïts, encara no s'ha trobat una solució universal altament escalable i que garanteixi la disponibilitat de les dades per a qualsevol sistema que treballi amb Big Data (i els seus 3Vs associades). Els temps d'accés a l'emmagatzematge físic, la sincronització de dades geo-replicades, l'escalabilitat, la disponibilitat, o la tolerància a fallades, són alguns dels esculls amb què s'ha de bregar. De moment, s'han trobat solucions parcials per a determinats casos d'ús combinant les tècniques clàssiques, el que obre la porta a nous professionals amb idees fresques i disruptives.

Per aquesta raó, la disciplina del Big Data requereix un nou perfil interdisciplinari de professional que sigui capaç de donar el salt a aquests esculls i pugui extreure informació útil de grans volums de dades. Des del meu punt de vista, aquests professionals haurien de ser capaços d'incorporar-se en qualsevol punt del cicle de vida del Big Data:

  • Disseny de datacenters: Els centres de dades de nova generació han de poder satisfer els ambiciosos requeriments del Big Data, un nou ordre de magnitud pel que fa a computació i emmagatzematge de dades. Per això, es requereixen perfils amb coneixements avançats de xarxes de comunicacions i telemàtica, que puguin entendre els diferents fluxos de dades de cada aplicació i siguin capaços de dissenyar arquitectures jeràrquiques altament escalables que incorporin solucions basades en el núvol.
  • Tecnologies d'emmagatzematge de dades: Un cop es té dissenyat i desplegat el ferro (datacenter) capaç d'allotjar eficientment una gran quantitat de dades, és moment de seleccionar quina tecnologia d'emmagatzematge i processament de dades s'adapta millor a cada tipus d'aplicació. És per això que el mercat necessita professionals que entenguin les limitacions dels sistemes relacionals clàssics i dominin les noves tecnologies NoSQL com MongoDB, Hadoop, Cassandra o Neo4J. A més, aquests professionals també han de saber aprofitar la naturalesa distribuïda de les dades per realitzar computacions paral·leles i així minimitzar el volum de dades que creua les xarxes de comunicacions.
  • Anàlisi de dades i Business Intelligence: Les dades no parlen per si soles. No n'hi ha prou amb tenir trilions de bytes emmagatzemats en un datacenter súper escalable sobre el qual corre la millor tecnologia d'emmagatzematge de dades, ja que la informació rellevant no apareixerà màgicament. Per filtrar, organitzar i visualitzar totes aquestes dades és fonamental que els professionals del Big Data dominin tècniques estadístiques com ara la inferència, la regressió, el clustering o el data mining. Tot això ha de permetre millorar els processos i l'eficiència del negoci, el que a més requereix un coneixement complementari en Business Intelligence.
  • Desenvolupament d'aplicacions: Finalment, els professionals del Big Data han de tenir una ment creativa que els permeti innovar i beneficiar-se dels avantatges i possibilitats que ofereix el paradigma del Big Data. Sens dubte això els permetrà desenvolupar noves aplicacions "dada-dependents" que millorin el nostre dia a dia.

En conclusió, estem vivint una nova era en la qual la gestió de dades requereix experts interdisciplinaris altament qualificats que siguin capaços de donar solució als reptes que proposen les aplicacions dada-dependents. Definitivament, aquesta és una gran oportunitat d'especialització per als estudiants acabats de graduar, els quals poden introduir noves idees que ajudin a empènyer les fronteres del Big Data. Tot això, sense oblidar-se d'aquests perfils més sènior, els quals aporten una experiència i una visió de la història molt valuosa a l'hora d'implementar noves solucions.

 

Share