
Vandaag vond in Den Bosch Cloud Insights plaats, een event georganiseerd door Cloud Complete. Cloud Complete is een initiatief van Cisco, NetApp, Intel en Microsoft met als doelstelling een kennisplatform te bouwen voor het delen van ervaringen ten aanzien van cloud toepassingen. Cloud Insights is een eendaags evenement waarin enkele plenaire sessies worden gecombineerd met masterclasses waarin in groepen van 10 – 15 personen in twee uur tijd een bepaald technisch onderwerp uitvoerig wordt behandeld. Er waren vandaag naar schatting zo’n 100 professionals in Den Bosch. Consultants, maar ook veel eindklanten.
De keynote werd verzorgd door Jay Kidd, CTO van NetApp. Hij ging in op trends in IT en in het bijzonder de trend ‘IT as a Service’. Het gaat dan om het aanbieden van IT infrastructuur, virtuele kant-en-klare omgevingen in de cloud. Een trend die volgens hem here to stay is. Zijn stelling was dat iedereen in de IT een service provider is. Ook ging hij in op de ‘consumeratie van IT’ en het feit dat werknemers in een bedrijf dingen van huis meenemen naar hun werk. En dan gaat het niet om devices, maar om IT services. Gebruikers die Dropbox zo fantastisch vinden dat ze dáár al hun zakelijke documenten in zetten. En ook al vind IT dat niet zo leuk, hou het maar eens tegen. Zijn stelling was dan ook dat je als IT afdeling moet zorgen voor een goed private cloud alternatief.
Na de keynote begon mijn eerste masterclass over cloud storage. Een masterclass die ingeleid werd met feiten als dat 90% van alle data in de wereld in de laatste twee jaar ontstaan is. In 2020 verwacht men dat ons digital universe een omvang van 35 zettabytes heeft (35 miljard terabyte). 80% van die data is unstructured. Deze toename wordt veroorzaakt doordat steeds meer devices aan het internet gekoppeld zullen worden (denk aan auto’s, stoplichten, energiemeters, etc.). Hierna ging de masterclass verder in op de manieren waarop NetApp en Cisco voorzieningen hebben om al deze data op te slaan in hun storage grids. Aardig om een keer aan te horen, maar wel een beetje een reclamepraatje voor beide merken. Niet vreemd natuurlijk op een gratis gesponsord evenement.
Na een uitstekende lunch, ging het programma verder met een sessie die weinig met cloud te maken had, weinig met IT zelfs. Hooguit met stofwolken… Gastspreker was namelijk Marco van Lieshout, programma manager bij Rheinmetall. De sessie was vooral een leuke ‘after lunch’ sessie door een enerverende en leuke spreker die vertelde over de bouw van een nieuw pantservoertuig voor de Nederlandse en Duitse defensie. Een project wat al 10 jaar loopt en volgend jaar tot de eerste geleverde voertuigen moet leiden, de nieuwe Boxer. Klik maar op de link voor een spectaculair filmpje van het voertuig wat ook Marco liet zien tijdens de sessie. Marco vertelde over hoe moeilijk het is zo’n megaproject te doen voor een starre organisatie (defensie) door een log bedrijf (Rheinmetall). Ondanks dat het niets met cloud of IT te maken had, toch een erg leuk en vermakelijk verhaal!
Hierna was het tijd voor mijn tweede masterclass en voor mij tevens het absolute hoogtepunt van de dag: de masterclass over big data door Microsoft en NetApp. Ook hier weer dezelfde feiten: 1.2 zettabytes geproduceerd in 2010, in 2020 35 zettabytes. De trend: steeds meer data terwijl het steeds minder kost om al die data op te slaan. En dat is big data: het wordt allemaal zo veel, dat we het op zich nog wel op kunnen slaan, maar niet meer kunnen handlen op de tradditionele manieren. Een erg leuk voorbeeld van een big data toepassing vond ik wel dat van een gemeentelijke dienst in Detroit belast met het onderhoud aan de wegen in die stad. De dienst heeft daarvoor een flink aantal auto’s die door de straten van de stad heen rijden om te kijken hoe het gesteld is met de kwaliteit van de wegen. Maar omdat de stad bijna altijd vast staat door de grote drukte, hebben ze daar iets slims bedacht: ze hebben aan een groot aantal burgers gevraagd gegevens van hun mobiele telefoons beschikbaar te stellen. Gegevens van de gyroscoop en GPS. Zodra een auto door een gat in de weg rijdt, schudt de telefoon wat geregistreerd wordt door de gyroscoop. Als dat bij 100 telefoons op één locatie gebeurt, mag je aannemen dat er op die plek een probleem is. Door het analyseren van al deze big data kan de gemeentedienst gericht op pad naar een probleem in plaats van veel tijd te verliezen met ronddwalen op zoek naar een probleem. Microsoft sluit voor big data aan op de de-facto standaard voor opslag en processing van big data: Hadoop. Microsoft maakt vervolgens het draaien van Hadoop makkelijk. Op het Windows platform of, en daar is de connectie met dit event, in de cloud (Azure). Vooral die laatste variant is een wel heel makkelijke manier om met big data aan de slag te gaan. Je hoeft daarvoor namelijk maar drie dingen te doen:
- naar http://www.hadooponazure.com gaan;
- de survey in te vullen;
- een invitation code ontvangen en daarmee inloggen.
Hierna kun je 5 dagen met een 3-node Hadoop cluster aan de gang. Microsoft liet vanmiddag ook zien dat het echt werkt. In een leuke demo werden eerst log files met 3 miljoen rijen aan semi-gestructureerde vluchtgegevens van een luchtvaartmaatschappij geupload naar Windows Azure. Via Hadoop on Azure werden deze gegevens vervolgens opgeslagen in Hadoop (een eenvoudige actie). Hierna werden een paar HQL queries afgevuurd om te laten zien dat de data ook echt opgeslagen was. Nu is dit natuurlijk nog niet echt ‘big’, maar er werd ons verzekerd dat deze zelfde demo ook gegeven zou kunnen worden met petabytes aan data en dat het dan nog steeds ongeveer hetzelfde werkt. De demo ging nog verder met het analyseren van de data in Excel. Hiervoor kun je via de Hadoop on Azure web site een add-in downloaden. Het gaat allemaal niet snel, maar het werkte wel. Het idee is uiteindelijk dat je gegevens voor analyse eerst op een andere manier uit Hadoop ophaalt om op te slaan in een gewone SQL Server database of cube voor analyse.
Een tweede leuke demo betrof de combinatie van Twitter data, StreamInsight en Hadoop. Via de Twitter firehose interface, werden alle Twitter berichten door StreamInsight gehaald om te filteren op bepaalde Microsoft gerelateerde keywords. Op deze manier kun je live kijken wat er over Microsoft wordt gezegd op Twitter. De berichten worden ook nog tegen Sentiment140 aangehouden om te kijken of wat gezegd wordt positief of negatief is. Tegelijkertijd worden alle berichten echter ook opgeslagen in Hadoop on Azure, verrijkt met wat metadata. In Hadoop worden ze vervolgens geanalyseerd om in PowerView visualisaties te maken over langere tijd. Deze demo is overigens terug te vinden op CodePlex: http://twitterbigdata.codeplex.com/.
Nog een leuk feit wat ik tijdens deze sessie hoorde is dat het RDW via de Azure Marketplace alle gegevens van kentekens ooit in Nederland geregistreerd aanbiedt (gratis!). Het downloaden van alle data kost je wel een paar dagen, maar je kunt ook filteren. Maar dan heb je wel een gigantisch leuke dataset voor analyse! Zie http://www.rdw.nl/nl/over_de_rdw/informatievanderdw/open_data/Pages/default.aspx voor meer informatie.
Al met al vond ik deze Cloud Insights dag een goed bestede dag waarbij vooral de laatste masterclass over big data ook zo praktisch was dat ik het gevoel heb hier nu echt iets mee te kunnen gaan doen. Hou onze Info Support blogs in de gaten voor een vervolg!