Linkedin ha uno dei migliori team di data scientist al mondo, guidati da Daniel Tunkelang. Nel mio ultimo articolo su Che Futuro spiegavo inoltre come Linkedin, proprio grazie al team di Tunkelang, avesse a disposizione i migliori dati tra i vari social media.Perché la qualità dei dati è centrale.
Andiamo con ordine e vediamo di capire perché la qualità dei dati sia più importante della sua quantità.Per chi non lo sapesse, negli ultimi anni il mondo del marketing è stato sconvolto dall’avvento dei Big Data. Notoriamente questo termine viene utilizzato per descrivere la raccolta di un’enorme quantità di dati in qualsiasi campo, e anche per il comportamento dei consumatori; ma forse non tutti sanno che dei Big Data fa parte anche anche quella serie di processi che ne rendono possibile la raccolta.
I dati sui consumatori, tramite le ricerche di mercato, si raccolgono da anni, ma quello che è nuovo è che ora, grazie all’avvento di nuove tecnologie, è possibile averne in quantità grandemente maggiore. Tweet, status, check in, like, favorites, hashtags, possono non voler dire nulla se non divertimento per alcuni, ma per chi fa marketing digitale sono oro che luccica. Questa enorme quantità di dati può essere navigata per meglio comprendere le attitudini di consumo e i diversi trend in via di sviluppo. Mai come ora i diversi brand hanno avuto informazioni sulla tipologia dei loro consumatori reali o potenziali.
Ma è veramente la quantità di dati quella che ci interessa? Probabilmente no. Esiste infatti un dibattito che va avanti ormai da diversi mesi riguardo la superiorità della quantità del dato sulla qualità dell’algoritmo che lo interpreta.
Per comprenderlo può aiutarci un esempio forte -forse un po’ brusco- fatto da Mark Torrance, CTO di Rocket Fuel: «Immaginiamo che sposare una persona alta ci permetta di avere figli più alti e in salute e che noi dovessimo scegliere il partner tra migliaia. Un algoritmo semplice potrebbe essere: sposa il primo candidato più alto di un metro e ottanta. Un algoritmo più complesso potrebbe individuare la persona più alta tra i primi 200 candidati, quindi di cercare oltre e sposare la prima persona ancora più alta». E’ evidente che la seconda formula restituirà risultati più accurati.
Il problema è che nella maggior parte delle piattaforme social le variabili da analizzare sono troppe perché un algoritmo semplice possa restituire risultati affidabili.
I dati social, inoltre, soffrono di una serie di problemi. Innanzitutto non sono strutturati e questo ne influenza la qualità. Per fare un esempio, per la maggior parte i dati raccolti dalle aziende risalgono a più di due anni fa e per questo non sono né catalogati, né strutturati in maniera corretta. Per meglio comprendere questo passaggio basti pensare alla sentiment analysis riguardo ad un prodotto, un marchio, o anche un partito politico: il numero di variabili che si può prendere in considerazione nel catalogare le conversazioni degli utenti è quasi infinito! Analisti e marketer utilizzano proprio queste conversazioni per comprendere quale siano gli umori dei consumatori riguardo a particolari brand, o degli elettori, seguendo l’esempio della politica,
Ma perché quindi non possiamo utilizzare i dati che raccogliamo dai Social Media? Dovrebbe bastare qui far notare che le persone si comportano dietro uno schermo in maniera diversa da come fanno nella vita reale. Proprio lo schermo dovrebbe essere una finestra attraverso la quale i marketer possano guardare nelle abitudini dei consumatori, ma troppo spesso la lente attraverso cui guardano è distorta dal ritratto che le persone vogliono dare di se stesse. Il 18% degli utenti dei Social Media al mondo, ad esempio, dichiara di utilizzarli per poter assumere una personalità diversa. Senza contare l’enorme quantità di profili fasulli che circola in rete.
A questo si aggiunge anche il fattore privacy: per il 45% gli utenti dichiarano oggi di essere preoccupati che Internet possa erodere la lora privacy; il 46% non condividerebbe le sue abitudini di acquisto. Un altro problema che tocca la qualità degli harvested data riguarda la rappresentatività del campione. L’analisi del sentiment soffre esattamente di questo vizio, poiché il più delle volte i social media non sono democratici; vince chi alza di più la voce. Per portare avanti le loro campagne, alcuni gruppi di appassionati possono farsi sentire molto di più della media, iniettando nelle conversazioni sociali una maggior quantità di “rumore”. Senza contare poi la naturale inclinazione del consumatore a esprimersi più nei casi di esperienza negativa rispetto a quella soddisfacente. Altri utenti invece possono decidere di non esporsi proprio, facendo crollare il principio di rappresentatività che sta dietro qualsiasi analisi attendibile.
Esistono, infine, una serie di problemi relativi all’analisi automatica del linguaggio online. Un algoritmo, ad esempio, ha grandi difficoltà a percepire il sarcasmo o ad interpretare una metafora. Altri tipi di linguaggio, invece, possono essere negativi o positivi a seconda delle circostanze. La frase «Ci hanno assegnato una stanza al piano terra a due passi da reception e ristorante» può essere un commento negativo se il cliente era in cerca di calma e privacy, ma può essere molto positivo per qualcuno che avesse preferito essere a rapida distanza dai servizi essenziali.
Lo stato dell’arte degli algoritmi in grado di interpretare le conversazioni sui social è ancora molto lontano dall’essere accurato. Tipicamente si parla di un grado di inaccuratezza vicino al 40% che varia a seconda del software e della lingua. L’unico metodo affidabile sarebbe l’analisi umana dei dati, ma vista la mole dei dati è senz’altro antieconomica se non impossibile. Con questo non voglio assolutamente dire che i Social non possano essere utilizzati per fare marketing. Rimangono ottimi strumenti per diffondere contenuti virali, per correggere potenziali situazioni di crisi, per il CRM e per entrare in conversazione con i propri clienti o prospect. Facebook inoltre offre un’enorme quantità di dati già classificati, da quelli demografici ai like e ai check in. Purtroppo i nodi e gli intrecci causati dalle infinite variabili d’interazione rendono impossibile la classificazione di questi big data se non attraverso un’analisi umana.
Ma allora perché Linkedin va bene? E’semplice: perché rispetto ad altre piattaforme sociali, Linkedin ha un numero molto più ridotto di azioni possibili. Gli aggiornamenti di stato non sono la caratteristica principale di questa piattaforma, che ha invece nei suoi intrecci la sua caratteristica fondante. L’Economic Graph di cui parlavo nel mio precedente articolo non è cosa affatto banale: creare un grafo mondiale costituito da nodi creati utilizzando i dati professionali di tutti i professionisti al mondo è uno degli usi più intelligenti mai fatti con i big data. Immaginate il valore che questo possa avere per chi fa recruiting; considerando che solamente il 20% degli utenti lo utilizza per cercare attivamente lavoro, il rimanente 80% rimarrebbe praticamente irraggiungibile dagli head hunter nonostante sia la parte di più alto valore. Nessun’altra piattaforma sociale è in grado di trarre lo stesso guadagno dagli utenti passivi, per di più partendo da un insieme di dati condivisi molto basso rispetto ad altre piattaforme.
In sintesi non ci sono big data senza data quality, e la qualità si ottiene studiando grafi ed algoritmi per individuare comportamenti. Di questo, e degli aspetti legati al motivational design, parlerò anche a Crowdfuture 2013, durante il mio speech nel panel dedicato alla gamification, un approccio che parte da dati di qualità per rendere il software attivo come non mai. Se volete, ci vediamo a Roma il 19 ottobre presso la LUISS University.