kinaze.org

Objectifs, stratégies et tactiques

kinaze — Wed, 12 Feb 2014 02:17:44 +0000

Pour définir des indicateurs clés de succès (KPI), il est nécessaire de comprendre la différence entre un objectif d’affaires, un objectif stratégique et un objectif tactique.

Tableau récapitulatif

[one_third boxed= »true » centered_text= »true »]
Objectif d’affaires
La raison d’être d’une organisation (ou d’une de ses fonctions). [/one_third]

[one_third boxed= »true » centered_text= »true »]
Objectif stratégique
Comment une organisation veut atteindre ses objectifs.[/one_third]

[one_third_last boxed= »true » centered_text= »true »]
Objectif tactique
Comment une organisation exécute ses plans. [/one_third_last]

[one_third boxed= »true » centered_text= »true »]
Ce qu’une organisation veut obtenir.

[/one_third]

[one_third boxed= »true » centered_text= »true »]
Une orientation, une vision.

[/one_third]

[one_third_last boxed= »true » centered_text= »true »]
Des processus pour entrer en relation avec les personas. [/one_third_last]

[one_third boxed= »true »]

Recruter des étudiants.
Diplômer des étudiants.
Diminuer les frais d’exploitation.
Recueillir des fonds.
Recruter du personnel.

[/one_third]

[one_third boxed= »true » ]

Augmenter le taux d’inscription des étudiants actuels aux cycles supérieurs.
Améliorer la notoriété de l’université en Chine.

[/one_third]

[one_third_last boxed= »true »]

Promouvoir un domaine d’études sur les moteurs de recherche.
Mettre en place un moteur de recherche pour trouver des bourses d’études.
Améliorer le processus d’admission en ligne.
Améliorer le processus de relance étudiante.
Utiliser des étudiants ambassadeurs.

[/one_third_last]

Objectifs d’affaires

Définition: La raison d’être d’une organisation (ou d’une de ses fonctions).

Résultat: Ce qu’une organisation veut obtenir.

Exemples

Recruter des étudiants.
Diplômer des étudiants.
Diminuer les frais d’exploitation.
Recueillir des fonds.
Recruter du personnel.

Objectif stratégique

Définition: Comment une organisation veut atteindre ses objectifs.

Résultat: Une orientation, une vision.

Exemples

Augmenter le taux d’inscription des étudiants actuels aux cycles supérieurs.
Améliorer la notoriété de l’université en Chine.

Objectif tactique

Définition: Comment une organisation exécute ses plans.

Résultat: Des processus pour entrer en relation avec les personas (clients, prospects, etc.)

Exemples

Promouvoir un domaine d’études sur les moteurs de recherche.
Mettre en place un moteur de recherche pour trouver des bourses d’études.
Améliorer le processus d’admission en ligne.
Améliorer le processus de relance étudiante.
Utiliser des étudiants ambassadeurs.

La photo stratégie et tactique provient de Wikipedia.

Moyenne, variance et écart-type

kinaze — Tue, 27 Mar 2012 01:07:04 +0000

Des outils d’analyse comme Google Analytics ou SiteCatalyst permettent de rapporter toutes sortes de moyennes et de taux. Il peut cependant être utile d’explorer ce qui se cache derrière ces moyennes à l’aide de la déviation standard (l’écart-type).

Le problème de la moyenne

Prenons 3 séries de chiffres représentant le nombre de conversions pour un processus d’achat en ligne dans la dernière semaine:

666, 666,666, 666, 666, 666, 666
507, 693, 750, 644, 576, 680, 812
302, 1194, 500, 107, 1542, 599, 418

Si on calcule la moyenne pour chaque série, on obtient 666. 3 fois 666. Mais est-ce que le 666 de la série 1 signifie la même chose que le « 666 » de la série 2 ou de la série 3?

La déviation à la rescousse

La déviation est le fait de dévier, de s’écarter.

Le problème est que pour nos 3 séries de chiffres précédentes la somme de toutes les écarts par rapport à la moyenne est égale à 0. C’est d’ailleurs, selon nos amis les statisticiens, une des propriétés constituantes de la moyenne.

0 + 0 + 0 + 0 + 0 + 0 = 0
-159 + 27 + 84 -22 -90 + 14 +146= 0
-364 +528 -166 -559 + 876 -67 – 248 = 0

La variance à la rescousse

La variance est très utile pour éviter d’avoir une déviation qui est nulle. Elle sert à mesurer le niveau de dispersion d’une série de nombres par rapport à la moyenne. Elle consiste en la moyenne de la somme du carré des déviations d’un groupe de nombres déterminés. Sa formule est très jolie :

Formule de la variance

Dans le cas des écarts qui nous intéressent, on obtient:

(0+0+0+0+0+0)/6 = 0
(25281 + 729 + 7056 + 484 + 8100 + 196 + 21316)/7 = 9023,14286
(132496+278784+27556+312481+767376+4489+61504)/7 = 226383,714

VAR.P. houlala

Heureusement, la fonction statistique VAR.P de Excel nous permet de calculer la variance en deux temps trois mouvements.

Calculer la variance dans Excel

L’écart-type à la rescousse

Tout ça est bien beau, mais l’unité de mesure de la variance est différente de l’unité de mesure de notre série de nombres initiale. Si par exemple, nos conversions sont en dollars, nous nous retrouverons avec une variance en dollars au carré.

L’écart-type (déviation standard) permet de contourner ce problème. Elle consiste tout simplement en la racine carrée de la variance.

racine carré (0) = 0
racine carrée (9023,14286) = 94,9902251
racine carrées (226383,714) = 475,797976

STDEV.P mon kiki

Heureusement, encore une fois, la fonction statistique STDEVP d’Excel nous permet de calculer la déviation standard presque automatiquement.

Calculer la variation standard dans Excel

Dispertion des données

Une moyenne c’est intéressant, peut-être même réconfortant. Mais le niveau de dispersion des données – l’écart-type – par rapport à la moyenne peut être très déstabilisant, au point de devenir monstrueux, anormal.

Exemples de dispersions par rapport à la moyenne

Plus l’écart est élevée, plus la dispersion des données est élevé et plus un processus mesuré est instable.

Exemple de processus instable

Plus l’écart est faible, moins la dispersion des données est élevé et plus un processus mesuré est stable.

Exemple de processus stable

Au final, plus un processus mesuré est stable et plus il y a de probabilités d’obtenir des résultats près de la moyenne dans le futur. Et de faire des prédictions fiables.

Reste maintenant à mieux comprendre :

comment se distribuent les données dispersées autour de la moyenne;
ce qui se passe quand un résultat est plus grand ou plus petit que l’écart positif ou négatif entre la moyenne et l’écart-type.

La photo provient de http://www.deviation-standard.com/

Mesure, optimisation et méthodologie

kinaze — Thu, 08 Mar 2012 01:54:09 +0000

Back from the crypt. Je partagerai dans les prochaines semaines l’évolution du projet de mesure et d’optimisation de megrez.ca, un nouveau site de kinaze.org, fruit d’une alliance stratégique avec une agence d’immigration de l’Ouest Canadien et de l’ami madmax (ApplytoCanada). La méthodologie de gestion de projet que j’utiliserai sera celle du PDCA (planifier – Développer – Contrôler – Améliorer) qui me permettra de travailler par phases itératives.

Dans ce premier billet, je déterminerai les fondements de la planification du programme de mesure visé. En espérant que mon processus pourra vous inspirer, n’hésitez pas à soumettre vos questions ou commentaires.

Objectif d’affaires

Qualifier des prospects afin d’acquérir de nouveaux clients pour les programmes d’immigration permanente ou temporaire du Canada. En d’autres mots : générer de bons leads.

Canaux visés

Site Web de l’entreprise
Canal téléphonique de l’entreprise
Courriel de relance de l’entreprise

Le canal mobile est hors de portée pour l’instant, tout comme les sources de données externes qui pourront éventuellement être explorées à l’aide d’applications du big data afin de trouver et de cibler des prospects préqualifiés.

Macro conversions

Générer des appels.
Acquérir de nouveaux clients.

L’acquisition de clients se fait via l’appel des prospects qualifiés qui passeront du canal Internet de l’entreprise à son centre d’appel. Il faudra donc arrimer les données des base de données hors ligne avec celles des bases de données en ligne d’outil de mesure et d’optimisation comme Google Analytics, Website optimizer, Test & Target, SiteCatalyst, Webmaster tools, SEOmoz pro, ifbyphone, etc.

À noter : le(s) numéro(s) de téléphone de l’entreprise sera seulement affiché aux prospects qualifiés afin d’éviter le travail inutile des ressources du Centre d’appel.

Micro conversions

Qualifier des prospects via la complétion du formulaire de qualification d’un des programmes d’immigration.
Engager les prospects qualifiés à communiquer avec l’entreprise:
- via la prise de demande d’information;
- via la relance courriel.

À noter : La qualité des prospects sera déterminée en fonction d’un système de pointage basé sur les réponses aux questions des formulaires. Certaines réponses pourront générer des fins de processus.

Il existe plusieurs autres micro conversions et métriques que nous pourrions suivre, mais pour l’instant nous avons assez de matériel pour mesurer la performance de notre objectif d’affaires principal.

Produits (programmes d’immigration)

Voici les principaux types d’immigration visés ainsi que leur valeur monétaire approximative. Ces montants seront très utiles pour établir combien il vaut la peine de dépenser pour acquérir un prospect et quels sont les canaux de marketing les plus profitables pour transformer ces prospects en clients.

Immigration permanente
- Travailleurs (travailleurs qualifiés et professionnels), 2000$
- Business (Investisseurs, entrepreneurs et travailleurs autonomes), 10 000$
- Famille (Parrainage d’un membre de la famille), 1500$
Immigration temporaire
- Permis de travail, 2500$

Sources d’achalandage

SEO
Campagnes
- PPC
- Relances courriels
Recommandation des clients
Autres

Toutes les sources de trafic que nous ne pourrons pas identifier comme un effort de marketing distinct seront confinées à la catégorie « Autres » (the others)

Maintenant que nous avons défini les éléments clés de notre solution, nous pourrons déterminer les métriques et les indicateurs clés de performance (KPI) qui apparaîtront dans les rapports de suivi des performances. Ce sera l’objet du prochain billet.

Hummm. It can be that simple than is going to hell.

kinaze — Sat, 21 Jan 2012 08:12:10 +0000

We all goes to hell?

Read Me

Qu’est-ce que le Big Data (bigdata) ?

kinaze — Tue, 09 Aug 2011 01:11:32 +0000

J’ai brièvement présenté quelques études de cas à propos du #bigdata dans mes derniers articles. Avant de réutiliser ces cas pour présenter un schéma de l’évolution des sources de données analysées en entreprise, je pense qu’il serait à propos de donner une définition du Big Data.

Il est à noter que j’aurais bien aimé présenter deux autres études de cas à propos du big data, soit:

« Big Data, big hacking » qui aurait présenté le vol des données sur le réseau PlayStation au printemps 2011, et;
« Big data mobile », un autre cas concernant plutôt le déluge des données sur les appareils mobiles (cellulaires ou autres tablettes).

Si vous avez déjà produit quelque chose là dessus (ou si vous avez d’autres idées…), n’hésitez pas à m’écrire et je ferai un beau lien vers votre article en l’incluant dans le corps d’un de mes textes en utilisant les mots clés juteux que vous visez, ce qui fera frétiller les moteurs de recherche de bonheur tout en vous permettant de faire des conversions (jusqu’à ce que Google change à nouveau ses algorithmes).

(Brève) histoire du Big Data

Le Big Data n’est pas un phénomène nouveau; en fait, tel que mentionné par M. Floyer le 28 février dernier sur le site Wikibon beta, cette discipline vit le jour avec l’émergence de données trop volumineuses pour être manipulées à l’aide de techniques traditionnelles. Ce sont les entreprises de moteurs de recherche qui furent les premières à l’utiliser. En effet, lorsque ces entreprises rencontrèrent des problèmes avec les grandes quantités de données plutôt mal structurées, elle dûrent trouver une solution. La toute première compagnie à réagir fut Google. Tout cela commença lorsque

“Google started its search operation it realized that it couldn’t suck this huge volume of dispersed information into a data temple – it just wouldn’t work – so it developed MapReduce and the early days of big data were born which led to Doug Cutting and his friends inventing Hadoop (with some help from Yahoo) and then this whole ecosystem around big data and Apache, Cassandra, Cloudera and a zillion other important pieces has exploded” (Wikibon blog, 2011).

Fait cocasse, M. Cutting nomma Hadoop en l’honneur de l’éléphant en peluche de son petit garçon.
À ses débuts, le Big Data était utilisé par des entreprises telles que des banques (ex: Visa et Bank of America) pour ce qui concerne les transactions par cartes de crédit et usages reliés au marché financier, par des compagnies de téléphone (ex: AT&T) pour les registres d’appels téléphoniques et par des sites de commerce électronique (ex: Amazon et Ebay) pour améliorer le service en ligne. Bien que le Big Data ait commencé dans des industries spécifiques, et surtout pour des gros joueurs, il est maintenant accessible à tous, même les petites PME à leurs débuts.

Définition du BigData

Tout d’abord, il est important de spécifier que le Big Data n’a pas une définition arrêtée. De nombreuses variantes de descriptions sont retrouvées mais, bien sûr, elles sont similaires et renferment les mêmes concepts. Pour expliquer cette variation, nous pouvons dire que ce terme est relatif à l’entreprise concernée. Dans son article Qu’est-ce que le Big Data, M. Lessard de ZeroSeconde le définit comme étant

« une expression qui circule depuis quelque temps dans la niche hi-tech de l’informatique dématérialisée (computer in the cloud) et qui fait référence aux outils, processus et procédures permettant à une entreprise de créer, manipuler et gérer de très larges quantité de données » (Lessard, 2010).

Tandis que, dans la définition big data (BigData), publiée sur le site de TechTarget, le terme est défini comme un terme général utilisé pour décrire les quantités volumineuses de données, structurées ou non, créées par une entreprise. Ces données

“would take too much time and cost too much money to load into a relational database for analysis. Although Big data doesn’t refer to any specific quantity, the term is often used when speaking about petabytes and exabytes of data” (SearchCloudComputing.com, 2011).

Caractéristiques du Big Data

Selon Floyer, les principales caractéristiques du Big Data sont:

“Very large distributed aggregations of loosely structured data – often incomplete and inaccessible:
- Petabytes/exabytes of data,
- Millions/billions of people,
- Billions/trillions of records,
- Loosely-structured and often distributed data,
- Flat schemas with few complex interrelationships,
- Often involving time-stamped events,
- Often made up of incomplete data,
- Often including connections between data elements that must be probabilistically
inferred, Applications that involved Big-data can be:
- Transactional (e.g., Facebook, PhotoBox), or,
- Analytic (e.g., ClickFox, Merced Applications)” (2011).

Isolons quelques aspects fondamentaux de ces caractérisitiques.

Volume ET gestion du volume

De plus en plus, les entreprises sont ensevelies sous une quantité phénoménale de données qui croît à vive allure, entraînant le besoin de revoir la gestion et manipulation de ces données qui sont à l’état brut. Tel que mentionné par Tony Bain, le Big Data, bien que son nom laisse présager une question de volume, fait plutôt référence à la combinaison du volume ET de notre usage des données. Le Big Data ne fait donc pas référence uniquement aux “données”, mais fait appel à de nouvelles technologies axées sur la recherche et l’innovation afin de bien les gérer.

Nouveaux outils, nouvelles techniques d’analyse

Quant à lui, Dan Kusnetzky, de ZDNet, affirme que le terme Big Data

“refers to the tools, processes and procedures allowing an organization to create, manipulate, and manage very large data sets and storage facilities” (Kusnetzky, 2010).

Pour aider à visualiser le principe des techniques utilisées pour l’analyse de Big Data, voici un schéma représentant les composants d’un système d’analytiques du Big Data :

Source: Floyer, D. (28 février 2010). Enterprise Big-data. Wikibon beta. http://bit.ly/efRphp

Entreposage des données

Pour sa part, M. Latamore de Wikibon beta

“defines “big data” as data blocks that require a new storage architecture, either because of their size, performance constraints, distribution constraints, and/or presentation requirements” (Latamore, 2011).

Vitesse en temps réel

M. Lindstedt, en réponse à la question de M. Tung sur le site de Focus, partage que son

“interpretation of Big Data is to say anything at or above 500TB, with a loading speed of 1TB / HR (going in to the system), and 2000 to 5000 on-line users using over 70% of the data available” (Tung, 2011).

Information non structurée

Toujours sur le site de Focus, cette fois, c’est M. Devlin qui répond à M. Tung en mentionnant que la taille absolue des données n’a que peu de signification et, qu’en fait, le Big Data peut être décrit comme de l’information non-traditionnelle. Cette information non-traditionnelle pourra être utilisée pour identifier des tendances récurrentes pour l’entreprise.

Informatique dans les nuages

Ces exemples ne sont qu’un échantillon des définitions retrouvées pour décrire le Big Data. Afin de compléter la description du terme, il est bien de spécifier que

“Big data analytics is often associated with cloud computing because the analysis of large data sets in real-time requires a framework like MapReduce to distribute the work among tens, hundreds or even thousands of computers” (SearchCloudComputing.com, 2011).

Y a-t-il d’autres caractéristiques du Big Data qui vous paraissent fondamentales? Venez continuer la conversation sur Google +.

L’illustration provient de dataspora.

Les données privées du réseau Facebook

kinaze — Wed, 15 Jun 2011 10:05:33 +0000

« I want everybody here to be careful about what you post on Facebook, because in the YouTube age whatever you do, it will be pulled up again later somewhere in your life. »
Barack Obama, président des États-Unis (AssociatedPress, 2009)

Ce texte est le dernier d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

Alors que le nerf de la guerre pour Facebook et Google est de faire des profits avec les revenus publicitaires, ils ont une vision très différente pour le faire. L’innovation chez Google est un service mis directement au profit de ses utilisateurs, alors que chez Facebook, c’est un divertissement, une machine à collecter des données à propos du mode de vie de ses utilisateurs. À ce propos, il est nécessaire de rappeler la différence entre naviguer sur le Web en général et naviguer sur Facebook.

Lorsqu’un internaute navigue sur le Web, il peut arriver qu’un site sur lequel il passe du temps collecte des informations sur ses interactions. Ces données sont habituellement utilisées afin d’optimiser le site Web ou bien pour consolider la relation avec l’internaute et ainsi mieux cibler ses préférences. Des techniques plus ou moins intrusives sont utilisées pour amasser ces données. Au bas de l’échelle, les méthodes moins intrusives collectent les données de façon anonyme (comme avec les cookies, par exemple). Au haut de l’échelle, les méthodes intrusives récoltent des informations personnellement identifiables (nom, courriel, code postal, sexe, etc.). C’est ainsi que les entreprises peuvent créer des profils assez complets des internautes qui consultent leurs actifs numériques.

Plus une méthode pour collecter des données est intrusive, et plus elle permet de maximiser l’effet du marketing comportemental et d’optimiser les objectifs d’affaires d’une entreprise. Mais plus elle est potentiellement sujette à de multiples questionnements éthiques et juridiques sur les limites de ce qui est acceptable en matière de collecte et d’utilisation de données comportementales. D’autant plus que cette pratique se fait souvent à l’insu des internautes et qu’il semble y avoir un vide juridique à cet égard :

“we are at the most liberal and lenient point of consumer privacy in the history of time. It’s primarily because digital data is spewed by consumers with each click, like, Tweet, share, and update with reckless abandon. Consumers are barely aware of the digital footprints they’re creating and we don’t know how to handle it. There are no rules here” (Lovett, 2010).

Habituellement, lorsqu’un internaute quitte un site, le lien entre lui et les applications qui collectent ses données d’interaction est brisé. Il arrive cependant que certaines entreprises maximisent l’effet du marketing comportemental en s’associant avec d’autres sites pour partager les données qu’ils recueillent.

“Online behavioral advertising — which is also sometimes called « interest-based advertising » — uses information gathered through your browser about your visits over time and across different websites in order to help predict your preferences and show you ads that are more likely to be of interest to you. For example, a sporting goods manufacturer might work with an advertising network that collects and uses online behavioral advertising information to deliver ads to the browsers of users that have recently visited sports-related sites, or an airline might direct ads to users that recently visited travel sites” (aboutads.info, 2010).

C’est donc dire qu’une trace de votre passage est disponible sur le Web et que les données que laisse cette trace sont plus ou moins importantes, en fonction de la taille du réseau sur laquelle elle se profile. Plus une trace est importante, et plus votre présence est continue lorsque vous passez d’un site à un autre ; moins elle est importante et plus votre présence est en discontinuité sur Internet. L’importance de votre trace virtuelle permet aux entreprises de définir de mieux en mieux vos habitudes de vie, vos comportements et vos réactions, ce qui est fort utile pour savoir comment, où et quand vous cibler, pour ainsi susciter votre intérêt.

C’est à propos de la persistance de cette trace que le génie de Facebook devient fort évident. En mettant en place un réseau qui est basé sur la relation sociale entre les individus, et en réussissant à rassembler des millions d’individus dans ce système fermé – soit l’application de Facebook – , Marc Zuckerberg a réussi à créer une machine redoutable pour profiler les individus. C’est d’autant plus vrai qu’en 2011, Facebook compte maintenant plus de 500 millions d’utilisateurs dont la moitié s’authentifient chaque jour sur le réseau dans plus de soixante-dix langues et interagissent avec plus de 900 millions d’ “objets” (pages, groupes, évènements, et applications de toutes sortes). En fait,“more than 30 billion pieces of content (web links, news stories, blog posts, notes, photo albums, etc.) shared each month” (Facebook, 2011).

Rappelons quelques aspects fondamentaux de Facebook:

● Le réseau comporte des centaines de millions d’utilisateurs dont les faits et gestes sont suivis à la trace.

● Il est non seulement possible de décoder les intérêts et les habitudes de vie des utilisateurs, mais aussi leur influence à l’intérieur du réseau. Ces données peuvent être croisées pour construire de complexes algorithmes comportementaux.

● Le réseau peut virtuellement s’agrandir à l’infini, car il est basé sur un amalgame d’applications sur lesquelles peuvent se greffer des milliers d’autres applications (un virus informatique?).

● Le réseau est lentement en train d’envahir le reste de l’Internet en se propageant à l’extérieur de son système clos via des widgets de toutes sortes, qui peuvent être insérés sur un site Web, sur un téléphone intelligent, sur une Playstation, etc. (facebook connect, bouton like, systèmes de commentaires, partager avec un ami, etc.). Comme le dit si bien Avinash Kaushik : “Sites that use Facebook’s Like buttons send your visit data back to Facebook (currently from more than a million websites)” (Kaushik).

Le plus ironique est qu’au fondement même de Facebook se trouve l’attrait d’un réseau privé. Contrairement au reste du Web qui est ouvert, que tout le monde peut voir, Facebook est réservé à un groupe d’amis, un réseau communautaire restreint où il est possible de faire et de dire ce que l’on veut. Cette illusion de liberté est d’ailleurs une des raisons pour lesquelles Facebook est si populaire chez les jeunes et les moins jeunes. Or voilà que toutes les données personnelles qui sont partagées dans son réseau sont pourtant enregistrées par Facebook et utilisées pour permettre aux annonceurs de mieux cibler leurs clients.

Facebook pousse même l’audace encore plus loin jusqu’à prendre possession de tous les droits sur les contenus qui sont publiés sur sa plateforme:

“pour le contenu protégé par les droits de propriété intellectuelle, comme les photos ou vidéos (« propriété intellectuelle »), vous nous donnez spécifiquement la permission suivante, conformément à vos paramètres de confidentialité et paramètres d’applications : vous nous accordez une licence non-exclusive, transférable, sous- licenciable, sans redevance et mondiale pour l’utilisation des contenus de propriété intellectuelle que vous publiez sur Facebook ou en relation à Facebook (« licence de propriété intellectuelle »). Cette licence de propriété intellectuelle se termine lorsque vous supprimez vos contenus de propriété intellectuelle ou votre compte, sauf si votre compte est partagé avec d’autres personnes qui ne l’ont pas supprimé” (Facebook, 2010).

Et comme si ce n’était pas assez, voilà que Facebook exige de ses utilisateurs qu’ils lui donnent aussi aux accès aux informations qui ne proviennent pas de son système. Déjà, en 2007, Nelson note que Facebook mentionne dans sa politique de vie privée (qui est toujours en train de se transformer):

“we may use information about you that we collect from other sources, including but not limited to newspapers and Internet sources such as blogs, instant messaging services and other users of Facebook, to supplement your profile” (Nelson, 2007).

Pour le résumer:

“privacy on Facebook is undermined by three principal factors:users disclose too much, Facebook does not take adequate steps to protect user privacy, and third parties are actively seeking out end-user information using Facebook” (Soltren, 2005).

Mais qu’importe, le potentiel du retour sur investissement n’en est qu’à ses balbutiements. Pour l’instant, le modèle d’affaires de Facebook est assez simple : ses revenus proviennent de la publicité, la location de son espace à des développeurs d’application de parti tiers (Farmville, Zynga, etc.) desquels il peut collecter encore plus de revenus publicitaires, et la vente directe d’objets virtuels (Jorganson, 2008). Mais Facebook pourrait capitaliser big time lorsqu’il décidera de vendre les données qu’il collecte aux marketeurs du monde entier:

“to marketers, the Facebook data is potentially more valuable than the data collected by other massively popular sites, like Google. That’s because Facebook collects a rich set of personally identifiable information (PII) from its user profiles. The data contains not only the user’s demographic data, but also data about their online and offline likes and dislikes–and those of their friends. The personal and social detail of Facebook’s data could give marketers unprecedented power to find new customers” (Sullivan, 2010).

Pour l’instant, ce type de pratique serait inacceptable selon les politiques de confidentialité et de vie privée de Facebook, mais fort est à parier que lorsque le temps sera venu, ce ne sera qu’une formalité de le faire.

La photo provient de Sécurité, Internet et réseau.

Le processus d’optimisation continue de Google

kinaze — Fri, 27 May 2011 00:03:01 +0000

“The sexy job in the next ten years will be statisticians… The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it”
Hal Varian, Google’s Chief Economist (McKinsey Quarterly, 2009)

Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

Il serait triste de terminer cette présentation d’entreprises qui utilisent stratégiquement l’analyse de grandes quantités de données sans parler de Google. C’est que le fondement même de cette entreprise repose sur les données. Quand on y pense, Google est une organisation virtuelle dont le succès est d’avoir créé des applications numériques dans lesquelles transitent, s’organisent et se transforment des données. Alors que le nerf de la guerre pour Google est de faire des profits avec ses revenus publicitaires, sa vision pour le faire repose sur l’optimisation de ses processus.

Des services gratuits, des données rentables

L’innovation chez Google est un service mis directement au profit des utilisateurs de ses services. Les applications de Google sont destinées directement à des particuliers ou à des entreprises qui veulent réaliser un ou des objectifs d’affaires précis. Par exemple : faire une recherche sur Google, trouver un livre sur Google Scholar ou Google Books; promouvoir son entreprise avec Google AdWords; gérer ses courriels avec Gmail; optimiser son site Web avec Google Analytics; naviguer sur le Web avec Google Chrome; faire un appel avec Google Talk; regarder des vidéos sur YouTube ou la télé sur Google TV; trouver une direction sur Google maps; traduire un texte avec Google translate; gérer ses photos avec Picasa; etc.

Un des objectifs de Google est d’optimiser toutes ses applications de sorte qu’elles soient de plus en plus performantes pour ensuite les utiliser, de façon secondaire, comme support pour des placements publicitaires qui génèrent des revenus. Plus une application est performante, et plus elle est utilisée par un grand nombre de personnes, ce qui permet à Google de collecter encore plus de données qui sont à leur tour analysées pour optimiser encore plus la performance de cette application et en vendre les mérites aux annonceurs potentiels.

Apprendre (rapidement) par la pratique

Google collecte des données impersonnelles afin d’optimiser les services qu’elle offre. Peu lui importe de savoir si c’est Pierre ou Jacqueline qui ne trouve jamais le bouton pour ouvrir une session dans Google Docs, si jamais le système d’analyse de Google mesure une tendance significative par rapport à X utilisateurs qui ont le même problème, alors l’entreprise mettra en place une série de tests A/B ou de tests multivariés afin de comprendre ce qu’il faut faire pour en minimiser l’impact.

Comme le dit Hal R. Varian, économiste en chef de Google :

“the source of Google’s competitive advantage is learning by doing” (Lohr, 2008).

Et l’expertise de Google est d’apprendre rapidement à partir des quantités phénoménales des données qu’elle analyse et qu’elle teste perpétuellement en temps réel.

“Google is all about improving everything quickly. Most companies think of release cycles measured in months or years. Google measures release cycles in hours or days . Google’s process of continuous improvement occurs at a rate that most companies only dream of” (Howe, 2008).

Pas besoin de savoir pourquoi?

L’originalité du processus de mesure et d’optimisation de Google réside aussi dans son approche méthodologique pour le faire.

“Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required” (Howe, 2008).

C’est d’ailleurs le fondement de cette approche analytique, fondée sur les mathématiques, qui fait dire à Chris Anderson, dans son excellent article “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete” que

“Google’s founding philosophy is that we don’t know why this page is better than that one: If the statistics of incoming links say it is, that’s good enough. No semantic or causal analysis is required” (Anderson, 2008).

Les exemples de Gmail et du moteur de recherche de Google sont éloquents pour démontrer cette philosophie.

Mesurer, affiner, tester et optimiser, mesurer, tester…

Gmail a été l’une des premières applications du Web 2.0 à être lancée en mode bêta. Lancé en 2004, c’est seulement après cinq ans en 2009 (Belfiore, 2009) que Google retire officiellement la mention bêta associée au produit. Pendant tout ce temps, Google mesure, affine, teste et optimise son service Web. Même si la signification de la migration vers la version définitive de Gmail n’est pas très claire (car Google continue de mesurer, affiner, tester et optimiser…), cet exemple démontre bien à quel point la culture de la mesure est au fondement même de la philosophie de développement des produits de l’entreprise. Comme le fait remarquer Jason Freidenfelds, un porte-parole chez Google :

“Beta is more of an internal set of requirements and an indication that we continue to work on the product to make it better and better. Google has very high internal metrics that products have to meet before coming out of beta…” (Bauman, 2007).

Un autre exemple éloquent de ce processus de mesure et d’optimisation chez Google est son moteur de recherche. Chaque jour Google fait rouler une série d’expérimentations en temps réel afin de mieux comprendre comment de nouveaux critères pourraient améliorer les résultats des recherches proposés aux internautes qui utilisent son moteur de recherche (Mayer & Pansari, 2006). Ceci veut dire que le Google search que vous utilisez n’est pas nécessairement le même que le mien, ni le même que vous avez utilisé hier!

En fait, des centaines de facteurs de positionnement sur les moteurs de recherche (SEOmoz, 2009) et de nouvelles fonctionnalités sont testés chaque jour en temps réel sans même que les utilisateurs sans aperçoivent. C’est sans compter les mises à jour majeures de son système de recherche comme le MayDay update ou bien le Panda update. Cela fait beaucoup de tests à analyser, d’autant plus qu’en moyenne, 34 000 résultats de recherche sont générés chaque seconde dans le monde (McGee, 2010) et qu’il faut croiser toutes ces données! Vive la puissance des ordinateurs et la complexité des méthodes d’analyses de données!

Whatever happened to the Space Age? provient du site optimiseduk.

La restructuration des données pour les nuls

kinaze — Tue, 17 May 2011 01:11:38 +0000

“BigSheets takes away the complexity of hadoop and puts the power of big data in the hands of the line of business users” David Barnes; technical evangelist, IBM (IBMetinfo, 2010)

Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

En surface, les exercices d’analyse du Big Data sont faciles à comprendre, mais lorsque l’on regarde tout ça en profondeur, on constate rapidement qu’il est fort complexe de mettre en place des méthodes pour analyser de grandes quantités de données. D’une part, l’aspect technique des outils disponibles relègue malheureusement trop souvent dans l’ombre l’enjeu stratégique au fondement de cette pratique. D’autre part, la réalité mathématique qui sous-tend le Big Data n’est pas nécessairement la force des spécialistes de marketing. On a qu’à essayer de lire quelques travaux de Pedros Domingos pour comprendre les limites de l’accès au Big Data.

Big data et big complexité

Voici, par exemple, un extrait du sommaire de “Markov logic Networks” (2006) qu’il a rédigé avec Matthew Richardson:

“we propose a simple approach to combining first-order logic and probabilistic graphical models in a single representation. A Markov logic network (MLN) is a firstorder knowledge base with a weight attached to each formula (or clause). Together with aset of constants representing objects in the domain, it specifies a ground Markov networkcontaining one feature for each possible grounding of a first-order formula in the KB, with the corresponding weight…” (Domingo & Richardson, 2006).

Le plus drôle dans cet extrait est que l’approche proposée par les chercheurs est supposément simple. Pas évident pour les néophytes! C’est à propos de la simplification de cette complexité que plusieurs entreprises travaillent afin de démocratiser l’utilisation du Big Data pour le rendre plus accessible au grand public. À cet égard, le projet BigSheets d’IBM est un cas sur lequel il vaut la peine de se pencher.

Simplification de la restructuration des données

En résumé, BigSheets est un outil qui peut scanner des petaoctets de données disponibles sur un réseau afin de les restructurer et d’en extraire des informations stratégiques. Les aspects les plus originaux de l’approche de BigSheets sont :

Traditionnellement, les entreprises utilisent des données qui sont déjà structurées dans des bases de données afin d’en extraire des informations stratégiques. BigSheets peut scanner des données non standardisées et en extraire des informations selon des filtres paramétrables.
BigSheets permet non seulement d’organiser des données non structurées, mais de le faire avec des données qui ne sont pas nécessairement disponibles dans un réseau interne de l’entreprise (sur Internet, par exemple, dans les réseaux sociaux ou sur un serveur de jeux en ligne).
Avec BigSheets, l’utilisation des données du Big Data n’est plus seulement réservée à une élite de chercheurs en entreprise ou dans un milieu universitaire. Même les petites et moyennes entreprises peuvent maintenant extraire des informations à partir de la complexité. Il ne reste plus qu’à comprendre ce qu’il vaut la peine d’être analysé (ce qui n’est pas peu dire!).

David Barnes d’IBM démontre quelques façons d’utiliser BigSheet sur le canal IBM ETinfo, sur YouTube. ReadWriteWeb reprend cette démonstration dans un article intitulé “Twitter by the Petabyte: Using Big Data to Define Market Sentiment”, afin d’en extraire les segments les plus importants. Deux exemples d’organisation de données qui relèvent du domaine public et qui sont non structurées sont mis à l’avant-plan :

l’analyse des sentiments sur Twitter à l’égard du iPhone, d’Android et de BlackBerry;
le recoupement de données non structurées sur le site Web du Parlement britannique.

Les sentiments de Twitter

La beauté du réseau de Twitter est qu’il est une mine d’informations gratuites pour les entreprises qui prennent le temps de l’analyser. Grâce à des outils comme BigSheets, des études de marché, des exercices de veille concurrentielle ou même la compréhension des sentiments des consommateurs à l’égard d’une marque peuvent y être réalisés à moindre coût. Mais comment comprendre les sentiments des consommateurs à propos d’une marque ? C’est assez simple, il suffit de suivre les tweets qui signalent une marque et à croiser cette donnée avec d’autres signaux, tels qu’une intention d’achat ou bien une critique négative.

David Barnes démontre à quel point il est facile de croiser ces données avec BigSheets pour obtenir un nuage de mots-clés qui dévoilent le poids d’un produit ou d’une marque comme l’iPhone, le système d’exploitation Android ou le Blackberry. En quelques secondes, il paramètre une analyse qui lui permettra d’extraire ce type d’information et de représenter visuellement le degré de sentimentalité positif avec un nuage de mots clés (Williams, 2010).

Source: Williams, A. (30 octobre 2010). Twitter by the Petabyte: Using Big Data to define market sentiment. ReadWriteCloud. http://rww.to/hHFrT1

Révéler ces informations que je ne saurais voir

Pour aller encore plus loin dans ce dévoilement de données, un autre cas est donné en exemple. Cette fois-ci, il est proposé de balayer toutes les données non structurées du site Web du parlement Britannique afin d’en extraire toutes les lois qui sont votées au parlement et de les associer avec les politiciens qui votent pour ces lois. Ainsi, on peut facilement révéler au grand jour qu’elle est la portée de l’activité des politiciens :

Jusqu’à quel point, par exemple, se soucient-ils du bien social, en votant sur plusieurs types de projets de lois qui touchent divers aspects des besoins d’une société?
Jusqu’à quel point, se soucient-ils plutôt de l’intérêt d’un secteur spécifique de l’économie (d’une entreprise?), en ne votant que ponctuellement pour les lois qui y sont associées?

Coûts des analyses et ressources pour analyser

En démocratisant l’analyse et la structuration de données secondaires, des outils comme BigSheets sont définitivement une bonne chose pour les petites et moyennes entreprises. En effet,

« access to large data sets is no longer the preserve of insurance companies and giant retailers. With cheap technology that makes it easier than ever to capture and store this data, a wide range of organisations can now tap into the power of ‘big data’ » (Nesta, Big Data resources, 2010).

Toutes sortes de questions éthiques surgissent cependant sur les limites de l’acceptable et de l’inacceptable quant à ces pratiques d’analyses, et ce, tant au niveau des multinationales que des petites entreprises familiales. De plus, comme le fait si bien remarquer un lecteur de MineThatData, même si tous ces nouveaux outils sont de moins en moins chers et de plus en plus nombreux, ce qui est important n’est pas l’outil mais bien les compétences des ressources humaines qui les utilisent.

“There is no doubt that data is exploding and the tools to harness the value of that data are also exploding. Good news, the cost of tools are coming down. Bad news, we don’t need more tools we need an operational capacity to leverage the value of tools and data we already have. It’s not about more tools, but about the people that can leverage the tools and data to make positive changes within a company” (Hillstrom, 2011).

Il n’est pas clair d’ou provient la photo de l’extraction de l’huile de racin.

Les données secondaires de Deloitte

kinaze — Mon, 09 May 2011 22:12:59 +0000

“Your Facebook activity may say as much about you as an analysis of your bodily fluids”.
Deloitte (Hett, 2011)

Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

Traditionnellement, le processus pour déterminer l’éligibilité des candidats lors de l’inscription à une police d’assurance est assez dispendieux. Une compagnie d’assurance peut, par exemple, faire passer des tests d’urine ou des analyses sanguines, qui doivent être effectués par des experts du milieu médical, afin de mieux comprendre s’il est ou non avantageux d’assurer un candidat et à quel prix. Le coût de l’évaluation d’un candidat est en fait estimé entre 100 $ à 1000 $, selon Deloitte (2010).

La question de comprendre comment faire diminuer ces frais est au centre d’une étude réalisée en 2010 par Deloitte, pour le compte d’Aviva TLC, la sixième entreprise la plus importante mondialement dans le domaine des assurances et basée au Royaume-Uni. Plus précisément, le but de cette étude était de concevoir un modèle d’analyse prédictive qui permettrait à Aviva d’analyser des données traditionnellement destinées au secteur du marketing afin d’en extraire des informations permettant d’évaluer la qualité des demandeurs de polices d’assurance à moindre coût.

Expérimentation et méthodologie

Pour cette étude, les dossiers de 60 000 candidats ont été évalués. Alors qu’Aviva filtre les candidats selon des méthodes traditionnelles pour les catégoriser selon leur degré de risque, Deloitte décide d’utiliser des méthodes d’analyse prédictive, avec l’objectif d’obtenir des résultats similaires à de moindres coûts.

Pour ce faire, elle divise les 60 000 candidats évalués par Aviva en deux groupes de 30 000 candidats. Elle analyse ensuite les données du premier groupe, en excluant celles des rapports médicaux (tests d’urine ou tests sanguins), afin d’en dégager des tendances pour son modèle. Les données utilisées sont, par exemple :

l’historique médical personnel et familial;
l’historique des données relatives à d’autres demandes de police d’assurance;
les antécédents des assurances de véhicules;
les données marketing relatives aux habitudes de consommation.

Des données secondaires concluantes

C’est à propos de ce dernier point que l’approche de Deloitte est assez originale. Comment extraire des informations utiles au secteur des assurances à partir de données provenant du secteur du marketing ? En fait, environ 37 % du modèle prédictif de Deloitte est basé sur les données secondaires (et publiques) amassées par Equifax Inc. et portant sur les habitudes de vie des futurs assurés, comme leurs passe-temps, émissions de télévision préférées, habitudes de lectures, revenu, etc.

L’approche de Deloitte est concluante. Lorsque le modèle est utilisé pour analyser le deuxième groupe de 30 000 candidats, des résultats similaires à l’audit d’Aviva sont obtenus. Selon John Currier, l’actuaire en chef chez Aviva :

“the use of third-party data was persuasive across the board in all cases” (Johnson, 2011).

Diminuer les coûts avec Facebook

En fait, selon les résultats de l’étude, il pourrait coûter dorénavant entre cinq à dix dollars aux compagnies d’assurances américaines pour évaluer leurs candidats (Deloitte, 2011), c’est-à-dire une baisse extraordinaire des coûts habituels.

Ce qui est intéressant dans ce cas, c’est que les données secondaires utilisées pour cette étude sont disponibles à tout le monde. Tout ce dont on a besoin est d’un peu de budget et une bonne équipe qui arrivera à en dégager les tendances utiles pour atteindre les objectifs. À cet égard, on peut penser que ça ne prendra pas beaucoup de temps avant que les données publiques disponibles sur les réseaux sociaux, tels que Facebook et Twitter, ou bien celles des réseaux sociaux de géolocalisation, comme Foursquare et Gowalla, soient utilisées par les mêmes parties ou d’autres entreprises dans le but de réduire leurs coûts.

“Theoretically online data could be used at an individual level; your Facebook fan pages, online purchases, even the extent of social networking site use could be used directly to assess your life insurance premiums” (Hett).

L’illustration provient de GO direct

Optimiser la loyauté des clients avec leur panier d’épicerie

kinaze — Tue, 03 May 2011 02:49:02 +0000

« What scares me about this is that you know more about my customers after three months than I know after 30 years. »
Lord MacLaurin, Tesco former CEO (Hayward, 2009)

Ce texte fait partie d’une série de 7 études de cas, pour un dossier spécial sur le Big Data.

Les budgets marketing de plusieurs organisations sont souvent dépensés pour acquérir de nouveaux clients. Toutes sortes de campagnes et de promotions sont mises en place pour impressionner le public ciblé, alors que les clients actuels sont oubliés. Prenons comme exemple le domaine des télécommunications au Québec. Est-ce qu’un câblodistributeur vous a déjà remercié d’être un fidèle client de l’entreprise en vous envoyant un rabais lorsque votre abonnement annuel vient à échéance ?

L’oublie des clients actuels

C’est d’autant plus frustrant que les nouveaux clients bénéficient d’une ribambelle de rabais juste parce qu’ils sont de nouveaux clients ; comme si les anciens clients n’étaient pas importants. En fait, les anciens clients sont tellement “importants” qu’ils doivent payer plus cher que les nouveaux clients pour profiter du même service. C’est pourtant à cause de la marge de profit réalisée grâce aux anciens clients que les organisations peuvent avoir une marge de manoeuvre pour baisser les prix des abonnements de leurs nouveaux clients.

Cette incohérence constatée dans plusieurs entreprises est peut-être la résultante d’une mauvaise stratégie d’affaires en amont. Ces entreprises essaient tant bien que mal de dominer par les coûts alors qu’elles devraient en fait se différencier, en personnalisant davantage la relation qu’elles ont avec leurs clients actuels. Ce marketing relationnel est d’autant plus important qu’il est beaucoup plus coûteux d’acquérir un nouveau client que d’entretenir, d’optimiser et de maximiser les revenus générés par un client actuel. En effet:

« one Loyal customer is worth 12 Uncommitted customers…spending 3 times as much per trip & visiting 4 times more often. Making one more customer loyal and delighting them time and time again will deliver many times more sales than chasing 12 new customers » (Dunnhumby, 2010).

Fidéliser avec des points

En fait, très peu d’entreprises ont le volume nécessaire pour s’offrir le luxe de dominer par les coûts. C’est ce que comprend le groupe Tesco, un leader mondial dans le secteur du commerce de détail, lorsqu’il met en place un des premiers programmes de fidélisation de la clientèle en Angleterre, au milieu des années 90. Ce programme consiste à offrir une carte aux clients de l’entreprise qui leur permet de cumuler des points pour chaque transaction qu’ils effectuent. Chaque point représente en fait de l’argent réel qu’ils peuvent ensuite utiliser pour faire d’autres achats. D’autres promotions et rabais de toutes sortes sont envoyés aux détenteurs de cartes pendant l’année, en échange desquels les clients tolèrent que Tesco enregistre et conserve l’ensemble des données relatives à leurs transactions.

« The Clubcard is a contract between Tesco and its customers. In exchange for recording a customer’s shopping behaviour everytime they swipe their Clubcard, Tesco customers earn one point for every £1 spent; these points are translated into vouchers where one point is worth one penny » (Hayward, 2009).

L’ambition de Tesco est ni plus ni moins que de dresser un profil génétique des consommateurs à partir des items qu’ils placent dans leur panier d’épicerie. Ainsi, elle peut offrir les bonnes offres, aux bons moments, aux bons segments de clients, ce qui lui permet de maximiser ses profits tout en accroissant leur satisfaction. En fait, paradoxalement, Tesco cherche à recréer le bon vieux climat d’autrefois avec ses clients. Tout comme l’épicier du coin, elle apprend à bien connaître ses clients. Seulement elle passe par l’analyse d’une quantité extraordinaire de données pour arriver à bâtir et à entretenir cette relation.

Le fonctionnement de la carte peut être résumé par ce schéma:

The Tesco clubcard story - shéma de la loyauté des clients. Source : Dunnhumby (2010). The Tesco clubcard story. Dunnhumby.

Comment analyser ces données?

C’est une chose d’amasser des données, cela en est une autre de les utiliser stratégiquement. Pour l’aider à faire du sens des données qu’elle recueille, Tesco s’associe avec Dunnhumby. En quelques mois, des millions de transactions pour des dizaines de milliers de produits sont analysées pour mieux comprendre les comportements des consommateurs, définir leurs habitudes de vie et mieux les cibler.

« Every customer’s shopping basket is analysed by scoring each product against 50 different dimensions. Are these products foreign, branded, economy or family, for example? These products and insights are fed into a clustering model, which has identified six segments of people: price-sensitive, health-focused, traditional,convenience, mainstream and upmarket » (Hayward, 2009).

L’algorithme Rolling Ball est conçu pour comprendre les tendances et les relations entre les produits. Si, par exemple, « Alphabetti Spaghetti » est un produit catégorisé « famille » et qu’il apparaît souvent dans le même panier que le produit « Coco Puffs », Dunnhumby assigne une cote « famille » plus importante à « Coco Puff ». Cette technique d’agglomération de données (clustering) permet en fait à Dunhumby de classifier les 65 000 différents produits d’un supermarché sans pour autant être obligée de les répertorier. Avec le temps, des billions d’associations sont ajoutées afin d’améliorer l’efficacité de l’algorithme.

Les analyses de Dunnhumby permettent non seulement à Tesco de mieux comprendre ses clients, mais aussi de prendre de meilleures décisions en ce qui concerne les stratégies de marketing les mieux adaptées pour communiquer, influencer et fidéliser;

“for the first time, bosses could see what was being bought by which customer. Assumptions about the way people shopped– notably that they bought everything from the same store – were shattered” (Brown, 2010).

Optimisation de la loyauté

Le but ultime de la carte Tesco est en fait de consolider la loyauté des clients, c’est-à-dire faire en sorte que les meilleurs clients continuent d’aimer l’entreprise encore plus.

« What creates loyalty is how much we understand your life and what we do about it that helps your life » (Dunnhumby, 2010).

Comment fidéliser les clients pour optimiser la loyauté? Source: Dunnhumby (2010). The Tesco clubcard story. Dunnhumby.

Cette stratégie relationnelle est très fructueuse puisqu’elle permet à Tesco de surperformer systématiquement chaque année depuis 1993 dans le marché du Royaume-Uni.

« Tesco has experienced rapid growth in revenue, proof that the company truly accomplished its customer focus. Tesco’s cutomers began to feel appriciated and in return they developed a tremendous affinity for the company » (Kelly Rainer & Cegielski, 2011).

En 2010, plus de 14 millions de personnes utilisent activement la carte privilège de Tesco.

L’image provient de la section business analytics sur intelligenteconomy.com.