Business Geek

Retour à chaud de la FabCon 2025

2025-04-01T03:10:50Z

Ce matin, j’ai eu la chance d’être présent à Las Vegas à la Keynote de la 2eme Fabric Community Conference.

Fabric avance vite. Très vite. La FabCon est une étape supplémentaire pour Microsoft pour faire les annonces et les mises à jour de Roadmap en plus de la Build et Ignite.
En 2 heures de session, c’est une avalanche de nouveautés annoncées par les membres du Leadership Fabric.

En attendant le prochain épisode de Fabric 25, je vous livre ici mon Top 5

1⃣Variable Library (Public Preview) : un moyen de mettre ses paramètres de configuration (Notebooks, Pipelines) dans un (vrai) item Fabric qui supporte les environnements et le source control
Et bonus, pour les secrets, Microsoft a annoncé le support de Azure Key Vault (pour les connexions dans la démo présentée).

2⃣Fabric for Pro-Dev (comme le dit Amir Netz) notamment sur les aspects automatisation (CI/CD) avec le support encore plus étendu des Service Principals, le provider Terraform en GA (General Availability) et l’impressionnante CLI (Fabric-CLI – Public Preview)
Je sais, ça fait 3, en sachant que j’aurai pu caser la Variable Library dans cette catégorie. En tout cas, retenez « automatisation !« .
Note : la doc n’est pas encore à jour pour le support des Service Principals dans les API

3⃣Copilot with Data (ok, je vais encore faire un mot compte-double ici)
Premièrement, AI Skill devient Fabric Data Agent. Fabric se positionne dans la stratégie de Microsoft avec » l’agentification » dans toutes ses stacks. Ici, AI Skill (Fabric Data Agent) sera disponible directement dans Azure AI Foundry, en attendant d’autres points du consommation inévitablement.
Au-delà de ce rebranding, j’aime l’idée d’éduquer Copilot sur vos données, comme on a essayé de le faire avec Q&A il y a 10 ans. Fabric Data Agent propose de donner du contexte et des exemples associés aux données (modèle sémantique, lakehouse, eventhouse, …) que vous mettez à disposition de Copilot.
Mais ce que j’ai vraiment apprécié, c’est le Sneak Peek d’un chat avec ses data qui commence directement sur le portail à la manière de Copilot M365 qui s’appuye sur TOUS les documents auquel j’ai accès. Là ce Copilot me propose d’abord une liste de rapports répondant à ma question pour ensuite rentrer dedans (et dans le modèle) pour répondre aux questions en proposant une exploration des données directement actionnable.
L’expérience dont je rêve depuis plus de 10 ans. En gros, c’est ma session de demain synthétisée en une feature

4⃣Materialized Views
Ce n’était qu’un sneak peek mais j’ai adoré l’idée derrière. Plutôt que de mettre des ETL entre vos couches, l’idée est de créer des vues qui matérialisent la logique de transformation (jointure, case when, etc.) tout en ajoutant des contraintes de qualité directement dans la définition de la vue.
Et tout cela forme un seul et unique virtual-ETL avec un graphe de dépendance où les vues se calculent automatiquement avec le gestion des rejets (!!).
Pour de nombreux projets Analytics, cela peut être largement suffisant, en lieu et place d’une architecture multi-hop (type Medaillon) avec beaucoup de copie de données et de latence.

J’ai hâte de creuser le sujet pour faire une présentation au Club Fabric (quand ça sera en Public Preview)

5⃣Datawarehouse Migration From Synpase
Honnêtement, la promesse est alléchante. Quelques clics. Un peu de Copilot pour remédier le code SQL récalcitrant et hop, une migration depuis Synapse en quelques heures.
A suivre, indubitablement !
Note : sur la démo, on a pu voir également la migration depuis Azure Analysis Services

Les Flops ?
Pas de news sur les Translytical Apps présentées à Ignite dernier (même si la combinaison User Define Functions – aka Azure Functions in SaaS – et des Fabric Databases permet de faire le lien).

Evidemment, j’ai omis de nombreuses annonces mais je voulais vous faire un feedback rapide. On en reparle au prochain Fabric 25 et je suis sûr lors des prochaines émissions Club Power BI et Club Fabric.

Toutes les mises à jour : Fabric March 2025 Feature Summary | Microsoft Fabric Blog | Microsoft Fabric

N’oubliez pas de vous inscrire sur les réseaux du Club Fabric pour ne rien louper des nouveautés.

Comment séparer les rapports et le modèle dans 2 PBIX distincts

2018-03-17T16:37:45Z

Comme vous le savez, quand vous construisez un modèle Power BI, vous avez un choix à faire : import ou connexion directe (Live Connection)

Je ne vais pas revenir sur les différences entre les modes, juste rappeler que dans le mode de connexion directe, vous pouvez vous connecter à un modèle existant dans le service Power BI.

Ce point est très intéressant puisque cela vous permet de séparer le modèle de données des rapports.
C’est une bonne pratique que je recommande. Surtout quand un modèle a vocation à être utilisé intensément par les collaborateurs d’un espace de travail (workspace).

Il est toutefois difficile d’anticiper cela dans le feu de l’action (ie. dans la phase de développement). Et moi le premier je me retrouve avec mes rapports dans le même PBIX que le modèle.
Et comme vous, ça m’ennuie de refaire la DataViz sur laquelle j’ai passé des heures (jours) à tout caler au pixel près.

L’astuce que je présente ici vous permet de faire cette séparation modèle/rapports à posteriori.
ATTENTION : cette technique reste du bricolage et n’est pas supportée.
(En tout cas, ne dites pas que je l’ai écrit sur mon blog si vous devez faire un ticket au support )

Mode opératoire

Récupérez la dernière version de votre PBIX qui combine modèle et rapports. Si vous avez un doute, vous pouvez toujours le re-télécharger depuis le service. (Mais vous utilisez un contrôle de source, non ?)
Faites en une copie appelée MODÈLE.PBIX
Créez un nouveau PBIX et le connecter à votre modèle en ligne en utilisant la source « Service Power BI » et en choisissant votre modèle dans le bon workspace.
Enregistrez les 2 fichiers dans un dossier et renommez les avec l’extension .zip (oui, les PBIX sont des zip)
Supprimez le fichier DataModel dans l’archive MODELE (dans le zip)
Copiez le fichier DataMashup de l’archive LIVE-CONNECTION vers l’archive MODELE
Renommez l’archive MODELE.PBIX en RAPPORTS.PBIX
Ouvrez-le et vous verrez qu’il n’y a plus de modèle et que tous les visuels sont cassés
Reconnectez-vous sur le service Power BI, comme dans l’étape 3. Tous les visuels vont se raccrocher au modèle en ligne et vous pourrez voir en bas à droite que vous êtes bien en Live Connection
Ouvrez la copie MODÈLE.PBIX, supprimez les pages de rapports. Je vous recommande d’ajouter une page Info qui documente votre modèle, indique sa version et la date de dernière mise à jour.
Re-publiez les 2 PBIX et vérifiez que tout fonctionne en ligne

Et voila.

Reste à voir comment déplacer tout cela entre 2 workspaces. Car si vous avez fait cette manipulation dans votre espace personnel et que vous déplacez votre modèle dans un autre workspace, vous ne pourrez pas vous rebrancher sur ce modèle… La suite au prochain numéro.

–

Recrutement 2018 – votre carrière dans la Data

2017-12-29T09:08:58Z

C’est la fin de l’année et avant de préparer le réveillon, je (re)pose ici ma liste au père Noël vu qu’il ne m’a pas encore tout apporté :).

Je me dis qu’en fin d’année, on est plus au calme et on se pose des questions sur son prochain challenge… J’ai une piste pour vous
L’équipe Data & AI d’AZEO que je manage recrute fortement des profils Data, de tous niveaux et de toute origine (je parle de techno évidemment).
La seule contrainte que nous exigeons : l’œil du tigre, la passion de la Data, l’envie de partager et de travailler en équipe.

Voici 3 descriptifs de poste, si vous vous y retrouvez en totalité ou partiellement, contactez moi > jean-pierre.riehl[at]azeo.com

Data Analyst
Data Jedi
Chef de projet Data

Data Analyst

Auprès de nos clients, au contact des métiers, vous comprenez leurs besoins d’analyse et de reporting et vous concevez des solutions décisionnelles y répondant.
Vous étudiez les données disponibles et identifiez les données ou processus manquants. Vous spécifiez les mesures, les calculs et les axes d’analyse.

Compétences

Manipulation de données (crunching, cleansing)
Croisement de données, création de modèles d’analyse
Connaissance des bases de la Business Intelligence et de la modélisation dimensionnelle
Rédaction de spécifications
A l’aise avec un langage de programmation orienté données (SQL, DAX, M, QV, MDX, Python, R)
Connaissances en statistiques
Principes de DataVizualization, à l’aise avec le Story Telling

Technologies

Tableau, QlikView, Power BI, Excel

Vous évoluerez dans un environnement professionnel challenging, entourés des Talents d’AZEO. Votre créativité sera sollicitée en permanence et vous apprendrez tous les jours.
Vous aurez l’occasion de passer des certifications sur les technologies manipulées.

Data Engineer (aka Data Jedi)

Votre job : construire des plates-formes de données modernes pour nos clients.

Vous implémenterez les patterns « Data Lake », « Lambda », « Kappa », etc. et construirez les pipelines de données pour les alimenter.
Vous préparez les données pour les Data Scientists, les Data Analysts et vous les accompagnez sur l’ensemble des processus de Data Science ou d’analyse.
Vous mettez en œuvre et industrialisez des modèles prédictifs pour enrichir des applications avec de l’intelligence artificielle.

Compétences

Manipulation de données
Connaissance d’un langage de programmation orienté données
Avoir des bases solides en Business Intelligence et en modélisation dimensionnelle
Connaissance des algorithmes de Data Science (Data Mining, Machine Learning, Deep Learning)

Technologies

Azure Data Platform
HADOOP, Spark, Kafka, CosmosDB, Cassandra, Beam
SQL indispensable (T-SQL, PL/SQL, HQL, U-SQL…)
Python, R, Spark, .NET
DAX, MDX

Maitre Jedi ou seulement Padawan, vous évoluerez dans un environnement professionnel challenging, entourés des Talents d’AZEO. Votre créativité sera sollicitée en permanence et vous apprendrez tous les jours.
Vous aurez l’occasion de passer des certifications sur les technologies manipulées.

Chef de projet Data

Votre job : construire des solutions décisionnelles modernes pour nos clients.

Entouré d’experts des technologies Data vous organisez l’équipe projet pour définir et construire des modèles et des tableaux de bord. Vous serez le principal interlocuteur du client et des métiers et coordonnerez les efforts de développement.

Compétences

Connaissance approfondie de la Business Intelligence et de la modélisation dimensionnelle
Expérience significative dans des projets de Business Intelligence
Méthodes agiles, Kanban, Lean
Organisation et Leadership technique
Manipulation de données, modélisation
Rédaction de spécifications
Connaissances en statistiques
Principes de DataVizualization, à l’aise avec le Story Telling

Technologies

Datawarehousing (SQL Server idéalement)
ETL (SSIS idéalement)
Master Data Management, Qualité de données
Modélisation dimensionnelle et sémantique
Solutions de Reporting (SSRS, Power BI, Tableau, QlikView, etc.)
Git, VSTS

Vous évoluerez dans un environnement professionnel très challenging, entourés des Talents d’AZEO. Votre créativité sera sollicitée en permanence et vous apprendrez tous les jours.
Vous aurez l’occasion de passer des certifications sur les technologies manipulées.

–

MS Experiences 2017 – REX Power BI

2017-11-01T15:39:07Z

Une nouvelle semaine, un nouvel article sur mes sessions à MS Experiences. Cette fois-ci, c’est un retour sur la session que j’ai pu animer sur Power BI.

Cette session est en fait un retour d’expérience d’un projet que j’ai mené avec notre client Edenred.

Comment le contrôle de gestion améliore le pilotage de l’entreprise avec Power BI chez Edenred

https://experiences17.microsoft.fr/session/3d4386e8-3b58-e711-80c2-000d3a21081a

Le contrôle de gestion de Edenred, leader des services prépayés aux entreprises, a mis en œuvre des tableaux de bord de pilotage pour mieux suivre les chiffres clés et aider les différentes fonctions de la société.

Au travers d’un retour d’expérience, découvrez comment Power BI peut être un outil puissant de reporting, d’analyse et de pilotage de la performance. L’objectif de cette session est de revenir sur les points clés de la mise en œuvre, de la réalisation des indicateurs, à la gouvernance de la solution en passant par la coopération avec les services informatiques.

Réutilisation de l’existant décisionnel, solution hybride entre le cloud et le système d’information d’Edenred, DataViz adaptée aux utilisateurs et aux usages, indicateurs simples et calculs complexes, explorons toutes les facettes de ce projet métier.

La session revient sur le projet et tente de répondre à la question : Power BI a-t-il améliorer le pilotage de Edenred ?

Sans suspens, la réponse est oui. Cédric François, responsable du pôle contrôle de gestion revenus d’Edenred, et moi-même avons tenté de préciser comment.

La session traite des points importants du projet, vu par le client. Nous sommes revenus sur le besoin. Nous avons discuté de DataViz à propos du P&L. Cédric a pu présenter le P&L en live (avec des données anonymisées) et expliquer que le ROI du projet est déjà acquis grâce aux actions prises à la suite de l’analyse des coûts de transports (qu’il a pu démontrer directement en session).

Comme pour la session IronSkipper, mon retour complet sur cette session est disponible sur le blog AZEO

REX Power BI – Contrôle de gestion Edenred

Les slides sont disponibles sur mon SlideShare :

MS Experiences 17 – Comment le contrôle de gestion améliore le pilotage de l’entreprise avec Power BI chez EdenRed from Jean-Pierre Riehl

–

MS Experiences 2017 – le projet IronSkipper

2017-10-18T11:58:30Z

J’annonçais quelques articles sur mon blog pour mes sessions de MS Experiences 2017, et finalement, c’est sur le blog AZEO que j’ai décidé de poster. Alors je cross-post ici un petit teaser pour la première session, pour vous donner envie d’aller y faire un tour.

La session porte le nom de code en interne de IronSkipper. C’est quoi ? C’est en fait un projet d’innovation que je drive chez AZEO qui comporte les axes suivants :

de la DataViz et du Dashboarding (avec Power BI)
de l’ergonomie et de la réalité mixte (avec HoloLens)
de la Data Science (avec du Deep Learning entre autres)

L’objectif est de mettre toute l’innovation technologique d’AZEO et la geekitude des Azeotees au service d’un projet d’entreprise : ~~participer~~ gagner la Route du Rhum 2018 où notre DAF est skipper.

Pour poursuivre mon teaser, voici quelques points intéressants sur chacun des axes technologiques

DataViz et Dashboarding

L’objectif est de fournir des indicateurs et les infos les plus pertinentes possibles à notre Skipper. En analysant les données du bateau, on peut ressortir une vraie mine d’infos qui servent à Maxime à se préparer, comme n’importe quel sportif moderne.

Par exemple, le rapport ci-dessous a permis à Maxime de voir qu’il a un problème de code (si vous êtes marin, vous trouverez).

Réalité mixte et HoloLens

Je ne code pas pour HoloLens. Mais mes collègues oui ; et je les aide du mieux que je peux. L’objectif est de contextualiser les indicateurs dans l’environnement du skipper (à-la IronMan). C’est le domaine de l’ergonomie de l’information et là, c’est l’un de mes sujets (DataViz !).

Le challenge qu’on a tenté de relever pour MS Experiences est de faire une démo de Power BI projeté en 3D dans Unity. Et nous l’avons fait (enfin, surtout Hubert des collègues de Bordeaux ;)).

Evidemment, dans le projet IronSkipper, on fait beaucoup plus de choses avec HoloLens et je vous invite à lire l’article en entier (lien plus bas).

Data Science

Globalement, le challenge qu’on souhaite relever est de détecter les bascules de vent pour anticiper les manœuvres sur le bateau. Et on s’est dit que la réponse était dans les nuages (pas le Cloud, les vrais nuages).

Alors on a sorti l’artillerie : Deep Learning, réseaux neuronaux convolutifs, Machine Learning, Cognitive Services, etc. L’équipe Data Science déroule sa méthodologie et notre premier retour est que le sujet est très complexe (mais on s’en doutait). On a appris beaucoup de choses sur les phénomènes météorologiques et on a une première étape avec un service de reconnaissance de nuages.

Voila, j’espère que ça vous donne envie d’en savoir plus et de lire mon article complet sur cette session sur le blog AZEO.

Lire tout l’article :

MS Experiences – Transformer un Skipper en IronMan

Les slides :

Bien configurer le composant visuel KPI

2017-10-08T15:27:15Z

L’astuce du jour concerne le composant visuel KPI que l’on retrouve nativement dans Power BI.
Ce visuel permet d’afficher la valeur d’un KPI en fonction d’un objectif et, en arrière-plan, la tendance de cette même KPI.

Dans l’exemple ci-dessous, on affiche la dernière valeur de la KPI (%) MoM Messages sur l’axe Mois ainsi que la tendance, toujours sur cette axe (sur les mois précédents).

Le problème est que la notion de dernière valeur de la KPI (on pourrait dire valeur « courante ») dépend de l’ordre utilisé sur le visuel.
Et vous l’aurez vu, le visuel KPI n’offre pas la possibilité de configurer le tri…

On peut donc se retrouver avec le problème suivant : la valeur affichée n’est pas la bonne et la tendance n’est pas dans le bon ordre non plus.
Comme dans le screenshot ci-dessous, où devrait être affiché 69% (valeur du dernier mois)

Pour afficher l’option de tri des données, on peut changer le visuel et repasser sur une table par exemple. Le problème est qu’une fois qu’on a manipulé un peu le composant KPI, il garde sa configuration et donc ne reprend pas le bon tri.

Bonne pratique : passer par la table en premier

La solution est de toujours configurer votre visuel avec une table au préalable. Et seulement après de passer sur un composant KPI.

Espérons que les prochaines évolutions du composant KPI permettront de configurer l’ordre de la tendance

J’ai créé une idea à ce sujet : https://ideas.powerbi.com/forums/265200-power-bi-ideas/suggestions/31807513-sort-trend-axis-in-kpi

–

Dédoublonnage & dimension de type 1 avec Power BI, récupérer la ligne la plus récente

2017-10-09T10:23:09Z

Il arrive que votre source de données contiennent des doublons. 2 lignes représentant la même chose mais avec une petite différence, qui vous empêche d’appliquer la transformation « Supprimer les doublons » (ie. Table.Distinct() ).

Dimension de type 1

La cas d’usage typique est une dimension de Type I (au sens Kimball, cf. https://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_1:_overwrite).

Prenons l’exemple d’une table Groupe dans laquelle le nom du groupe peut changer dans le temps. On ne souhaite garder que la dernière valeur.

Comme pour la dimension de Type 2 (cf. SCD avec Power BI), il nous faut une clé ainsi qu’un autre critère qui définit la dernière valeur, ie. la dernière ligne, celle que l’on doit garder

Méthode 1 : la jointure

Le principe que l’on va utiliser est de faire une auto-jointure sur la table, avec un regroupement par l’identifiant de ligne.

On commence par référencer notre requête de base et on applique un GROUP BY qui récupère ce qui va être le second critère de la clé (ie. de la sélection). Ici, on prend la date maximale car on veut la dernière valeur en date.

Ensuite, on référence une seconde fois notre requête de base et on aaplique une jointure (Fusionner les requêtes) avec la requête précédente sur la double clé (ici GroupId et LastUpdate).

La jointure est interne (INNER JOIN) car on veut justement filtrer sur la bonne ligne.

Cela nous donne 3 requêtes pour arriver au résultat final (on ne charge que la dernière évidemment).

On peut tout mettre dans la même requête M mais il faudra le faire manuellement.

let
  Source = Table.FromRows(Json.Document(Binary.Decompress(Binary.FromText("…", BinaryEncoding.Base64), Compression.Deflate)), let _t = ((type text) meta [Serialized.Text = true]) in type table [GroupId = _t, Group = _t, LastUpdate = _t])
  LastUpdate = Table.Group(Source, {"GroupId"}, {{"LastUpdate", each List.Max([LastUpdate]), type date}}),

  JointureAvecLastUpdate = Table.NestedJoin(Source,{"GroupId", "LastUpdate"}, LastUpdate, {"GroupId", "LastUpdate"},"LastUpdateJoin",JoinKind.Inner),

  SuppressionColonneInutile = Table.RemoveColumns(JointureAvecLastUpdate, {"LastUpdateJoin"})
in
  SuppressionColonneInutile

Méthode 2 : SORT + DISTINCT

Le problème avec la fonctionnalité « Supprimer les doublons » appliquée sur la colonne de clé, c’est qu’elle garde bien une seule ligne mais le choix est arbitraire. En fait, la fonction Table.Distinct ne garde que la première ligne qu’il trouve.

Alors, on pourrait se dire qu’il suffit d’ordonner la table selon le second critère et le tour est joué.
Mais quand on manipule de la donnée depuis un moment, on sait que les fonctions de SORT et les jeux de données ne sont pas bons amis.
Et surtout, il se peut que vous ayez des résultats incohérents en fonction de votre source.

La faute au Query Folding, sorte d’optimiseur de requête, qui peut décider de faire le tri après le DISTINCT.

Heureusement, il y a une option dans le langage M (Power Query) pour contraindre l’optimiseur de requête : la fonction Table.Buffer()

Table.Buffer permet de mettre un résultat intermédiaire en mémoire et donc de forcer l’exécution à une étape particulière. En faisant : SORT + BUFFER + DISTINCT, on force l’ordre des étapes et notre technique fonctionne.

let
  Source = #"Groups (raw)",
  #"Lignes triées" = Table.Sort(Source,{{"GroupId",Order.Ascending},{"LastUpdate", Order.Descending}}),

  LoadInMemory = Table.Buffer( #"Lignes triées" ),

  #"Doublons supprimés" = Table.Distinct(LoadInMemory, {"GroupId"})
in
  #"Doublons supprimés"

Attention : la contrainte est que le jeu de données doit tenir en mémoire, c’est le principe. Mais en règle générale, si vous êtes dans Power BI, vous êtes plutôt en mode self-service et je ne pense pas que vous récupériez tout votre Data Warehouse.

–

MS Expériences 2017, une belle conférence

2017-10-08T18:06:43Z

MS Experiences 2017 est maintenant terminée et quelle aventure.
C’est ma 10ème participation à la conférence annuelle organisée par Microsoft (auparavant les TechDays)

https://experiences17.microsoft.fr/

J’aime vraiment cette conférence, quel que soit son format. On y retrouve tout notre écosystème : partenaires, MVP, Microsoftees, clients, communautés…

Depuis 10 ans, j’ai la chance d’y être conférencier. Cette année, j’ai eu le privilège de présenter ou d’animer 4 sessions :

Transformation d’un skipper en Iron Man grâce à la réalité augmentée et aux cognitive services

Je reviendrai sur ces sessions dans des articles dédiés pour partager le contenu et mon feedback. Dans ce post, je vais plutôt me concentrer sur la conférence en elle-même.

Comme l’an dernier, la conférence se déroulait sur 2 jours, une journée plutôt business et une journée plus technique. Et autant dire que l’une et l’autre de ces 2 journées ont été très riches avec beaucoup de monde.

J’ai passé la plus grande partie au stand AZEO pour discuter avec des clients autour des sujets portés par ma Practice (Data) mais également tous les sujets d’innovation que nous portons.
J’ai beaucoup échangé autour de Power BI qui est très présent dans les esprits des entreprises, petites ou grandes. Mais également autour de la Data Science, des Cognitive Services ou encore des nouvelles expériences utilisateur (comme la Mixed Reality par exemple).

Avec AZEO, cette année, nous avions à cœur de présenter notre projet d’entreprise. Les 200 collaborateurs du groupe s’alignent derrière notre DAF, Maxime Cauwe, qui s’est engagé comme Skipper pour la prochaine Route du Rhum qui aura lieu en novembre 2018.

De nombreuses initiatives ont été lancées en interne et forcément, quand la tagline de l’entreprise est « Talents & Technology« , l’innovation est au rendez-vous. Nous avons ainsi présenté sur le stand les prémices des travaux en cours.

J’ai hâte de pouvoir vous en dire un peu plus. Je drive quelques unes de ces initiatives et j’aurai de nombreuses occasions d’en parler et même de faire quelques sessions. Affaire à suivre.

–

Slides et retour sur le Global Azure Bootcamp Paris 2017

2017-04-23T14:21:46Z

Le Global Azure Bootcamp, c’est une conférence sur les technologies Azure qui a lieu le même jour dans de très nombreuses villes autour du monde.
Il est organisé par les communautés locales. En France, c’est AZUG FR qui est aux commandes avec, pour la 5ème édition, l’organisation de l’événement dans 6 villes : Paris, Lyon, Nice, Aix-en-Provence, Strasbourg et Bordeaux.

Pour ma part, j’ai eu le privilège de présenter une session à Paris sur Azure Data Lake. J’avais déjà donné cette session au SQLSaturday de Montréal le mois dernier. J’étais cette fois-ci brillamment secondé par Fabien Adato, MVP Data Platform.

Avec Fabien, nous avons également animé un Lab de 2 heures sur Azure Data Factory et Power BI Embedded.

Azure Data Lake, le Big Data 2.0

Azure Data Lake est LA technologie « big data » maison de Microsoft. En provenance de MS Research (nom de code Cosmos), elle est utilisée en interne par les équipes X-Box, Bing, O365 depuis quelques années déjà. Cette technologie est disponible depuis l’été dernier dans Azure et s’enrichit mois après mois.
ADL, concrètement, c’est quoi ? C’est la possibilité de stocker et analyser une quantité illimitée de données et de requêter avec un nouveau langage : le U-SQL
Dans cette session, vous découvrirez Azure Data Lake et toutes les possibilités qui s’ouvrent à vous

Vous pouvez retrouver les slides de notre session sur mon Slideshare. Si vous voulez récupérer les sources (requêtes U-SQL), contactez-moi directement (@Djeepy1)

Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017) from Jean-Pierre Riehl

Questions sur Azure Data Lake

En fin de session, nous avons eu les questions suivantes auxquelles nous n’avons pas répondu totalement. Je les retranscris ici, avec les réponses évidemment.

Azure Data Lake Store (ADLS) est-il géo-redondant ?
ADLS ne dispose pas de redondance géographique entre différentes régions Azure contrairement au stockage Azure Blob. ADLS est uniquement « Locally-redudant« , c’est à dire qu’il y a de multiples copies des données dans une région Azure.
Plus d’infos : https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage

Quelle est la version de HDFS pour ADLS ?
Plus précisément, Azure Data Lake Store est compatible WebHDFS (API REST), ce qui lui permet d’être utilisé dans un cluster HADOOP HDInsight. La version de l’API est la 2.7.2.
Plus d’infos : https://docs.microsoft.com/fr-fr/rest/api/datalakestore/webhdfs-filesystem-apis

Le langage U-SQL fait-il l’objet d’une procédure de normalisation ?

Non, Microsoft n’a pas entrepris de démarches pour normaliser U-SQL comme il l’a fait pour C# auprès de l’ECMA par exemple.

A noter que U-SQL reste encore jeune et évolue très rapidement. Ce type de standardisation est à mon avis prématuré.

Auto-scaling des DLAU

Lors de l’exécution d’un job, Azure Data Lake Analytics dimensionne les ressources en fonction du plan d’exécution mais sur la base d’un maximum déclaré lors de la soumission du job (MaxDegreeOfParallelism). ADLA ne fait pas de dimensionnement au delà de la limite que vous lui donnez et je n’ai pas connaissance d’évolutions en ce sens. On est de toute façon dans un mode Batch donc un auto-scaling de ce type n’a pas vraiment de sens. Ce n’est pas comme une « fonction » qui devrait se dimensionner en fonction du flux d’appels.

Retour sur l’événement GAB

Juste quelques mots sur le Global Azure Bootcamp de Paris dont c’est ma deuxième participation. J’ai bien aimé cette conférence car elle me permet de rencontrer un public que je ne croise pas dans les conférences « Data » que j’organise avec le GUSS. Cela est très enrichissant, pour moi comme pour vous je l’espère.

J’aime bien également le côté formation avec les labs (Hands-on) qui permet d’échanger différemment avec vous, en étant très pragmatique.

Bref, un bien bel événement. Et je félicite l’équipe AZUG FR pour l’organisation en France.

–

Mise à jour d’un classeur Power Pivot depuis Excel 2010

2017-04-05T09:22:54Z

Problématique

A la mise à jour d’un classeur Excel contenant un modèle Power Pivot, dans certains cas on obtient ce message d’erreur :

Une exception de type ‘Microsoft.AnalysisServices.BackEnd.PQDataSourceAnnotationByPPException’ a été levée.

Cas de reproduction

Cette erreur arrive quand le modèle Power Pivot utilise directement une connexion Power Query du classeur.

Cette façon de faire est un contournement de la limitation de Power Query que l’on rencontre dans Office 2010. A l’époque, on devait passer par une feuille Excel (limite à 1M de ligne) en sortie de Power Query puis ensuite charger cette feuille dans le modèle Power Pivot. La solution de contournement est décrite dans cet article de Fabien Adato : http://fadata-blog.com/2016/01/19/liaison-directe-entre-power-query-et-power-pivot-avec-excel-2010-2

Quand on a utilisé cette astuce, on se retrouve avec cette erreur en migrant le classeur sur Excel 2016.

Remédiation

Il y a moyen de contourner la problématique en 2 étapes :

Faire une première migration sur un Excel 2013 (avec la même version de Power Query)
Ouvrir dans Excel 2016 et cocher la case « Charger dans le modèle» pour la requête Power Query

Si cette seconde étape n’est pas réalisée, quand on modifie(ra) la requête Power Query, la connexion sera recréée et la table Power Pivot supprimée (donc fort risque de perdre tout le modèle).

Conclusion

Il faut donc prévoir un sas de remédiation avec Excel 2013 (ainsi qu’une procédure documentée pour les utilisateurs).

–