Analyse de données symboliques

Un article de la désencyclopédie.

Aller à : Navigation, chercher

L' analyse de données symboliques (ADS) généralise l'analyse de données (AD, ou statistique exploratoire multidimensionnelle) à de nouveaux types de données en établissant un cadre de modélisation mathématique à base de types de données structurées allant au-delà de l'expressivité tabulaire classique. Ainsi au lieu du traditionnel « Vous reprendriez bien un peu de tableaux de brocolis et de chou-fleurs ? », prendra place un savant « Vous reprendriez bien un peu de math ? », lors d'une adresse à vos invités de soirée. La capacité à encapsuler un concept statistico-philosophique — comme la table, ou la chaise touchant le salaire minimum dans les villes d'un ensemble des fournisseurs d'un produit P1 donné — dans un objet intensionnel plutôt qu' extensionnel, dans le sens où elle rationalise la pratique de l'échantillonnage en statistique traditionnelle —, constitue une véritable clé de voûte dans la mise en œuvre des fameux treillis de Gallois.

NB : L'analyse de données symboliques n'est pas à confondre avec l'analyse symbolique de données.

Enfin, dans son effort d'exprimer une logique statistique dans son langage à lui, l'ADS constitue un outil privilégié de l'expert en connerie dans son domaine métier, car le problème se trouve exprimé dans les termes de son langage.

Sommaire

[modifier] Principe

[modifier] Analyse classique

Selon l'AD classique, chaque individu d'un ensemble à analyser se réduit à un point dans l'espace formé du produit cartésien math, celui-ci puisant ses racines dans mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath Image:mine.png mathImage:mine.pngmath Image:mine.png mathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmathImage:mine.pngmath, dont l'application standard est le Démineur.

Soit un tableau de données dans cet espace (en notant math la fonction math, avec math l'espace des "individus", ou "entités arbitraires", qui fait correspondre un individu réel à une entité purement descriptive de l'ensemble math).

math math math math math math math math math math
math 23,68 m Image:mine.png math
math 68,5 cacahuètes math
math math Image:Trisomie-21-triple.jpg
math Missing value palindrome d'anagramme = emmargana

Les déficiences de cette représentation des données sont criardes :

  • Absence de treillis de Gallois
  • Trisomie (cf. math qui correspond à la case à l'intersection de la colonne math et de la ligne math)
  • Délaissement de tout droit à la "variation interne" d'un individu (celui-ci étant le produit de mono-valeurs ou "modalités de variable"), comme sa capacité à mesurer entre 1m50 et 1m80, de chausser entre du 40 et du 70, et de fréquenter entre 1 et 1 femme[1]
  • Quadrillage par mines anti-personnelles

[modifier] Analyse symbolique

L'ADS procède de l'idée de synthétiser toutes les lignes en une seule, i.e., un macro-individu formé de l'ensemble math. Il en résulte au moins ces avancées majeures (cf. tableau symbolique en dessous) :

  • Richesse modélisatoire plus proche de la réalité, dotée d'une syntaxe ad hoc
  • Explosion de la trisomie par contact entre les chromosomes et la mine anti-personnelle
  • Abandon des stéréotypes : remarquez dans le tableau ci-dessous le remplacement des math par une allusion à l'historique « Et 1, et 2, et 3-0 ! »
Minage des espèces trisomiques
math math math math math math math math math math
math math

     68,5 cacahuètes math

Image:mine.pngImage:Trisomie-21-triple.jpg 23,68 m

palindrome d'anagramme = emmargana math Missing value

[modifier] Retour possible à l'analyse classique

L'indéniabilité de la valeur ajoutée découle immédiatement de pouvoir revenir à un codage tabulaire classique sans surmultiplication du chaos, en offrant la possibilité de faire le pont vers la théorie des bases de données relationnelles.

Dans le codage symbolique math suivant, on a représenté un triangle par ses angles grâce à une fonction introspective extra-lucide math valant 1 quand certaines sommes des angles valent exactement 180°, et à 4 fonctions venues d'une autre dimension spatio-temporelle, soient math, math, math et math :

Tableau préalablement symbolisé TA
math math math
math Somme des angles du triangle ABC = 180° et math

On a également ajouté en gras une règle d'intégrité consistant à poser que la somme des angles du triangle vaut 180°. Ceci n'est tout simplement pas possible dans une base de données relationnelle. On pourrait également rajouter d'autres règles telles que math : l'expressivité symbolique ne souffre d'aucune limitation.

Exemple de re-tabulation classique de TA
math math math
math 0 46 80
math 46 0 68,5 cacahuètes 54
math 80 54 0

L'objet symbolique TA modélise mieux notre idée du triangle selon Aristote, que le tableau ci-dessus. Pour reconnaître en effet notre triangle ABC, l'homme préfère visualiser si une projection mentale de chaque côté d'un triangle imaginaire appartient à ABC (d'où math tire son nom de fonction de reconnaissance), plutôt que comparer dans l'abstrait des matrices de lignes et colonnes. Gorky a notamment plaidé en faveur d'une approche binaire : « Oui math ! Non ! math !! Car Aga, AGAGA ! », quitte à se tromper.

[modifier] Formalisme

Soit une fonction de généralisation math, avec math associative et commutative, math l'ensemble des futures désillusions organisables dans un treillis, et math l'ensemble des parties de math. Comme sa signature de fonction l'indique, math prend deux descriptions d'individus et en synthétise un objet symbolique.

Un objet symbolique math s'exprime sous forme d'un triplet math. L'assertion logique (i.e., ayant pour résultat un degré de vérité entre le vrai et le faux) math — avec math la fonction transformant un individu en sa description, math, math, math l'ensemble des individus et math l'ensemble des descriptions — se définit comme le degré de satisfiabilité (entre 0 et 1) de math par rapport à une description math selon la relation mathématique math. math est laissé au choix de l' "expert" (généralement l'opérateur d'appartenance à un ensemble).

On note math l' extension de math, i.e., les individus "reconnus" grâce à math comme appartenant à math.

Nous posons math : ceci signifie qu'un objet symbolique math est équivalent à la description math qu'on utilise comme référence utilisée dans des "tests de satisfiabilité", de la même façon que la pénétration d'un cube dans un creux carré (ici la description-référence) est un "test de satisfiabilité" réussi. Dans un autre langage, math constitue un "filtre" mathématique. Posons math pour les besoins de la rigueur. Supposons de plus que tous les éléments math sont organisables en treillis de Gallois.

[modifier] Théorème

Énoncé
Les objets symboliques sont organisés dans un treillis de Gallois dont les éléments sont de la forme math.
Démonstration 
CQFD
Démonstration de la démonstration 
Par hypothèse math, donc S se comporte exactement comme une description, et comme les descriptions sont organisables en treillis, math aussi. CQFDD (sic)

[modifier] Treillis de concepts

La capacité à agréger un ensemble math d'objets symboliques d'ordre math en un seul objet math (d'ordre math) permet de définir un supremum de treillis résultant de l'union de modalités d'usage indispensable, comme l'heure du jour ou la luminosité ambiante.

Par exemple, soit l'objet symbolique math (math est donc ici l'opérateur d'inclusion), dont on voit immédiatement l'intérêt de se constituer en filtre de "phrases" dans l'évaluation de l'extension de math — ce filtrage se faisant sur la base du caractère diurne des phrases en entrée. Ainsi math filtre l'ensemble des phrases du répertoire indo-européen. En effet, soit math une phrase et sa description math : on voit immédiatement que math, et que donc l'extension de math ne contient pas math.

Soient les objets symboliques math et math. En posant math, et soit math le supremum de ces objets symboliques, il devient possible de modéliser des concepts poétiques tels que "chercher la nuit à midi", "entre le noir et midi, c'est 23h et le soleil", ou encore "aujourd'hui il est 14h".

On pourrait appeler math le concept de "se foutre de la gueule de son lecteur", ou encore de "prendre son lecteur pour un con". Dans tous les cas on peut intégrer cette conceptualité dans math en utilisant par exemple : math

[modifier] Propagation des concepts

Évolution de la démographie somalienne entre 1961 et 2003 (chiffre de la FAO, 2005). Population en milliers d'habitants.
Évolution de la démographie somalienne entre 1961 et 2003 (chiffre de la FAO, 2005). Population en milliers d'habitants.

S n'exprimant qu'un mode calculatoire de son extension (et n'étant pas l'extension elle-même), il peut s'appliquer à une population math arbitraire. Ainsi en Alaska, math et math car math (en clair : Michael Jackson est inclus dans le spectre de couleurs du manchot).

Devant cette incongruité, la nécessité taxonomique de faire la part entre les manchots et Michael Jackson conduit à faire de l'espace des descriptions math un espace des histogrammes à intervalles temporels, en profitant du fait qu'un manchot adulte ne change pas de couleur contrairement à la pop star. Des exemples d'histogrammes à intervalles temporels suivent :

Diagramme du taux de blancheur de Michael Jackson
Diagramme du taux de blancheur de Michael Jackson
Perspective du bonheur de Sophie entre le 20 avril 2007 et le 14 juillet 2007
Perspective du bonheur de Sophie entre le 20 avril 2007 et le 14 juillet 2007

La relation math revient alors ici à une mesure de similiarité entre histogrammes. En adoptant cette nouvelle modélisation, on déduit un objet symbolique d'extension math, qui exclue visiblement les manchots et l'avenir de Sophie qui s'annonçait plus particulièrement noir que blanc[2].

On voit que l'avenir de Sophie s'assombrit très vite. On pourra mieux s'en apercevoir en croisant ce diagramme avec celui du taux de blancheur de Michael Jackson. Bingo ! L'affinité est frappante de morbidité.

Croisement des diagrammes de Michael Jackson et de Sophie
Croisement des diagrammes de Michael Jackson et de Sophie

Si vous voulez vraiment sauver Sophie (et pas la couleur de peau de Michael) tant qu'il est encore temps, envoyez le lien de cette page à vos 10 meilleurs amis. Et en bonus, vous gagnez la possibilité de réaliser trois de vos vœux les plus chers; c'est scientifiquement prouvé par le treillis de Gallois.

[modifier] Applications

[modifier] En visualisation cognitive

La technique d'analyse symbolique calcule le supremum du treillis de Gallois dans une application de visualisation cognitive.

Partant d'une représentation graphique du Da Vinci Code en bitmap fil de fer, nous créons une carte cognitive (cognitive map) synonyme de "tableau de données" en psychologie cognitive, en dessinant un tableau de trois lignes et trois colonnes dans le plan de visualisation. Il suffit alors de fusionner dans un ordre arbitraire, généralement optimisé sur la vitesse du calcul, les lignes entre elles d'une part, et les colonnes de la ligne résultante d'autre part.

La représentation graphique du Da Vinci Code.
La représentation graphique du Da Vinci Code.
On superpose la grille des repères du futur découpage.
On superpose la grille des repères du futur découpage.
Découpage de la rangée supérieure...
Découpage de la rangée supérieure...
... et fusion avec la rangée du milieu.
... et fusion avec la rangée du milieu.
Fusion de la nouvelle rangée supérieure avec la rangée inférieure.
Fusion de la nouvelle rangée supérieure avec la rangée inférieure.
Fusions des cases latérales effectuées.
Fusions des cases latérales effectuées.

On voit immédiatement que le Da Vinci Code constitue un sujet idéal à l'extraction de symbolisme. Il le prouve à la fois dans son algorithme universel et dans sa vertu didactique sur des thèmes aussi abstraits que l'économie spatiale, ouvrant ainsi de nombreuses perspectives en matière d'éducation scolaire au second cycle.

[modifier] En cuisine

L'ADS a des utilisations pratiques en cuisine, en particulier dans la mise au point de recettes traditionnelles par étapes (i.e., en plusieurs points organisés chronologiquement en séquence), comme celle de la tarte à poires :

math math math math math
math Préchauffez le four à 180°C.
math un moule rond à bords hauts et coupez les poires en deux.
math Garnissez avec la pâte. Lavez, pelez,
math Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l' armagnac.
math Nappez le fond de la pâte avec la crème, puis disposez légèrement dans
math Enfournez les demi-poires en fleur en enfonçant la crème.
math le tout les 30 mn.

Ce qui donne en langage symbolique, par synthèse d'un objet symbolique math syncrétique :

math
math
  • Préchauffez le four à 180°C.
  • Garnissez un moule rond à bords hauts avec la pâte. Lavez, pelez, et coupez les poires en deux .
  • Mélangez dans un bol la crème, le jaune d'œuf, le sucre, la poudre d'amandes et l'armagnac.
  • Nappez le fond de la pâte avec la crème, puis disposez les demi-poires en fleur côté bombé sur le dessus en les enfonçant légèrement dans la crème.
  • Enfournez le tout 30 mn.

Les objets symboliques sont à l'origine des fiches pratiques de recettes culinaires de ta grand-mère, et aussi à l'origine de ta mère tout court.

[modifier] Voir aussi

[modifier] Notes

  1. Tu vois Marietta, je ne te trompe pas.... Comment ça tu t'appelles pas Marietta ? Aïe !! Mais ça va pas ?!
  2. On rassure tout de suite le lectorat : le cadavre a été retrouvé très pâle.
  Portail des Sciences sérieuses

<poll>Qu'avez-vous pensé de l'article "Analyse de données symboliques" ? Parfait Poilant ! Encore à développer ou retravailler, pleaaaase Nullissime Inadmissible : à réécrire ou effacer. Je suis pas encore assez autonome pour me faire une opinion (promis: je mets mon âge dans la page de discussion). </poll>