Ce sont des données générées artificiellement par un Algorithme d’intelligence Artificielle que l’on a entraîné sur un ensemble de données réelles.
C’est un Concept majeur connu de la plupart des Data Scientists et spécialistes des modèles. En tant que carburant pour les modèles d’Intelligence Artificielle, des données de qualité sont importantes mais rares ou sensibles.
Les Données Synthétiques représentent une solution prometteuse. Ce sont des informations artificielles générées par ordinateur pour imiter les données du Monde réel.
Comment définir les Données Synthétiques :
Elles sont un clone des Données Originales.
Le Programme va créer des nouvelles Données qui ont les mêmes modèles et comportements que l’objet Original copié.
La particularité de la création de Données Synthétiques est qu’elles peuvent être utilisées pour tester l’Intelligence Artificielle sans toucher à des Données sensibles ou privées.
Dans le Domaine de la Santé par exemple, l’Intelligence Artificielle peut apprendre à partir des Données Synthétiques semblables aux Données réelles des patients, mais sans aucun risque de révéler des informations personnelles sur la Santé d’un l’individu.
Utiliser des Données Synthétiques, permet à l’Intelligence Artificielle de devenir plus « Intelligente » et avec une meilleure Intelligence Artificielle, nous pouvons obtenir des informations utiles plus efficacement.
Il y a environ dix ans et plus, les gens pensaient ridicule qu’un ordinateur puisse être plus intelligent, et accomplir toutes ces tâches les plus complexes, et pourtant aujourd’hui c’est une Super-Intelligence qui dépasse celle des Humains les plus brillants.
Les Intelligences Artificielles, sont capables de réussir des tests complexes, mieux que la plupart des Humains. Elles peuvent passer les examens médicaux, mieux que 80% des médecins.
L’intelligence Artificielle peut interpréter les Radiographies, mieux que la plupart des professionnels que le font tous les jours.
Cette évolution ne cesse que de s’accélérer, elle progresse sur le plan matériel, logiciel et en termes de Données.
Selon Elon Musk :
La nouvelle tendance est celle donc des Données Synthétiques car, nous avons épuisé tous les livres, et littéralement, toutes les sources.
Prenez l’intégralité d’internet et tous les livres puis l’ensemble des vidéos intéressantes, c’est-à-dire les vidéos pertinentes et que cet ensemble est transformé en Token, en Bit d’information, nous avons épuisé la totalité du savoir Humain dans l’entraînement de l’Intelligence Artificielle.
Pour conclure, la seule façon de compléter cela, est avec des Données Synthétiques où l’Intelligence Artificielle, va créer elle-même du contenu, écrit des essais, développe des thèses puis s’auto-évalue dans un Processus d’Apprentissage Autonome.
C’est un défi, car comment savoir si la réponse est une hallucination ou si elle est réelle. La vérité absolue est difficile à trouver, mais c’est fou que l’Intelligence Artificielle, a épuisé tout le savoir Humain disponible pour en entraînement.