Kai Liu, Vignesh Prabhakar, Chau Vu, Jennifer Crawford et Joseph Waite
La génération d'intégrations de graphes de connaissances (KGE) pour représenter des entités (nœuds) et des relations (arêtes) dans des ensembles de données de graphes de connaissances à grande échelle a été un problème difficile dans l'apprentissage des représentations. Cela est principalement dû au fait que les intégrations/représentations vectorielles nécessaires pour encoder l'ensemble des données dans un grand graphe hétérogène doivent avoir une dimensionnalité élevée. L'orientation d'un grand nombre de vecteurs nécessite beaucoup d'espace, ce qui est obtenu en projetant les intégrations sur des dimensions plus élevées. Il ne s'agit pas d'une solution évolutive, en particulier lorsque nous nous attendons à ce que le graphe de connaissances augmente en taille afin d'intégrer davantage de données. Tout effort visant à contraindre les intégrations à un nombre inférieur de dimensions pourrait être problématique, car un espace insuffisant pour orienter spatialement le grand nombre d'intégrations/représentations vectorielles dans un nombre limité de dimensions pourrait conduire à une mauvaise inférence sur les tâches en aval telles que la prédiction de liens qui exploitent ces intégrations pour prédire la probabilité d'existence d'un lien entre deux ou plusieurs entités dans un graphe de connaissances. C'est particulièrement le cas des grands graphes de connaissances biomédicales qui relient plusieurs entités diverses telles que les gènes, les maladies, les voies de signalisation, les fonctions biologiques, etc. qui sont cliniquement pertinentes pour l'application des KG à la découverte de médicaments. Les tailles des graphes de connaissances biomédicales sont donc beaucoup plus grandes que celles des ensembles de données de graphes de connaissances de référence typiques. Cela pose un énorme défi pour générer des représentations vectorielles/encastrements de bonne qualité pour représenter la structure sémantique latente du graphe. Les tentatives de contourner ce défi en augmentant la dimensionnalité des encastrements entraînent souvent des limitations matérielles car la génération d'un encastrement de grande dimension est coûteuse en termes de calcul et souvent irréalisable. Pour traiter concrètement la représentation de la structure latente de ces graphes de connaissances (KG) à grande échelle, notre travail propose un modèle d'apprentissage d'ensemble dans lequel le graphe de connaissances complet est échantillonné en plusieurs sous-graphes plus petits et les modèles KGE génèrent un encastrement pour chaque sous-graphe individuel. Les résultats de la prédiction de liens à partir des modèles KGE formés sur chaque sous-graphe sont ensuite agrégés pour générer un ensemble consolidé de prédictions de liens sur l'ensemble du graphe de connaissances. Les résultats expérimentaux ont démontré une amélioration significative des mesures d’évaluation basées sur le rang sur les prédictions de liens spécifiques aux tâches ainsi que sur les prédictions de liens généraux sur quatre ensembles de données graphiques de connaissances biomédicales open source.