Informations

Motifs dans les réseaux non dirigés

Motifs dans les réseaux non dirigés


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai un réseau non dirigé et j'analyse actuellement à la fois trois et quatre motifs de nœuds dans le réseau. Cependant, je ne trouve aucun article décrivant la signification biologique de 3 des 4 motifs de nœuds de mon réseau. En comparant avec des réseaux générés aléatoirement, je suis en mesure de déduire que le nombre de trois motifs de nœuds et de 4 motifs de nœuds est significativement plus élevé. Cependant, je ne suis pas en mesure d'inférer une quelconque signification biologique pour cette découverte.


Je ne suis pas sûr à 100 % de comprendre la question, mais je vais essayer d'y répondre en me basant sur les hypothèses suivantes :

  1. Le "nombre de motifs à 3 et 4 nœuds" n'est pas très clair. Si je comprends bien, il devrait s'agir d'une quantité déterminée en grande partie par la distribution des degrés. Vous pourriez recâbler votre réseau pour perdre toutes les informations sur le TRN autres que la distribution des degrés et ce nombre est probablement très similaire (ou c'est un réseau assez étrange, ce qui me rendrait méfiant des données).
  2. Par conséquent, le nombre de tels motifs de taille $k$ n'est pas particulièrement intéressant biologiquement, notamment en raison de problèmes techniques tels que la détermination incomplète des bords, etc. Le vrai réseau peut avoir beaucoup plus de bords, et cela changera ce nombre, donc le la distribution des degrés n'est pas intéressante en elle-même - c'est en fait la chose que vous voulez contrôler.
  3. Par conséquent, lorsque vous comparez avec des réseaux générés aléatoirement et trouvez différents nombres de motifs de nœuds $k$, je soupçonne que les réseaux aléatoires ont été générés avec une distribution de degrés différente. (Il est assez facile de générer des réseaux de distribution de même degré, en utilisant par exemple lerecâbler()fonction dans igraph)
  4. Par conséquent, j'interprète la question comme étant plus spécifiquement : « Parmi les 3 et 4 motifs de nœuds, un sous-ensemble est surreprésenté dans mon TRN par rapport aux graphiques aléatoires de même distribution de degré. Quelles sont les façons d'interpréter ces motifs ? » C'est le genre de question qui est traditionnellement posée avec les TRN dans mon expérience.

Comme exemple de la façon dont d'autres groupes ont analysé les motifs TRN, je suggère de regarder les figures 5 et 6 de cet article. Par exemple, le motif « feed-forward » est surreprésenté pour les liens impliquant certains TF. Je crois qu'il est standard de comparer les distributions de motifs à d'autres réseaux biologiques, tels que le réseau neuronal de C. elegans. Il y a des références dans l'article de Cell qui pourraient probablement vous aider davantage. L'article de wikipedia sur les motifs de réseau semble également avoir des informations, et il existe d'autres ressources sur Internet si vous google.

Bien qu'il n'y ait pas nécessairement une interprétation biologique stricte de ces motifs, ils peuvent néanmoins être informatifs pour identifier des modèles spécifiques propres à différents TF ou régulateurs principaux.

Caveat Il est possible que j'aie mal compris la question ou que j'aie fait de mauvaises hypothèses - ma théorie des graphes est superficielle. Mais si je me trompe et que vous vous intéressez en fait au nombre simple de motifs de taille $k$, cette observation est intéressante en tant que problème théorique "J'ai un graphique bizarre", et non en tant que problème "C'est biologiquement intéressant". En tant que biologiste, je me soucierais beaucoup plus des motifs spécifiques de taille $k$ que vous avez, plutôt que du nombre total de tous les motifs de taille $k$.

Par contre, en oubliant un instant les motifs, un réseau "bizarre" pourrait être assez topologiquement intéressant biologiquement. Par exemple, vos différents composants groupés s'associent-ils à différents éléments de la biologie, comme le métabolisme du sucre par rapport à la morphogenèse ? On s'y attendrait, mais cela a très peu à voir avec les motifs - ils peuvent simplement être un effet secondaire de cette topologie fonctionnelle. Dans ce cas, ce ne serait pas seulement la distribution des degrés, mais aussi cette topologie que vous auriez à contrôler pour faire des déclarations intéressantes sur les motifs.

Bonne chance!


Détection et évaluation de motifs de réseaux biologiques

Le niveau moléculaire des données biologiques peut être intégré au niveau système des données sous forme de réseaux biologiques. Les motifs de réseau sont définis comme de petits sous-graphes connectés surreprésentés dans les réseaux et ils ont été utilisés pour de nombreuses applications biologiques. Étant donné que la découverte de motifs de réseau implique des processus informatiques difficiles, les algorithmes précédents se sont concentrés sur l'efficacité de calcul. Cependant, nous pensons que la qualité biologique des motifs de réseau est également très importante.

Résultats

Nous définissons motifs de réseaux biologiques en tant que sous-graphes biologiquement significatifs et motifs de réseau traditionnels sont différenciés en tant que motifs de réseau structurels dans cet article. Nous développons cinq algorithmes, à savoir, E DGE GO-BNM , E DGE B ETWEENNESS-BNM , NMF-BNM , NMFGO-BNM et V OLTAGE-BNM , pour une détection efficace des motifs de réseaux biologiques, et introduisons plusieurs mesures d'évaluation, notamment motifs inclus dans le complexe, motifs inclus dans le module fonctionnel et Score de regroupement de termes GO Dans cet article. Les résultats expérimentaux montrent que E DGE GO-BNM et E DGE B ETWEENNESS-BNM fonctionnent mieux que les algorithmes existants et tous nos algorithmes sont également applicables pour trouver des motifs de réseau structurel.

Conclusion

Nous proposons de nouvelles approches pour trouver des motifs de réseau dans les réseaux biologiques. Nos algorithmes détectent efficacement les motifs de réseaux biologiques et améliorent encore les algorithmes existants pour trouver des motifs de réseaux structurels de haute qualité, ce qui serait impossible avec les algorithmes existants. Les performances des algorithmes sont comparées sur la base de nos nouvelles mesures d'évaluation dans des contextes biologiques. Nous pensons que notre travail donne quelques lignes directrices pour la recherche de motifs de réseau pour les réseaux biologiques.


Introduction

Des systèmes relationnels complexes de différents domaines, tels que la biologie, la sociologie ou l'économie, peuvent être systématiquement analysés à l'aide de leurs représentations en réseau. UNE réseau (également connu sous le nom de graphique) est composé de nœuds et d'arêtes, où nœuds représenter les entités dans le système et bords représentent les relations entre ces entités. Selon le type de relations représentées, les paires de nœuds qui forment les arêtes peuvent avoir un certain ordre, auquel cas le réseau résultant est appelé dirigé. Par exemple, dans les réseaux de neurones biologiques et de synapses (également appelés connectomes neuronaux [1]), les nœuds correspondent à des neurones individuels, tandis que les bords dirigés entre les nœuds représentent (typiquement) l'existence de synapses chimiques qui permettent les communications entre les neurones [2]. Les schémas de câblage des réseaux mettent en lumière les mécanismes fonctionnels des systèmes complexes analysés et, par conséquent, l'analyse de la structure des réseaux suscite un intérêt croissant de la part de différentes disciplines.

Cependant, de nombreux problèmes d'analyse de réseau sont insolubles en termes de calcul [3]. Par conséquent, les seules solutions disponibles sont basées sur des approximations des solutions exactes de ces problèmes. Propriétés du réseau qui décrivent différentes caractéristiques de câblage des réseaux sont utilisés à cette fin. Par exemple, étant donné deux réseaux sans aucun étiquetage sur les nœuds, le problème de trouver toutes les paires de nœuds qui ont des schémas de câblage identiques dans les deux réseaux est un problème informatiquement insoluble. Cependant, ce problème peut être simplifié en calculant le degrés (c'est-à-dire le nombre de voisins d'un nœud) de tous les nœuds et en utilisant les statistiques de degré pour comparer les nœuds. Même si les correspondances résultantes ne sont pas garanties d'avoir des schémas de câblage identiques, ces correspondances réduiraient considérablement la taille de l'espace de recherche. L'espace de recherche peut être encore réduit en calculant d'autres propriétés de réseau qui capturent différents types de modèles d'interaction, par exemple, en utilisant les similitudes de coefficients de regroupement qui mesurent la tendance des nœuds à former des interactions triangulaires [4].

Différent sous-graphes d'un réseau peut être obtenu à partir de différents sous-ensembles de ses nœuds et de ses bords. De nombreuses propriétés du réseau dépendent en effet des propriétés des sous-graphes des réseaux, par exemple, le coefficient de regroupement est défini sur la base des sous-graphes à trois nœuds d'un réseau dans lequel tous les nœuds sont connectés les uns aux autres en formant un triangle. Dans un connecté sous-graphe, tous les nœuds sont accessibles à partir de n'importe lequel des autres nœuds du sous-graphe. Un sous-graphe est induit (aussi connu sous le nom nœud induit) s'il est imposé que toutes les arêtes entre le sous-ensemble de nœuds choisi sont incluses dans le sous-graphe. Les sous-graphes qui ne portent pas la propriété induite sont appelés partiel (aussi connu sous le nom bord induit) sous-graphes. Par exemple, un nœud à 3 clique contient 3 sous-graphes à deux chemins différents (les sous-graphes à deux chemins sont ceux qui contiennent 3 nœuds et 2 arêtes) lorsque les propriétés de sous-graphes partiels sont prises en compte. Cependant, un tel graphe ne contient aucun sous-graphe à deux chemins lorsque les propriétés de sous-graphe induites sont prises en compte.

Les modèles triangulaires dans les réseaux sont couramment utilisés pour analyser la topologie du réseau. Dans les réseaux non dirigés, le coefficient de regroupement d'un nœud est calculé en divisant le nombre de triangles autour du nœud par le nombre de paires différentes de ses voisins [5]. Coefficient de regroupement moyen explique le regroupement (triangulation) au sein d'un réseau en faisant la moyenne des coefficients de regroupement de tous ses nœuds. L'extension du coefficient de regroupement aux réseaux dirigés n'est pas triviale car il existe deux types différents de sous-graphes triangulaires orientés, l'un étant un sous-graphe cyclique (m =𠂥 sur les figures 1 et ​ et2) 2 ) et l'autre étant un sous-graphe acyclique (m =𠂩 sur les figures 1 et ​ et2). 2 ). Sur la base du décompte des quatre rôles de nœuds distincts sur ces deux sous-graphes (c'est-à-dire, et 18 dans les Fig. 1 et ​ et2), 2 ), la définition du coefficient de clustering a été étendue au cas dirigé [4], [6]. Une métrique différente pour quantifier le clustering de réseau connue sous le nom de transitivité est calculé en considérant chaque combinaison possible de trois nœuds dans un réseau, et en comptant combien de ces triades sont mutuellement connectées par trois arêtes, normalisé par le nombre de triades avec au moins deux arêtes [7]. Il est similaire au coefficient de clustering, mais contrairement à cette métrique, il ne s'agit pas d'une moyenne de clustering local spécifique au nœud. La transitivité est généralement utilisée pour les réseaux non orientés plutôt que pour les réseaux orientés, mais une expression pour la transitivité dirigée est donnée dans [8].

Un réseau dirigé est supposé. L'étiquette numérique pour chaque motif (notée par l'étiquette m) est identique à celui utilisé dans [9]. Chaque motif-rôle distinct au sein de chaque motif est indiqué par des couleurs différentes et l'étiquette numérique à côté de chaque nœud. L'étiquette numérique fournie pour chaque motif-rôle est représentée par l'étiquette dans le texte et dans la Fig. 2, où .

La première colonne décrit les 9 rôles distincts sur les motifs fonctionnels. Chaque ligne montre chaque motif à trois nœuds dans lequel apparaît le rôle correspondant (indexé par ), et la pluralité avec quel motif-rôle apparaît dans le motif (voir Méthodes). Les cercles remplis de noir indiquent les nœuds en motif qui jouent le rôle du motif (voir aussi la figure 1). Les équations indiquées pour chaque rôle, r, sont les entrées de la matrice fonctionnelle d'empreintes de motif-rôle, , où désigne le produit Hadamard, est un matrice de colonnes unitaires, est le matrice d'identité, et est la matrice des arêtes réciproques.

Des travaux récents sur les propriétés des réseaux utilisent les statistiques de toutes les configurations de sous-graphes connectés observables comme descripteurs détaillés du câblage dans les réseaux [9], [10]. Motifs de réseau ont été définis à l'origine comme les modèles de sous-graphes partiels d'un réseau qui apparaît plus fréquemment que prévu à partir d'un modèle de réseau ’null-hypothesis’ qui préserve la distribution des degrés du réseau d'entrée, ou d'autres propriétés statistiques [9], [11]– [15]. Les motifs de réseau sont définis pour les réseaux dirigés et non dirigés, couvrant tous les modèles de sous-graphes observables sur des ensembles de nœuds dont la dimension va de 2 à m. Les motifs de réseau ont été utilisés pour analyser les structures de réseau d'un large éventail de réseaux, tels que ceux du connectome neuronal de C. elegans [16]–[20]. En pratique, les analyses de motifs de réseau sont effectuées avec des motifs de sous-graphes à 3 nœuds en raison du coût de calcul élevé de l'étape de génération de modèle nul pour les sous-graphes plus grands, tous les motifs de sous-graphes à 3 nœuds dirigés sont illustrés sur la Fig. 1 .

Un autre groupe de propriétés de réseau basées sur le nombre de sous-graphes a été étudié dans le contexte de graphlets� sont de petits sous-graphes connectés, non isomorphes et induits d'un grand réseau [10]. Il existe trois différences majeures entre les motifs de réseau et les graphlets :

les motifs de réseau représentent des sous-graphes partiels tandis que les graphlets sont basés sur des sous-graphes induits

les motifs de réseau dépendent d'un modèle de réseau nul donné tandis que les graphlets sont complètement indépendants de toute hypothèse nulle et

les graphlets ne sont définis que pour les graphes non orientés, tandis que les motifs de réseau sont également définis pour les graphes orientés.

Le nombre de fois où chaque graphlet apparaît dans un réseau décrit la topologie du réseau [10]. Actuellement, la méthode la plus avancée pour décrire la topologie d'un réseau non orienté est basée sur les dépendances entre différents graphlets [21].

Les propriétés de sous-graphe ne sont pas seulement utiles pour décrire la topologie des réseaux, mais elles peuvent également être utilisées pour décrire le câblage local autour des nœuds. Par exemple, le degré décrit le câblage autour d'un nœud en comptant le nombre d'arêtes touchant le nœud. En remplaçant les arêtes par des sous-graphes de chaque type dans cette définition, le câblage local autour d'un nœud peut être décrit par le nombre de motifs de sous-graphes auxquels le nœud participe. Bien que ces statistiques de sous-graphes sur les nœuds puissent être calculées sans imposer aucune orientation aux sous-graphes [8 ], [22], un nœud rôle dans le réseau peut être caractérisé plus précisément en introduisant de telles contraintes d'orientation basées sur les symétries au sein des sous-graphes [23]–[25]. Par exemple, comme illustré sur la figure 1 de [23], et la figure 1 ici, il y a 30 motifs-rôles uniques sur les configurations de sous-graphes dirigés à 3 nœuds. Przulj [25] identifie le orbites (c'est-à-dire les nœuds qui ont des schémas de câblage identiques dans les graphlets) de tous les graphlets de 2 à 5 nœuds et utilise ces orbites pour décrire le câblage autour d'un nœud en définissant degré graphlet, qui est le nombre de graphlets qui touchent un nœud sur une orbite. De plus, le vecteur contenant les degrés de graphlet de toutes les 73 orbites de graphlets de 2 à 5 nœuds est appelé le vecteur de degré graphlet et appliqué avec succès pour identifier les similitudes de câblage entre les nœuds d'un réseau, et aussi, entre les nœuds de différents réseaux [26], [27]. Il a été avancé que l'analyse des données du connectome neuronal devra prendre en compte l'hétérogénéité référencée aux nœuds [28]–[30], telle que mesurée par le degré de graphlet. Une autre application possible est l'analyse des réseaux génétiques [31].

La terminologie sur les propriétés des sous-graphes n'est pas bien définie, certaines études utilisant indifféremment les termes “subgraphs”, “network motifs” et “graphlets”. Afin d'éviter toute confusion, nous utilisons le terme “motifs fonctionnels” pour représenter les propriétés partielles du sous-graphe (par exemple, les propriétés de motif de réseau définies dans [9]), et “motifs structurels” pour représenter les propriétés de sous-graphe induites (par exemple, les propriétés de graphlet définies dans [10], [25]) d'une manière cohérente avec [8]. Les motifs structuraux quantifient les briques anatomiques, tandis que les motifs fonctionnels représentent les modes de traitement élémentaires des réseaux [22]. Cette distinction entre les propriétés structurelles et fonctionnelles des sous-graphes a des implications différentes pour les réseaux neuronaux : les motifs structurels décrivent toutes les synapses parmi un sous-ensemble spécifique de neurones. En revanche, les motifs fonctionnels peuvent décrire, par exemple, des modèles potentiels d'activations synaptiques réelles se produisant (presque) simultanément parmi un sous-ensemble spécifique de neurones. On s'attend à observer une corrélation entre les propriétés structurelles et fonctionnelles des sous-graphes dans une certaine mesure. Même si c'est le cas, les caractéristiques de câblage qui peuvent être capturées par ces deux types de sous-graphes diffèrent. Par exemple, l'importance d'un nœud dans les réseaux en tant que 𠆋roker’ (par exemple, dans la figure 2 ) ne peuvent être capturés que par des motifs structurels puisque les motifs fonctionnels considèrent également les cas où le nœud apparaît comme des rôles ou 19 (Fig. 2). Dans ces cas, le nœud de référence n'est pas un courtier en raison de la limite entre les deux autres nœuds.

Pour les motifs structurels et fonctionnels, nous considérons quatre types différents de propriétés de réseau dérivées de la fréquence de sous-graphe, comme suit :

Métriques globales: Ces métriques visent à décrire la topologie d'un réseau entier.

Comptes de motifs: La topologie d'un réseau peut être décrite par le nombre de sous-graphes qui apparaissent dans le réseau. Nous utilisons le terme nombre de motifs pour représenter ces statistiques de réseaux. Différente de la définition originale des motifs de réseau [9] (mais cohérente avec l'utilisation dans [8]), nos statistiques de motifs sont indépendantes de toute comparaison avec le modèle de réseau à hypothèse nulle. Pour un réseau donné, les nombres de motifs correspondants forment un M vecteur dimensionnel, chaque valeur représentant le compte pour l'un des M sous-graphes.

Nombre de motifs-rôles: La topologie d'un réseau peut également être décrite en termes de rôles au sein de sous-graphes. Nous utilisons le terme nombre de motifs-rôles pour représenter le nombre de fois qu'un rôle de motif donné apparaît dans un réseau. Le nombre de motifs-rôles peut être obtenu directement en mettant à l'échelle les nombres de motifs en fonction du nombre de fois où le motif-rôle apparaît dans le sous-graphe correspondant. Pour un réseau donné, les nombres de motifs-rôles correspondants forment un L vecteur dimensionnel, chaque valeur représentant le nombre de fois qu'un des L les rôles de nœud apparaissent dans le réseau.

Métriques référencées aux nœuds: Ces métriques visent à décrire la topologie locale autour d'un nœud du réseau.

Empreintes digitales: Le câblage autour d'un nœud dans un réseau peut être décrit par le nombre de motifs de sous-graphes auxquels il participe, indépendamment de la position (c'est-à-dire du rôle) sur ces sous-graphes. De telles statistiques ont été qualifiées motif d'empreintes digitales [8], [22]. Pour chacun des N nœuds dans un réseau donné, les empreintes de motifs correspondantes sont M vecteurs dimensionnels, chaque valeur correspondant au compte de l'un des M sous-graphes auxquels le nœud participe.

Empreintes digitales motif-rôle: Le câblage autour d'un nœud dans le réseau peut être décrit plus en détail par le nombre de sous-graphes qui touchent le nœud à une orientation spécifique (c'est-à-dire sur un rôle de nœud dans le sous-graphe). Nous appelons des statistiques telles que empreintes de motif-rôle. Pour chacun des N nœuds dans un réseau donné, les empreintes de motif-rôle correspondantes sont L vecteurs dimensionnels, chaque valeur correspondant au nombre de sous-graphes qui touchent un nœud à l'un des L positions de rôle de nœud.

Dans cette étude, nous explorons les relations entre tous ces différents types de statistiques de sous-graphes (voir Fig. 3 ). Tout d'abord, nous présentons des moyens efficaces de calculer les empreintes fonctionnelles motif-rôle d'un réseau dirigé donné. Deuxièmement, nous montrons que les statistiques de motifs structurels peuvent être dérivées des statistiques de motifs fonctionnels et vice versa. Cette transformation permet un calcul efficace des empreintes de motif structurelles qui sont plus coûteuses en calcul à obtenir. Troisièmement, nous montrons que les empreintes motif-rôle sont les plus fondamentales et les plus informatives de toutes les autres métriques de sous-graphes. Nous identifions les transformations qui dérivent toutes les autres statistiques de sous-graphes (c. Quatrièmement, nous discutons des relations entre les empreintes motif-rôle et les coefficients de regroupement dirigé et les transitivités, et montrons comment ceux-ci peuvent être dérivés des empreintes motif-rôle. Enfin, nous illustrons les applications de ces transformations sur le connectome neuronal de c. elegans.

Les flèches indiquent que les métriques peuvent être dérivées d'autres métriques et les nombres entre parenthèses font référence à des équations dans le texte qui décrivent mathématiquement ces dépendances. Le côté gauche de la figure répertorie les métriques qui comptent les sous-graphes, tandis que le côté droit montre les métriques qui sont des ratios de nombres de sous-graphes. La moitié supérieure de la figure montre des métriques qui sont des nombres de sous-graphes référencés par nœud, tandis que la moitié inférieure montre des métriques qui sont des nombres de sous-graphes globaux.


Tout d'abord, nous chargeons le package.

Visualisez un réseau à plusieurs niveaux

Le réseau suivant est un exemple de réseau issu d'une analyse empirique de la gestion des zones humides en Suisse. Il se compose de deux niveaux - un niveau spécifie un réseau de relations entre les acteurs. Un deuxième niveau spécifie un réseau de relations entre différentes activités se déroulant dans la zone humide, basé sur l'interdépendance causale entre les activités. Les liens entre les niveaux précisent quels acteurs réalisent quelles activités.

Il est possible de spécifier des dispositions pour chaque niveau de réseau séparément. En dessous, un niveau est tracé sur la base d'une disposition en cercle, le second sur la base de Kamada-Kawai.

motifr fournit un point de départ fiable pour la visualisation de réseau à plusieurs niveaux, mais se concentre sur l'analyse des motifs en son cœur. Pour une visualisation avancée des réseaux à plusieurs niveaux, nous vous recommandons d'associer ggraph et graphlayouts. Cet article de blog constitue une excellente introduction.

Sélection de motifs

Voir la vignette sur le zoo de motifs ( vignette("motif_zoo") ) pour plus de détails sur la nomenclature des motifs (chaînes d'identifiant de motif). Nous recommandons fortement l'utilisation de deux fonctions d'assistance implémentées dans motifr pour s'assurer que le logiciel interprète l'identifiant de motif fourni comme prévu par l'analyste.

utilisez explore_motifs () pour lancer une application brillante où tous les motifs mis en œuvre pour l'analyse avec le motif peuvent être affichés. Vous pouvez transmettre votre propre réseau à explore_motifs() pour voir ce que les motifs signifient exactement pour vos données. Par exemple, si votre réseau est stocké dans un objet nommé my_net avec un attribut de niveau lvl, vous pouvez explorer des motifs à l'intérieur de manière interactive en utilisant explore_motifs(net = my_net, lvl_attr = "lvl") . Sachez que si votre réseau ne contient pas de motif spécifique, il ne pourra pas être affiché.

vérifiez un motif d'intérêt spécifique à l'aide de show_motif() , qui illustrera le motif dans un exemple de réseau factice ou, si vous passez un objet réseau à la fonction, dans votre réseau. show_motif() est particulièrement utile pour explorer l'impact de la correspondance de position (voir vignette("motif_zoo") pour plus de détails).

Compter les motifs

Les motifs peuvent être comptés à l'aide de la fonction polyvalente count_motifs() . Il prend comme paramètres un réseau statnet ou un objet graphique igraph (utilisez ml_net ou dummy_net fournis par ce paquet comme exemples) et une liste d'identifiants de motifs (voir ci-dessous) spécifiant les motifs.

Voyons rapidement deux exemples classiques de motifs à trois nœuds et à deux niveaux (triangles ouverts et fermés) dans le réseau de gestion des zones humides présenté ci-dessus :

Comptons le nombre de ces motifs dans l'ensemble du réseau.

Une approche exploratoire peut être adoptée en appelant motif_summary() . Cette fonction compte les occurrences de quelques motifs de base. De plus, il calcule les attentes et les variances pour l'occurrence de ces motifs dans un modèle modifié d'Erdős-Rényi ou dit "choix de l'acteur". Voir le package vignette("random_baselines") pour plus de détails.

Identifier les lacunes et les bords critiques

motifr permet d'identifier les lacunes et les bords critiques dans les réseaux multi-niveaux. Ceci est motivé par les théories de l'ajustement fonctionnel et de l'inadéquation dans les réseaux, qui postulent que certains motifs sont particulièrement précieux pour les résultats du réseau (selon le contexte).

Par rapport aux lacunes, on peut donc essayer d'identifier des arêtes potentielles qui créeraient un grand nombre d'un même motif s'ils venaient à exister (« activés » ou « retournés »). Le nombre de tels motifs créés par un bord est leur contribution. Par exemple, nous pouvons obtenir toutes les arêtes qui créeraient des triangles fermés ( "1,2[II.C]" ), y compris les informations sur le nombre de triangles qu'elles créeraient pour le réseau d'études de cas des zones humides :

Nous pouvons également tracer ces écarts de différentes manières dans notre réseau, y compris l'option de ne regarder que les écarts au-dessus d'un certain poids (contribution) et différents niveaux de concentration pour n'afficher que les nœuds impliqués dans de tels écarts. Ici encore pour le réseau de gestion des zones humides, ne montrant que les lacunes avec un poids supérieur à 5 et sous-situant le niveau où nous analysons les lacunes pour ne contenir que les nœuds impliqués dans les lacunes.

identifier_gaps a un frère dans Critical_dyads . Critical_dyads fonctionne à l'envers pour identifier les lacunes - il analyse pour chaque bord existant combien d'instances d'un motif donné disparaîtraient si le bord devait être supprimé. Ci-dessous, un exemple montrant des dyades critiques dans une parcelle du réseau d'exemples de gestion des zones humides complet.

Comparer l'occurrence du motif à un modèle de base

Motifr peut être utilisé pour simuler une ligne de base de réseaux à comparer. Les comptes de motifs dans un réseau empirique peuvent ensuite être comparés à la distribution des comptes de motifs dans les réseaux simulés à partir du modèle de base. Quatre manières différentes de spécifier des modèles pour les distributions de base sont implémentées dans le motif, depuis un modèle Erdős-Rényi de base jusqu'à la possibilité de fournir un modèle de graphe aléatoire exponentiel (ERGM) adapté pour tirer des simulations. Voir vignette("random_baselines") pour plus de détails.

À titre d'illustration, nous simulons ici des réseaux à partir d'un modèle de référence « choix de l'acteur » comme référence pour comparer le nombre de triangles ouverts et fermés dans le réseau de gestion des zones humides. Ce modèle maintient tous les liens fixes sauf les liens à un niveau spécifique. A ce niveau (ici fixé en fixant le niveau à 1, qui est le niveau de l'acteur dans ce réseau), les liens sont autorisés à varier en fonction d'un modèle de probabilité fixe (Erdős-Rényi).

Nous constatons que les triangles ouverts se produisent beaucoup moins fréquemment et les triangles fermés beaucoup plus souvent que dans le modèle de base.

C'est un résultat sans surprise - tout le reste aurait été préoccupant. Cela indique que les acteurs ont tendance à fermer des triangles entre les niveaux avec d'autres acteurs travaillant sur les mêmes tâches de gestion des zones humides beaucoup plus souvent par rapport à ce qui serait attendu s'ils choisissaient simplement des partenaires de collaboration aléatoires. Nous nous attendrions à une telle « adéquation à la tâche » dans un réseau d'organisations professionnelles travaillant dans la gestion des zones humides. Nous soulignons cette interprétation parce que nous voulons souligner que les modèles de base doivent être jugés très soigneusement pour ce qu'ils représentent substantiellement. C'est pourquoi le motifr permet une variété de configurations de modèle de base (y compris des objets ergm ajustés).


Identification de nœuds importants dans les réseaux biologiques dirigés : une approche par motif de réseau

L'identification des nœuds importants dans les réseaux complexes a attiré une attention croissante au cours de la dernière décennie. Diverses mesures ont été proposées pour caractériser l'importance des nœuds dans les réseaux complexes, telles que le degré, l'intermédiarité et le PageRank. Différentes mesures prennent en compte différents aspects des réseaux complexes. Bien qu'il existe de nombreux résultats rapportés sur les réseaux complexes non dirigés, peu de résultats ont été rapportés sur les réseaux biologiques dirigés. Basé sur des motifs de réseau et une analyse en composantes principales (ACP), cet article vise à introduire une nouvelle mesure pour caractériser l'importance des nœuds dans les réseaux biologiques dirigés. Des recherches sur cinq réseaux biologiques du monde réel indiquent que la méthode proposée peut identifier de manière robuste les nœuds réellement importants dans différents réseaux, tels que la recherche d'interneurones de commande, de régulateurs mondiaux et de nœuds réellement importants conservés non-hub mais évolutifs dans les réseaux biologiques. Les courbes des caractéristiques de fonctionnement du récepteur (ROC) pour les cinq réseaux indiquent une précision de prédiction remarquable de la mesure proposée. L'indice proposé fournit une métrique de réseau complexe alternative. Les implications potentielles des enquêtes connexes incluent l'identification des cibles de contrôle et de régulation des réseaux, la modélisation et l'analyse des réseaux biologiques, ainsi que la médecine en réseau.

Déclaration de conflit d'intérêts

Intérêts concurrents : Les auteurs ont déclaré qu'il n'existe aucun intérêt concurrent.

Les figures

Figure 1. Un réseau biologique du monde réel et…

Figure 1. Un réseau biologique du monde réel et quelques motifs de réseau.

(a) Une transcriptionnelle du développement de la drosophile…

Figure 2. Un exemple illustratif.

Figure 2. Un exemple illustratif.

(a) Un réseau simple à six nœuds. (b) Sous-graphes qui…

Figure 3. Analyse de cluster pour les…

Figure 3. Analyse de cluster pour les 30 premiers nœuds identifiés dans les cinq réseaux sur la base de…

Figure 4. Courbes ROC basées sur le…

Figure 4. Courbes ROC basées sur les informations disponibles dans le CEN et l'ECT.

Figure 5. Évaluation de je marquer via…

Figure 5. Évaluation de je score via des courbes ROC avec des étalons de référence composites pour le…

Figure 6. Quartiers topologiques de plusieurs nœuds.

Figure 6. Quartiers topologiques de plusieurs nœuds.

(a) Voisinage topologique d'un hub mais pas…

Figure 7. Les courbes de densité de connectivité…

Figure 7. Les courbes de densité de connectivité par rapport à différentes mesures de classement dans l'ECT…


Méthodes

Nous commençons par décrire une méthode qui calcule le nombre de F1 et F2 pour un motif donné dans un réseau statique. Ensuite, nous décrivons les opérations de réseau possibles qui modifient la topologie des réseaux et discutons de la façon de mettre à jour dynamiquement le nombre de F1 et F2 pour chacune de ces opérations.

Comptage de motifs dans les réseaux statiques

Supposons qu'on nous donne une topologie de motif notée par P. Étant donné un graphique g, nous voulons calculer le nombre de F1 et F2 de modèle P dans g. Notons l'ensemble de tous les plongements de P dans g avec S. On note la cardinalité de l'ensemble S (c'est à dire., F1 compte de P) avec |S|. Rappelons que le F2 nombre de motif P est la cardinalité de l'ensemble maximal de plongements où deux plongements ne partagent pas d'arêtes. On note un tel ensemble avec (S^<'>phantom !>) . Pour calculer le F2 compte de P, nous introduisons le concept de graphique de chevauchement, qui est propre à P et g. Notons le graphe de chevauchement par (phantom !>G^=(V^, E^)) . Ici, chaque nœud de V o correspond à un encastrement de P répertorié dans S. Notons la relation entre les nœuds de V o et les encastrements dans S avec une fonction de bijection ??:V oS. Chaque bord (vous,v) ∈ E o indique que les deux encastrements ??(vous) et ??(v) partagent au moins une arête.

Nous utilisons le graphe de chevauchement pour générer l'ensemble de plongement maximal et sans chevauchement (S^<'>phantom !>) de manière itérative. On trouve d'abord le nœud vousV o avec le plus petit degré. S'il y a plusieurs nœuds avec le même degré le plus petit, nous en sélectionnons un au hasard. On insère le plongement correspondant ??(vous) dans (S^<'>phantom !>) . Depuis (S^<'>phantom !>) ne contient que des plongements qui ne se chevauchent pas, nous supprimons le nœud vous de V o avec tous les nœuds vV o , tel que (vous,v) ∈ E o . Nous répétons ce processus pour remplir (phantom !>S^<'>) jusqu'à V o devient l'ensemble vide.

Comptage de motifs dans les réseaux dynamiques

Notons le réseau donné par g=(V,E). Notons également la topologie du réseau après la jee insertion ou suppression du bord avec g je=(V,E je). Ainsi, nous avons g0=g et je≥0,|E jeEje−1|=1. Étant donné une topologie de motif désignée par motif M, on calcule le F1 et F2 chefs d'accusation M dans le réseau initial g0 en utilisant la méthode décrite dans la sous-section « Comptage de motifs dans les réseaux statiques ». Comme le réseau g évolue (c'est-à-dire que de nouvelles arêtes sont ajoutées et/ou supprimées), le nombre de F1 et F2 de M Peut changer. Ensuite, nous montrerons un algorithme pour mettre à jour efficacement le F1 et F2 compte au fur et à mesure que le réseau évolue de g je à gje+1je0. En appliquant à plusieurs reprises notre algorithme, après chaque opération d'édition de réseau, le nombre de motifs est mis à jour pour une séquence arbitrairement grande de mises à jour de réseau.

Mise à jour du F1 compte

We now describe our method for updating the count of F1 de M comme g je évolue en gje+1. Nous supposons que F1 for g je est connu. Our algorithm for updating F1 relies on initially constructing and maintaining an auxiliary data structure that allows for the embeddings containing an edge to be efficiently queried. Thus, at the beginning of our algorithm, we find all embeddings of a given motif M in the initial network g0. After finding these embeddings, we create a list of embeddings for each edge eE, denoted as e, which stores all embeddings that contain e. That is, for a motif M, laisser m be an embedding in a given network. Puis m e si em. This data structure, which we refer to as the edge compressed bitmap, is updated each time an edge is either added or deleted. Les F1 is then updated based on the edge compressed bitmap.

Suppose that as the network g je evolves to gje+1 les eE je is deleted. Cela réduit le F1 count of motif M, if the deleted edge is a part of embeddings of M. Du edge compressed bitmap, we find the set of embeddings of M qui contiennent e. We remove this set ( e) from the edge compressed bitmap and reduce the F1 count of M by the cardinality of this set.

Next, assume that an edge eE je est ajouté à g je. Unlike the edge deletion, prior to this update, we do not know whether e is a part of an embedding of M dans gje+1. We locate such embeddings of M dans gje+1 as follows. Let us denote the diameter of M avec k. We search the k-neighborhood de e dans gje+1. The set of embeddings of M qui contient e can be formed with its neighboring edges. We add this set to the edge compressed bitmap and increase the F1 count of M by the cardinality of the set of new embeddings.

Updating the F2 count

After updating the F1 count, we proceed to update the F2 count. Updating the F2 count is more challenging than updating F1 because computing the count of F2 is NP-complete [9] and the methods used are heuristics. En conséquence, le F2 count we compute even for a single static network may deviate from the optimal result. We would like to minimize the additional errors introduced by dynamic updates.

First, we assume that we have already computed the F1 et F2 counts of the given motif M dans g je et le F1 count of M dans gje+1. Next, we describe how we update the F2 count for gje+1. There are following two possible scenarios: (1) an edge has been deleted from g je, and (2) and edge has been added to g je. In the first scenario, the removal of an edge e de g je provoquera le F2 count to either remain the same or decrease by one. The former case occurs when none of the embeddings in the set e contribute to the F2 count in g je. The latter case occurs when one of the embeddings from the set e, contributes to the F2 count of g je. Let us denote that embedding with X (X e). After removing e, the embedding X does not exist in gje+1. Cela réduit le F2 count of M by one. However, it is possible that there is another embedding (say Oui), which can be included in the F2 count for gje+1 remplacer X. For this to happen, Oui must satisfy two conditions: (i) Oui overlaps with X, and (ii) Oui does not overlap with any other embedding included in the F2 count of M dans g je. If such an embedding Oui exists, we include it in the F2 set. Ainsi, le F2 count remains unaltered. Sinon le F2 count decreases by one.

In order to identify any embedding Oui that satisfies the two condition above, we explore the neighbors de X in the overlap graph. Recall that the neighbors of an embedding in the overlap graph are those embeddings of M which share at least one common edge with that embedding. If say, X consists of edges e1, e2 et e3 puis le neighbors de X will be the union of sets (D_>) , (D_>) and (D_>) .

From the set of neighbors de X, we consider each embedding and check if they can be included in the updated F2 count. If an embedding Oui in that set, has all of its edges free then we include it in the F2 set for gje+1. Therefore, if such an embedding Oui existe, le F2 count remains unaltered as the inclusion of Oui compensates for the deletion of X. Otherwise we decrease the F2 count by one.

Assume that an edge e, où Eje+1E je=<e> is added g je.This addition will either increase the F2 count of M dans gje+1 by one or has no influence. The new edge can form new embeddings of M dans gje+1. We explain how we obtain such new embeddings in “Updating the F1 count” section. We then check if any of these new embeddings can be included in the updated F2 count. To do this, we consider each new embedding, and check if all of its edges are uninvolved in the F2 count (they could be involved in the F2 count with other embeddings). If such an embedding exists, we include it in the F2 set and increase the F2 count by one.


We note here that only the observed number of motifs is cited in Wuchty & Stadler (2003), not their Z-scores. Moreover in a network comprising 3183 proteins they find e.g. 3.6 million copies of motif 1 in figure 2b. This can only happen if motifs are counted in a highly degenerate way which raises the question as to whether such a motif definition will give rise to biologically meaningful results.

Start from an empty graph at time t=0 which contains no nodes and no edges (we could also start from , a network with a single node and a single edge which starts and ends at the same node).


Conclusion

Genome wide expression analysis of transcription factor mutants has traditionally been used to predict novel transcription factor targets. However, as shown in this paper, these data sets contain only a small fraction (about 10 to 20%) of direct targets. In order to understand the indirect response mechanisms following the deletion or overexpression of a transcription factor, we introduced the concept of regulatory path motifs, short paths in an integrated network of transcriptional, protein-protein and phosphorylation interactions which occur significantly more often than expected by chance between transcription factors and their perturbed targets in large-scale deletion and overexpression libraries. Regulatory path motifs extend the well-known notion of static network motifs and are conceptually related to the recently introduced activity motifs. We found eight enriched paths, of which five were overrepresented in both deletion and overexpression data (TRI, TRI-TRI, PPI-TRI, PPI-TRI-TRI and PPI-PhI-TRI). The TRI-PPI path is overrepresented only in deletion data, while the TRI-PhI-TRI and TRI-PPI-TRI paths are overrepresented only in overexpression data. These eight motifs explain about 13% of all genes differentially expressed in the deletion data and 24% in overexpression data, a more than five- to ten-fold increase compared to direct transcriptional links. Like static network motifs, regulatory path motifs are organized in a modular structure where a module consists of perturbed genes reached from a transcription factor by the same type of path with the same intermediate nodes. These modules contain strongly coexpressed and functionally coherent genes and can be used for diverse purposes like predicting periodically expressed genes.

An important property of regulatory networks is their condition-dependent nature. Although currently only a limited number of transcription factor mutant expression experiments are available under different conditions, we have shown that the relative abundance of the eight path motifs in a DNA-damage and cell cycle specific network agrees well with previously observed qualitative differences between exogenous and endogenous processes. Thus regulatory path motifs can be used to characterize the condition-dependency of the response mechanisms across multiple integrated networks.

As the amount of interaction data covering cellular networks at multiple levels of regulation continues to increase, questions regarding the cross-talk between these networks and which parts of the networks are activated upon different kinds of perturbations will quickly gain importance. In this paper we have shown that searching for small, statistically overrepresented patterns integrating functional and interaction data is a simple, yet effective way to address these problems. We have implemented our method as a Cytoscape plugin Pathicular which allows to calculate regulatory path significance values, to visualize regulatory paths on the integrated interaction network, and to extract and visualize regulatory path modules.

Pathicular is applicable to a wide variety of cause-effect and physical interaction networks and is freely available for academic use.


Motif metrics

With the motif scheme in mind, the very first thing we want to know is given a motif (one of the figure below), how can we tell this motif is important?. One approach to this problem is to compare the motif count between the given network and a random network of the same order (same number of nodes). I wonder which type of motif statistic or random network is the best for comparision…

Z-score

z-score measures the different between the number of a motif type found in the network we need to analyse and the mean number of that motif in random networks of the same order (i.e. number of nodes and edges). The tool I used for graph motif analysis is a Python package called graph-tool . Since motif analysis is a demanding task, running undirected-size-4 motif z-score on Blogcatalog3 (

300k edges) takes almost 2 weeks on my lab machine (single thread). However, there is a trick to force graph-tool to use multiple-cores processing mentioned here.

The selection of the graph random-rewire algorithm is also an open question in complex network research. In my work, I settle with the configuration model for random graph generation. However, other random graph models such as block model could be better for a certain type of motif. Professor Barabasi also mentioned about this matter in his slide (Barabasi 2016). graph-tool also provides the implementations of some popular random graph rewiring functions.


Voir la vidéo: Cest pas sorcier -TGV (Février 2023).