PageRank

Une petite question sur votre TIPE...

Messages : 0

Inscription : 26 août 2016 20:48

Profil de l'utilisateur : Élève de lycée

PageRank

Message par alexMoo » 28 mai 2017 15:31

Bonjour à tous !
dans le cadre de mon tipe , je n'arrive pas à comprendre le lien entre la consigne de l'utilisateur (les mots clefs ) et la valeur du page rank . En effet , étant donné que le web est composé d'un grand nombre de pages , reliées entre elles par des liens , et que dans le modèle on commence par un vecteur u0=1/n*(1,..,1) donc équiprobabilité , je ne vois pas le role des mots clefs pour le calcul du page rank ( ce page ranke et le vecteur u tel que G*u=u et G la limite de (G^n) ) ? j'espere que quelqu'un qui a des connaissances là dessus m'éclaire sur ce point .
Merci d'avance ^^

Messages : 9679

Inscription : 30 juil. 2008 16:59

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par fakbill » 29 mai 2017 14:19

Facile :Facile : aucun. Aucun lien :)
Le page rank c'est juste une façon de dire "bcp de page pointent sur cette page donc elle doit être importante". C'est tout. La recherche par mot clef n'a rien à voir là-dedans.
Tu tapes un mot clef, google trouve toute les pages qui en parle et il te les montre en les classant en fonction de leur page rank.
Bien sûr, en vrai, c’est beaucoup plus compliqué que ça car si on fait ça simplement alors ça n’a aucune chance de marcher sur des données de la taille du web.
Pas prof.
Prépa, école, M2, thèse (optique/images) ->ingé dans le privé.

Messages : 0

Inscription : 26 août 2016 20:48

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par alexMoo » 29 mai 2017 23:03

Bonsoir et merci pour ta réponse !
Au début je croyais que google travaille sur tout le web sans en extraire juste une partie des pages en lien avec le mot clé , mais je ne vois pas encore la chose suivante:
Est ce que cette extraction se fait à la main par google , c'est à dire en parcourant la base de donnés de google ou y a t il d'autres méthodes?

Messages : 3823

Inscription : 17 avr. 2012 21:19

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par bullquies » 30 mai 2017 02:57

The Axiom of Choice is obviously true, the Well-Ordering Principle is obviously false, and nobody knows about Zorn's Lemma. - Jerry Bona

Messages : 9679

Inscription : 30 juil. 2008 16:59

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par fakbill » 30 mai 2017 21:45

A la main...mais bien sûr....tu as des idées étranges ;)
non ce sont des robots qui parcourent le web et qui collectent les info. Le détail n'est pas public.
Un "détail" rigolo : Le temps de faire le "tour" du web avec des robots, il est fort possible que sa structure ait changé (nouveaux liens / liens cassés).
Oublie ça pour ton TIPE.
Pas prof.
Prépa, école, M2, thèse (optique/images) ->ingé dans le privé.

Messages : 0

Inscription : 26 août 2016 20:48

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par alexMoo » 31 mai 2017 01:32

Bonsoir
Effectivement je sais qu'il y a des robots qui font ça ( et non les humains :D ), mais ça doit être long de parcourir toutes les pages du web et en extraire celles qui contiennent les mots clés , en plus , ces pages sont en évolution dans le temps . Donc il faut un autre algo selon moi qui fait cette opération essentielle avant le classement des pages par l'algo PageRank .

Messages : 9679

Inscription : 30 juil. 2008 16:59

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par fakbill » 31 mai 2017 20:29

Ben parcourir le web c'est suivre les liens. Suivre les liens c'est quoi? C'est parser les pages et balancer les requêtes HTML qui vont bien pour obtenir les pages en lien. Bref c'est un parcours d'arbre. Il y a plusieurs algo standards pour faire ça.
**mais tout ça c'est très très théorique et simple**. C'est la base. Avec ça, on fait marcher pagerank avec sur un réseau jouet mais pas sur le web.
Il est clair que google rajoute beaucoup de sémantique là dedans pour que ça fonctionne bien du point de vue de l'utilisateur. On est en plein dans le big data...et là c'est TRES complexe. Par exemple, une vieille page a, a priori, plus de chance d'avoir beaucoup de liens pointant sur elles comparé à une page toute nouvelle...mais veut on privilégier les vieilles pages?? pas sûr.

Bref, pour un TIPE d'info, tu peux étudier pagerank et montrer ses limites théoriques. Par exemple, c'est une chose que de calculer une complexité théorique mais en pratique il y a d'autre problème. Inverser une matrice est un sport très différent selon que la matrice en question tiens en cache, en RAM ou uniquement sur disque. Si tu regardes ces aspects correctement alors ça fera un très bon TIPE.
Pas prof.
Prépa, école, M2, thèse (optique/images) ->ingé dans le privé.

Messages : 0

Inscription : 26 août 2016 20:48

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par alexMoo » 31 mai 2017 23:12

Merci beaucoup pour cette réponse pertinente
En fait , moi j'envisage de résoudre le page rank par différents méthodes . Mais j'ai pas bien compris une chose
On obtient l’équation X_n=G^n*X_0 alors le page rank c'est le vecteur X=limite(X^n) (1) qu'on calcul en pratique par multiplications successives jusqu'à la bonne précision . D autre part , la formule du page rank est la suivante : X=c*GX+(1-c)*J (2) avec J la matrice contenant des 1 .Mais La solution X est elle exactement lim(X^n) ? Si c'est le cas , alors on pourrais résoudre (2) par pivot de gauss par exemple et puis comparer les deux méthodes . Qu'en pensez vous?

Messages : 9679

Inscription : 30 juil. 2008 16:59

Profil de l'utilisateur : Élève de lycée

Re: PageRank

Message par fakbill » 01 juin 2017 08:30

Je pense que c'est le cœur de ton TIPE.
Le pivot de Gauss est souvent une méthode affreuse pour résoudre un système / inverser une matrice. La complexité en temps n'est pas bonne et ce n'est pas stable numériquement.
"solution X est elle exactement lim(X^n)" : c'est à toi de creuser cette question centrale mais, si la réponse est "oui", sache que numériquement la réponse sera probablement "pas tout à fait". Pourquoi? Car, en numérique, on n'a même pas a+b=b+a pour toutes valeurs de a et b quand a et b sont des floats. C'est fun l'analyse num.
Pas prof.
Prépa, école, M2, thèse (optique/images) ->ingé dans le privé.

Répondre