Jak pobrać Page Rank strony w pythonie

Data publikacji: 2013-01-14 | Tagi:

Jakiś czas temu znalazłem kod, który pomagał wyciągać Page Rank od Google.

Nie pamiętam niestety kto był autorem. W każdym razie zbiór funkcji w pythonie przepisałem po swojemu i umieściłem w klasie. Od tego momentu korzystam sobie od czasu do czasu z tego skryptu, jeśli chcę sprawdzić PR stron, z którymi jestem związany.

Gotowy kod całej klasy umieszczam poniżej.

# -*- coding: utf-8 -*-
import httplib


class PR(object):
    seed = "Mining PageRank is AGAINST GOOGLE'S TERMS OF SERVICE. Yes, I'm talking to you, scammer."

    prhost = 'toolbarqueries.google.com'
    prpath = '/tbr?client=navclient-auto&ch=%s&features=Rank&q=info:%s'

    def _get_hash(self, query):
        result = 0x01020345
        for i in range(len(query)):
            result ^= ord(self.seed[i % len(self.seed)]) ^ ord(query[i])
            result = result >> 23 | result << 9
            result &= 0xffffffff
        return '8%x' % result

    def get(self, query):
        conn = httplib.HTTPConnection(self.prhost)
        query_hash = self._get_hash(query)
        path = self.prpath % (query_hash, query)
        conn.request("GET", path)
        response = conn.getresponse()
        data = response.read()
        conn.close()
        return data.split(":")[-1]


if __name__ == "__main__":
    pr = PR()
    print pr.get('http://wp.pl')


Oceń ten post:
Podziel się:

comments powered by Disqus

IT w obrazkach: