Non- / Low-Performer im Blog aufspüren
Nach einem Google+-Posting von Karl Kratz über „De-cluttering the web“ habe ich endlich eine Idee von mir umgesetzt. Es geht darum, unnötige Seiten aus dem eigenen Blog zu entfernen. Der erste Schritt ist, diese Seiten ausfindig zu machen. Normalerweise arbeite ich mehr mit Datenbanken, Crawlern, etc. Aber für einen Proof-of-Concept“ musste dieses Mal Excel herhalten. Und weil das jeder nachbasteln kann, gibt es hier die Anleitung. Ich erkläre das Konzept anhand eines WordPress-Blogs, aber es lässt sich natürlich auf andere Websites übertragen.
Woran erkenne ich Seiten, die unnötig sind?
Für mich sind die Seiten unnötig, die keine/zu wenig Besucher haben. Da kann man noch so sehr einen Artikel mögen … wenn der keine Besucher hat, muss man genau prüfen, ob dieser Artikel noch eine Existenzberechtigung hat (Hub, o. ä.).
Seiten ausfindig machen
Das Einfachste wäre jetzt, einfach in Google Analytics zu schauen, welcher Artikel keine Besucher hat. Das Blöde daran ist, dass Trackingtools nur die Seiten anzeigen, die mind. einen Besucher hatten. Es fehlen also gerade die, die keine Besucher hatten.
Qualifizierte Liste der vorhandenen Blogposts
Es gibt mehrere Wege, um an eine Liste der vorhandenen Blogposts zu kommen. Es gibt Crawlertools wie Xenu oder ScreamingFrog oder Anbieter wie strucr. Aber ich habe den einfachsten Weg gewählt, ich nehme einfach die Google-Sitemap, die ich dank Yoast schon fertig konfiguriert habe. Und nun geht es auch schon mit Excel los. Als Erstes der Import der XML-Sitemap in Excel: Ich öffne also eine leere Arbeitsmappe und importiere die Sitemap über „Daten=> Aus anderen Quellen => Vom XML-Datenimport“:
Im nächsten Fenster schreibt man einfach die Url zur Sitemap mit den Posts rein
Nun noch auf Öffnen klicken, kurz warten, einmal „Ja“ und zweimal „OK“ klicken und schon sind alle Blogposts in Excel drin. Bevor wir weitermachen, muss noch die Domain aus den Urls entfernt werden. Also „STRG + F“, auf „Ersetzen“ und „http://www.example.org“ durch „“ ersetzen.
Und nun auf zum zweiten Tabellenblatt mit den Google Analytics-Daten. Natürlich kann man sich ein CSV mit den Seitenaufrufen aus Google exportieren, aber in der Weboberfläche beschränkt Google die Export-Zeilen auf 500. Und wenn man den Wert (rowcount) direkt in der Url ändert, kann es bei größeren Zahlen zu einer Unbenutzbarkeit der Seite führen. Dann nehmen wir mal lieber die SeoTools for Excel von Niels (sorry, für Mac-Jünger habe ich keine Alternative parat). Einfach auf GoogleAnalytics klicken, Logindaten eingeben und dann folgende Werte eintragen:
Metrics: PageTracking=> Pageviews
Startdate: Hier einen Wert eintragen, den du für sinnvoll erachtest (auf der komplett sicheren Seite ist man, wenn man die Daten von 12 Monaten nimmt. Dann gibt es auch keine saisonalen Seiten, die man übersieht.)
Dimensions: Page Tracking => Page path
Sort: -ga:pageviews
Max results: 10000 (mehr ist leider nicht möglich)
Das sieht dann so aus:
Den Import dann noch mit „Insert Formula“ anstossen und die Daten sind drin
Excel-Formel
Die Daten sind da, jetzt geht es an eine kleine Excelformel. Bei diesem Fall bietet sich „SVERWEIS“ an. Genauere Infos, was diese Funktion macht, gibt es bei rankingCheck.
Ziel ist es, zu den Urls auf dem ersten Tabellenblatt die entsprechenden Pagevisits vom zweiten Tabellenblatt zu bekommen.
Meine Formel sieht dann so aus:
=WENNFEHLER(SVERWEIS(Tabelle1[@[ns1:loc]];Tabelle2!A$2:B$10001;2;FALSCH);"0")
Jetzt noch aufsteigend sortieren und man hat seine Sorgenkinder ganz oben in der Liste. Beim Abarbeiten der Liste unbedingt das Gehirn anschalten, damit man nicht saisonale Artikel oder Linkhubs entfernt. In Ausnahmefällen haben manchmal auch Seiten ohne Besucher eine Existenzberechtigung.
Grenzen
Diese Herangehensweise hat ein paar Grenzen:
- Die Qualität des Ergebnisses steht und fällt mit der Qualität der Google Sitemap.
- Es werden nur Urls aus dem Google-Analytics-Report beachtet, die exakt gleich sind. Parameter, Pagination u. Ä. werden nicht beachtet, wenn sie nicht in der GoogleSitemap sind.
- Wenn in Google-Analytics mehr als 10.000 Datenzeilen vorhanden sind, ist es mit Excel nicht wirklich praktisch. Man kann zwar mit dem StartIndex nach und nach mehr Zeilen holen, aber komfortabel sieht anders aus.
- Für große Mengen an Urls ist Excel nicht wirklich gedacht und ein wenig schwerfällig.
Möglichkeiten
Wie im Teaser geschrieben, war diese Analyse mit Excel nur ein Proof-of-Concept. Diese Datenauswertung nutze ich als einen Baustein von vielen:
Für mein eigenes Analysetool liegen mir die Crawldaten für die Domains vor und ich muss „nur noch“ den Abgleich mit Google-Analytics machen. Dabei werden die Analytics-Daten beim Import gesäubert. Das bedeutet unter anderem, das Parameter entfernt werden und die PageViews der Url mit und ohne Parameter zusammengezählt werden.
Im Report, der zum Schluss generiert wird, sind dann neben den Seitenaufrufen, den Social- und Backlindaten auch noch die Google-Positionen der Urls mit den Keywords aus meinem Überwachungsset drin. Das ist natürlich ein wenig aufwendiger als die kleine Analyse mit Excel, aber ich nutze für meine Entscheidungen gerne möglichst viele Daten.
Ahoihoi,
Ist denn „Relevanz & Fokussierung“ so wichtig geworden? Dient das der Suchmaschinenoptimierung oder der Usability? Wäre es nicht besser für solche Inhalte einfach eine „Müll-Kategorie“ einzurichten und die Inhalte auf die Deponie zu schmeissen? Denn durch das Löschen geht ja auch interne Verlinkung verloren.
Wenn man nach dem PR-Patent die Wertigkeit von Seiten berechnet, frißt jede unnötige Seite Linkjuice.
Klar geht durch das Löschen die interne Verlinkung verloren, deshalb soll man ja auch prüfen, ob es ein Hub o.ä. ist.
Natürlich kann man auch analysieren, warum die Seite keine Besucher hat, mögliche Ursachen: schlechte interne Verlinkung, nicht-optimiert, Thema veraltet, etc. Und dann entsprechend reagieren.