Arbeit für alle, aber: wem bringt eine Alterskennzeichnung von Webseiten etwas?

Wir brauchen Eure Unterstützung! Bitte schaut auf Eurem Webserver: wie viele Eurer Nutzer haben ein „anerkanntes Jugendschutzprogramm“ installiert? Und darum geht es:

Montag soll ein neuer Entwurf für den Jugendmedienschutz-Staatsvertrag (JMStV) zur Online-Diskussion gestellt werden. Wichtiges Element: möglichst jede Webseite soll ein maschinenlesbares Alterskennzeichen (ab 6, ab 12, ab 16 oder ab 18) tragen. Eltern sollen Filterprogramme installieren („Jugendschutzprogramme“), die diese Kennzeichen auslesen. Die ersten solcher Programme wurden bereits anfang 2012 anerkannt. Seit über drei Jahren können Eltern also diese anerkannten Programme nutzen – aber wie viele tun das? Da der neue JMStV verstärkt auf diese Programme setzt und teilweise neue Pflichten für Anbieter vorsieht, ist es ja nicht unerheblich, ob sie eine gute Verbreitung haben.

Daher: lasst uns zählen, wie viele Nutzer diese Programme verwenden!

Jeder Nutzer, der ein solches anerkanntes Programm installiert hat, ist einfach zu erkennen: es muss das Alterskennzeichen auslesen. Dieses Kennzeichen ist eine Datei namens age-de.xml und muss auf jeder Webseite mit Alterskennzeichen vorhanden sein. Folglich muss ein „anerkanntes Jugendschutzprogramm“ diese Datei abrufen. Also lassen sich entsprechende Nutzer ganz einfach zählen und mit der Gesamtzahl der Nutzer vergleichen.

Wie zählen?

Es gibt mehrere Methoden, die aber alle auf dem gleichen basieren: Zählen der Zugriffe auf age-de.xml:

a) Vorhandene Logfile-Analyse

Viele Webseitenbetreiber nutzen klassische Logfile-Auswertungs-Programme zum Erzeugen von Nutzungs-Statistiken. Dort sollte irgendwo aufgeführt sein, wie viele Zugriffe bestimmte Daten haben. Zähle die Zugriffe auf http://meine-domain/age-de.xml – das Ergebnis ist die (ungefähre) Anzahl der Nutzer, die ein „anerkanntes Jugendschutzprogramm“ installiert haben. 

b) Piwik, Google Analytics

Tools wie Piwik und Google Analytics zählen mittels eingebetteter Elemente und JavaScript die Zugriffe auf einzelne Seiten. Sie können daher nicht analysieren, auf welche anderen Dateien zugegriffen wird. Daher ist bei Nutzung dieser Dienste die folgende Methode nötig.

c) Logfile-Analyse

Für alle anderen habe ich ein kleines simples Perl-Skript programmiert, das vorhandene (Apache-) Logfiles analysiert und das Ergebnis direkt ausgibt. Prinzipbedingt ist das Ergebnis nur eine grobe Näherung der tatsächlichen Installationen, aber für den Anfang ausreichend. Update: nun in Version 1.1 mit ein paar Details mehr.

Dieses Skript am besten auf dem Webserver (oder anderem Ort mit Zugriff auf die Logfiles) speichern, optional noch die Endung in .pl ändern (und auf Wunsch direkt ausführbar machen). Der Aufruf ist einfach (hier entsprechend umbenannt):

# Eine Log-Datei analysieren
perl count_age-de.pl name-vom-logfile.log

# Mehrere Dateien mit * oder manuell geht auch
perl count_age-de.pl name-vom-logfile-*.log

# Ausführliche Dokumentation gibt es mit:
perldoc count_age-de-v1.0.pl

Apache-Logfiles liegen oft unter /var/log/apache oder /var/log/httpd. Weitere Informationen sind in der Dokumentation vom Skript enthalten. Wer kein Standard-Perl mit perldoc installiert hat sondern nur die verkrüppelte Version (z.B. Debian und manch andere eigenwillige Linuxe), kann auch einfach die Datei direkt anschauen, Dokumentation steht drin.

Das Skript geht davon aus, dass das erste „Wort“ im angegebenen Logfile ein pro Nutzer ungefähr eindeutiger Wert ist, beispielsweise die IP-Adresse, ein Hash davon oder ähnliches. An andere Formate lässt es sich leicht anpassen, bei Bedarf bitte nachfragen.

Wer die Anzahl der Nutzer der Webseite kennt (z.B. von Piwik oder Google Analytics) kann die Anzahl der Nutzer mit „anerkantem Jugendschutzprogramm“ auch einfach per grep zählen:

grep age-de.xml name-vom-logfile.txt

Bitte Zahlen kommentieren!

Bitte schreibt in den Kommentaren das Ergebnis. Wer dies nicht öffentlich kommentieren kann/darf/will, kann mir auch persönlich eine Mail an alvar@a-blast.org schicken. Bitte in etwa folgende Angaben machen:

  • Webseite (Name oder wer es nicht genau sagen will/kann eine Umschreibung), wenn nicht offensichtlich eine ungefähre Angabe über die Nutzer, insbesondere ob Herkunft Deutschland.
  • Anzahl der Besucher bzw. Nutzer gesamt
  • Anzahl der Besucher bzw. Nutzer mit „anerkanntem Jugendschutzprogramm“, also Zugriffe auf age-de.xml
  • Wer keine absoluten Zahlen nennen will oder kann/darf: Prozent der Benutzer mit Filter: 
    (Zugriffe-auf-age-de.xml / Anzahl-Besucher) * 100
  • Optional: Zeitraum der Untersuchung

Bisherige Zahlen

Bei meinen bisherigen Tests komme ich bei verschiedenen Webseiten in der Regel auf eine Rate von ungefähr 0,005% der Nutzer, die einen solchen Filter installiert haben. Also etwa einer von 20 000. Das kann natürlich von Webseite zu Webseite stark schwanken – aber da seit über drei Jahren solche Filter „anerkannt“ sind, ist das doch ziemlich mager.

Nachtrag mit echten Zahlen (Nutzerzahlen aber – das liegt in der Natur der Sache – nur grob geschätzt):

  • Dieses Blog hier
    • Nutzer 2015 seit Januar: ca. 35000 inkl. Bots und RSS, echte Nutzer wahrscheinlich deutlich drunter
    • 0 age-de.xml Zugriffe
  • Assoziations-Blaster, Nur Mai 2015:
    • Ca. 80000 Nutzer (Hach, das waren auch mal deutlich mehr … ;-) ), auch inkl. Bots
    • 2 age-de.xml Zugriffe, das sind 0,0025%
  • WEN WÄHLEN?, das ganze Jahr 2015 bis heute:
    • Ca. 127000 Nutzer, inkl. Bots
    • Insgesamt 8 Zugriffe auf age-de.xml, das sind rund 0,0063%

Selbst wenn man Bots und so weiter rausrechnet und großzügig mit der Hälfte (oder gar noch weniger) an „Besuchen“ rechnet, ist die Rate derjenigen mit installiertem Filter immer noch bei rund 0,01%, also verschwindend gering.