Wir brauchen Eure Unterstützung! Bitte schaut auf Eurem Webserver: wie viele Eurer Nutzer haben ein „anerkanntes Jugendschutzprogramm“ installiert? Und darum geht es:
Montag soll ein neuer Entwurf für den Jugendmedienschutz-Staatsvertrag (JMStV) zur Online-Diskussion gestellt werden. Wichtiges Element: möglichst jede Webseite soll ein maschinenlesbares Alterskennzeichen (ab 6, ab 12, ab 16 oder ab 18) tragen. Eltern sollen Filterprogramme installieren („Jugendschutzprogramme“), die diese Kennzeichen auslesen. Die ersten solcher Programme wurden bereits anfang 2012 anerkannt. Seit über drei Jahren können Eltern also diese anerkannten Programme nutzen – aber wie viele tun das? Da der neue JMStV verstärkt auf diese Programme setzt und teilweise neue Pflichten für Anbieter vorsieht, ist es ja nicht unerheblich, ob sie eine gute Verbreitung haben.
Daher: lasst uns zählen, wie viele Nutzer diese Programme verwenden!
Jeder Nutzer, der ein solches anerkanntes Programm installiert hat, ist einfach zu erkennen: es muss das Alterskennzeichen auslesen. Dieses Kennzeichen ist eine Datei namens age-de.xml und muss auf jeder Webseite mit Alterskennzeichen vorhanden sein. Folglich muss ein „anerkanntes Jugendschutzprogramm“ diese Datei abrufen. Also lassen sich entsprechende Nutzer ganz einfach zählen und mit der Gesamtzahl der Nutzer vergleichen.
Wie zählen?
Es gibt mehrere Methoden, die aber alle auf dem gleichen basieren: Zählen der Zugriffe auf age-de.xml:
a) Vorhandene Logfile-Analyse
Viele Webseitenbetreiber nutzen klassische Logfile-Auswertungs-Programme zum Erzeugen von Nutzungs-Statistiken. Dort sollte irgendwo aufgeführt sein, wie viele Zugriffe bestimmte Daten haben. Zähle die Zugriffe auf http://meine-domain/age-de.xml – das Ergebnis ist die (ungefähre) Anzahl der Nutzer, die ein „anerkanntes Jugendschutzprogramm“ installiert haben.
b) Piwik, Google Analytics
Tools wie Piwik und Google Analytics zählen mittels eingebetteter Elemente und JavaScript die Zugriffe auf einzelne Seiten. Sie können daher nicht analysieren, auf welche anderen Dateien zugegriffen wird. Daher ist bei Nutzung dieser Dienste die folgende Methode nötig.
c) Logfile-Analyse
Für alle anderen habe ich ein kleines simples Perl-Skript programmiert, das vorhandene (Apache-) Logfiles analysiert und das Ergebnis direkt ausgibt. Prinzipbedingt ist das Ergebnis nur eine grobe Näherung der tatsächlichen Installationen, aber für den Anfang ausreichend. Update: nun in Version 1.2 mit ein paar Details mehr und auf GitHub.
- GitHub Reepoository age-de-xml-counter oder gleich direkt das Script count-age-de-xml.pl.
Dieses Skript am besten auf dem Webserver (oder anderem Ort mit Zugriff auf die Logfiles) speichern, optional noch die Endung in .pl ändern (und auf Wunsch direkt ausführbar machen). Der Aufruf ist einfach (hier entsprechend umbenannt):
# Eine Log-Datei analysieren
perl count-age-de-xml.pl name-vom-logfile.log
# Mehrere Dateien mit * oder manuell geht auch
perl count-age-de-xml.pl name-vom-logfile-*.log
# Ausführliche Dokumentation gibt es mit:
perldoc count-age-de-xml.pl
Apache-Logfiles liegen oft unter /var/log/apache oder /var/log/httpd. Weitere Informationen sind in der Dokumentation vom Skript enthalten. Wer kein Standard-Perl mit perldoc installiert hat sondern nur die verkrüppelte Version (z.B. Debian und manch andere eigenwillige Linuxe), kann auch einfach die Datei direkt anschauen, Dokumentation steht drin.
Das Skript geht davon aus, dass das erste „Wort“ im angegebenen Logfile ein pro Nutzer ungefähr eindeutiger Wert ist, beispielsweise die IP-Adresse, ein Hash davon oder ähnliches. An andere Formate lässt es sich leicht anpassen, bei Bedarf bitte nachfragen.
Wer die Anzahl der Nutzer der Webseite kennt (z.B. von Piwik oder Google Analytics) kann die Anzahl der Nutzer mit „anerkantem Jugendschutzprogramm“ auch einfach per grep zählen:
grep age-de.xml name-vom-logfile.txt
Bitte Zahlen kommentieren!
Bitte schreibt in den Kommentaren das Ergebnis. Wer dies nicht öffentlich kommentieren kann/darf/will, kann mir auch persönlich eine Mail an alvar@a-blast.org schicken. Bitte in etwa folgende Angaben machen:
- Webseite (Name oder wer es nicht genau sagen will/kann eine Umschreibung), wenn nicht offensichtlich eine ungefähre Angabe über die Nutzer, insbesondere ob Herkunft Deutschland.
- Anzahl der Besucher bzw. Nutzer gesamt
- Anzahl der Besucher bzw. Nutzer mit „anerkanntem Jugendschutzprogramm“, also Zugriffe auf age-de.xml
- Wer keine absoluten Zahlen nennen will oder kann/darf: Prozent der Benutzer mit Filter:
(Zugriffe-auf-age-de.xml / Anzahl-Besucher) * 100 - Optional: Zeitraum der Untersuchung
Bisherige Zahlen
Bei meinen bisherigen Tests komme ich bei verschiedenen Webseiten in der Regel auf eine Rate von ungefähr 0,005% der Nutzer, die einen solchen Filter installiert haben. Also etwa einer von 20 000. Das kann natürlich von Webseite zu Webseite stark schwanken – aber da seit über drei Jahren solche Filter „anerkannt“ sind, ist das doch ziemlich mager.
Nachtrag mit echten Zahlen (Nutzerzahlen aber – das liegt in der Natur der Sache – nur grob geschätzt):
- Dieses Blog hier
- Nutzer 2015 seit Januar: ca. 35000 inkl. Bots und RSS, echte Nutzer wahrscheinlich deutlich drunter
- 0 age-de.xml Zugriffe
- Assoziations-Blaster, Nur Mai 2015:
- Ca. 80000 Nutzer (Hach, das waren auch mal deutlich mehr … ;-) ), auch inkl. Bots
- 2 age-de.xml Zugriffe, das sind 0,0025%
- WEN WÄHLEN?, das ganze Jahr 2015 bis heute:
- Ca. 127000 Nutzer, inkl. Bots
- Insgesamt 8 Zugriffe auf age-de.xml, das sind rund 0,0063%
Selbst wenn man Bots und so weiter rausrechnet und großzügig mit der Hälfte (oder gar noch weniger) an „Besuchen“ rechnet, ist die Rate derjenigen mit installiertem Filter immer noch bei rund 0,01%, also verschwindend gering.
Michael Burgstahler
Große Website für allgemeines Publikum, Kategorie Entertainment. Content jugendfrei, Hauptnutzerkreis ca. 30-50 Jahre alt, fast ausschließlich aus Deutschland
34.000 Besucher
1 mit Zugriff age-de.xml
Zeitraum Mai 2015
Alvar Freude hat auf den Kommentar von Michael Burgstahler geantwortet
… das entspricht also auch in etwa dem, was ich so herausgefunden habe. (assoziations-blasser.de und wen-waehlen.de)
Volker K
Die Zahlen beziehen sich auf Mai 2015
www.volkerkoenig.de 3040 Besucher mit insgesamt 3565 Besuchen
insgesamt 0,0000000 Zugriffe auf age-de.xml
Michael Burgstahler
Ok, noch eine zweite:
Große Website für allgemeines Publikum, Kategorie Dienstleistung, Content jugendfrei, Hauptnutzerkreis ca. 18-35 Jahre alt, zu 80% aus Deutschland
12.800 Besucher
Keine Zugriff auf age-de.xml
Zeitraum Mai 2015
Michael Schöbel
deusu.de und deusu.org - Suchmaschinen
Kein einziger Zugriff auf age-de.xml
Seit Ende Oktober 2014 circa 84.500 Besucher
Besucherzählung läuft nicht direkt über IP-Adressen. Die speichere ich nämlich gar nicht. Was ich speichere sind 16-bit Hashwerte über die IP-Adresse. Für jeden Tag wird die Anzahl unterschiedlicher Hashwerte ermittelt. Und diese Zahlen habe ich dann aufsummiert.
Die Besucherzahlen sind also nicht exakt. Einerseits gibt es wiederkehrende Besucher an unterschiedlichen Tagen, diese werden dann mehrfach gezählt. Andererseits kann es an einem Tag unterschiedliche IP-Adressen mit identischem Hashwert geben, wo dann nur ein Besucher gezählt wird. Robots wurden bei den Besucherzahlen *nicht* mitgezählt.
Klaus Hartnegg
Webseite mit Tipps für Windows-Admins, internationales Publikum.
Auswertung der Wochen 19 bis 21/2015:
Anzahl Zeilen Log-Datei: 55903
davon mit age-de.xml: 0
Jörg B.
Log-Auswertung Webserver von 14. März 2015 bis 6. Juni 2015:
Besuche über mehrere Domains aus dem Bereich eines bundesweiten Jugendverbandes: mehrere 10.000de im Monat
Treffer: 5 (in Worten: fünf) im gesamten o.g. Zeitraum
Arnold S.
cd
/var/log/apache2
for i in `find . | grep access`
do
zgrep age-de.xml $i
done
- - - [13/May/2014:19:48:03 +0200] "HEAD /age-de.xml HTTP/1.1" 404 -
älteste Logdatei Mär 31 2009 ssl_access.log.10.gz
Jüngste Logdatei Jun 7 16:02 access.log
Mehrere kleine virtuelle Hosts auf der Maschine, Statistik mache ich nicht, aber sieht so aus, als ob es genau einen einzigen Zugriff gab, wobei wenn ein Nutzer seine Logdatei in seinem virtuellen Host gelöscht hat, ich natürlich keinen Zugriff habe.
Alvar Freude
Schon mal für's Protokoll: Ich habe noch mehrere Meldungen von verschiedenen Webseiten bekommen, teilweise mit mehreren hunderttausend Nutzern pro Tag. Prozentual liegt die Rate von Nutzern mit „anerkanntem“ Filter jeweils zwischen 0,001 und 0,006 Prozent.
Dentaku
Sorry, hätte gern Zahlen beigetragen -- aber in dem notwendigen Detailgrad um das rauszufinden, schreibe ich keine Logfiles mehr.
Ad Min hat auf den Kommentar von Dentaku geantwortet
Du hast keine Logs, wann welche Dateien aufgerufen wurden?
Mutig und viel Spaß beim Debuggen nach einem Angriff …
Dentaku hat auf den Kommentar von Ad Min geantwortet
Ich habe einen Frontend-Cache, dessen Logs nur live durchlaufen und das Apache-Log wird einmal pro Stunde geleert (enthält aber wegen des Caches sowieso nicht alle Aufrufe).
Um gerade stattfindende Angriffe abzuwehren reicht das.
Dirk Haun
1022409 Logfile-Zeilen (ganz 2015 bis gestern). Nicht ein einziger Request für age-de.xml
Das sind im Wesentlichen 3 Websites (themobilepresenter.com, abendgespraeche.de und hirnableiter.tinycities.de - erstere in englisch, die anderen in deutsch, alle in Deutschland gehostet) plus ein paar Alias-Domains.
Ich weiß nicht, wer diese Jugendschutz-Filter verwendet, aber meine Leser sind es offenbar nicht.
Maurice
Meine Ergebnisse sehen dem Rest sehr ähnlich:
Seit Juni 2014 bis exakt jetzt (15.06.2015 ~20:20) genau 0 Zugriffe auf age-de.xml bei 134933 Zugriffen insgesamt.
Seiten, die ich hoste: meine eigene, mehrere lokale Vereine, d.h. Zugriffe hauptsächlich aus meiner Region und von Crawlern.
alwin
Server mit ~200k Zugriffen / Tag.
Letzen 48h: 470k Zugriffe insgesamt, age-de.xml: 0 (in worten: null)
Auch die historischen anonymisierten Statistiken listen keinerlei Zugriff auf diese Datei.
Uwe Ohse
Webseite: naturfotografen-forum.de
Nutzer: Insgesamt um die 10000 verschiedene Besucher pro Tag (klassische Bots gar nicht mitgezählt), über eine Million Dateizugriffe täglich (dank aggressivem Caching und nicht-loggen von Dauerbrennern ist diese Zahl untertrieben).
D-AT-CH.
Jugendliche sind durchaus willkommen und vorhanden, wenn sie auch eine kleine Minderheit der registrierten Benutzer sind.
Anzahl der Zugriffe,die /age-de matchen, in den letzten 52 Tagen: 0.
Lina Roettgen
Unterauftritt eines großen internationalen Logistikdienstleisters
Auswertungszeitraum Dezember 2015
Seitenaufrufe: 116 Millionen
Nutzerzahl: nicht ohne Weiteres bestimmbar, da IP-Adressen in einem nicht ohne Sondergenehmigung zugänglichen Log gespeichert werden
age-de.xml-Aufrufe: einer
[31/Dec/2015:12:53:17 +0100] "GET /age-de.xml HTTP/1.1" 404 208 "-" "-" 205 88 444
Das war im Zweifelsfall ich selbst, als ich den Aufruf ausprobiert habe.
wiwico.de
Website wiwico.de
Zeitraum 08/2015 - 10/2016
Page Impressions: 420.000 mit 350.000 Unique Visitors
Anzahl Requests der age-de.xml : NULL (0)
Scheint nichts zu sein, dass sich in der Praxis durchsetzt.