Google ist die Krake

Alles Wissenswerte über Skripte, Browser, Makros, PhP, HTML...

Moderatoren: Moderatoren, Redakteure

Antworten
Benutzeravatar
Levi 
Beiträge: 44873
Registriert: 18.03.2009 15:38
Persönliche Nachricht:

Google ist die Krake

Beitrag von Levi  »

ok ... Kurzfassung:

Ich betreibe nen eigenen kleinen Server mit diversen Seiten (2-3 Boards, nen TS, ne MC-Map ... halt son kleines zeug für privaten Zweck im kleinen Kreis) ... benutze dafür eine DynDns-Adresse.
Achte peinlichst genau, dass ich diese Adresse nirgendwo "verlinkbar" offenlege. bzw die unterliegende Struktur.

nun wurde ich heute aber drauf aufmerksam gemacht, dass man eine dieser Seiten (um genau zu sein, meine MC-Map) bei Google findet.
Ich gegengeprüft: sogar mit Google-Cache Abbild.
Auch eines meiner "Boards" findet man mit Google.
Ich hätte eigentlich gedacht, wenn auf entsprechende "Seiten" nirgends öffentlich verlinkt wird, wird Google diese auch nicht "finden".

nun eine simple Frage: Wie kommt Google da ran? Chrome-User potentiell?

zur Info: mit "Seiten" meine ich: blubel.ath.cx/schieß oder blubel.ath.cx/michtot .... blubel.ath.cx bietet nicht die Möglichkeit zu entsprechenden Seiten zu navigieren.
Ich bin mir über robots.txt bewußt, dachte nur eigentlich, dass dies nicht nötig sei, wenn es eh nirgendwo öffentlich verlinkt wird.



PS: sollte der Thread-Titel zu "offensiv" sein, entschuldigt mich bitte ... nur irgendwie ist mir nix Sinnvolles eingefallen XD
forever NYAN~~ |||||||| Hihi
Bild
Benutzeravatar
Lazy Sloth
Beiträge: 2030
Registriert: 09.08.2007 22:40
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von Lazy Sloth »

Im Zweifelsfall fragt Google einfach beim Domain-Registrar...
Chrome würde ich da nicht wirklich verdächtigen, eher die ganzen Android-Browser.

Zum Thema robots.txt: Was ist so schwer daran, einfach eine Datei

Code: Alles auswählen

User-agent: *
Disallow: /
als blubel.ath.cx/robots.txt zu serven? Falls kein Webserver läuft, einfach ein thttpd oder sowas aufsetzen, nur für diese Datei. Gehe aber davon aus, dass schon einer läuft, wenn es schon ein paar Boards gibt.

€DIT: Mal eine ganz andere Frage, wie sind diese genannten Boards denn zu erreichen?[/size]

€DIT 2: Nach gefühlt 100-maligem Durchlesen des Posts glaube ich, dass ich ihn nicht ganz verstehe...:ugly:
Ist denn das Minecraft-"Verzeichnis" von außen erreichbar? Kann man es mittels eines Webbrowsers "besuchen"...? Wenn ja, reicht es ja schon dass einer der Nutzer den Link mittels einer Mail weiterreicht, die irgendwie durch Googlemail geht. Google liest ja alle Mails mit.
Benutzeravatar
NekuSoul
Beiträge: 483
Registriert: 06.03.2010 17:47
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von NekuSoul »

Da fallen mir gerade 'ne ganze möglicher Wege ein.
Addresszeile mit Vervollständigung durch Google (also mitunter Chrome), irgendwo ein öffentlicher Post, sehr wahrscheinlich aber durch DynDNS selber. Schließlich müssen die ja deine Addresse den DNS-Servern zugänglich machen und da Google ja selber einen betreibt wäre dieser Weg sehr wahrscheinlich. Wie sie dann an die exakten URL's ist 'ne andere Frage, AFAIK sollte ja nur der Domänenname gesendet werden. :?

Um eine "robots.txt" kommt man halt nicht mehr herum, besser gleich mit Authentifizierung.
Bild
Benutzeravatar
Levi 
Beiträge: 44873
Registriert: 18.03.2009 15:38
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von Levi  »

ok nochmal von vorne:
das meine Dyndns-Adresse bei Google auftaucht: kein Problem. Das ist normales "Crawling" wahrscheinlich irgendwo bei DynDns-geführter Listen....
das aber die "Struktur" da drunter ersichtlich ist, ist sehr wohl für mich ein Problem. ... man gibt meine DynDns Adresse ein und findet bei Google unterliegende Strukturen. das gefällt mir nicht :D
der Dns kümmert sich nur um die Auflösung des "Host"-Anteils der Adresse. den schließe ich dabei aus.

Code: Alles auswählen

$> cd /var/www/
$> /var/www$ echo "User-agent: *
> Disallow: /" >> robots.txt
erstmal danke dafür :D


Wie die Boards erreichbar sind: nur indem ich jemanden den direkten Link gebe :) ....
Aber gut, habe ich meine Lektion gelernt.


Worum ich mir hauptsächlich Gedanken mache: ich gebe hier und dort mal gerne Links zu "Urlaubsbildern" einzelnen Freunden frei. .... sollten diese aber nun auf Google-Auftauchen, wäre mir das etwas unangenehm ...
War halt nur sehr überrascht, dass das passieren kann.

Da nur eines der Boards und eben die MC-Map betroffen sind, ginge ich davon aus, dass es an bestimmte User liegen müsse, die dieses spezielle Board benutzen.
(die Boards sind untereinander auch nicht ersichtlich.)
forever NYAN~~ |||||||| Hihi
Bild
Benutzeravatar
Scorcher24_
Beiträge: 15527
Registriert: 11.11.2004 14:31
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von Scorcher24_ »

Ein Crawler muss sich aber halt auch nicht an die robots.txt halten.
Viele ignorieren die sogar.
Das einzige was bei privatem Inhalt hilft, ist den Zugang zu beschränken.
Boards nur für angemeldete User sichtbar machen und Bilderverzeichnisse mit .htaccess und .htpasswd schützen.
Benutzeravatar
Levi 
Beiträge: 44873
Registriert: 18.03.2009 15:38
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von Levi  »

Scorcher24 hat geschrieben:Ein Crawler muss sich aber halt auch nicht an die robots.txt halten.
Viele ignorieren die sogar.
Das einzige was bei privatem Inhalt hilft, ist den Zugang zu beschränken.
Boards nur für angemeldete User sichtbar machen und Bilderverzeichnisse mit .htaccess und .htpasswd schützen.

boards sind geschützt, .... ^^ ... immerhin


htaccess und htpasswd ... da ich von HTML soviel Ahnung habe, wie nen Regenwurm vom fliegen, werde ich mich mal flott belesen :D ...

thx für den Hinweis :)
forever NYAN~~ |||||||| Hihi
Bild
Benutzeravatar
Scorcher24_
Beiträge: 15527
Registriert: 11.11.2004 14:31
Persönliche Nachricht:

Re: Google ist die Krake

Beitrag von Scorcher24_ »

Hat mit HTML eher weniger zu tun, sondern mit http :p.
http://www.webmaster-toolkit.com/htacce ... ator.shtml
Antworten