Suchmaschinen im Internet sollen Webseiten indexieren, darüber herrscht allgemeine
Einigkeit. Welche der zahlreichen Dateiformate, die HTML-Text präsentieren,
werden wirklich von Suchmaschinen erfasst ?
Im herkömmlichen Sinne sind im Browser aufgerufene Webseiten Hypertext-Dokumente,
basierend auf der Hypertext Markup Language, kurz HTML. Darauf basierend wurden
ursprünglich HTML-Dokumente vorwiegend mit den Dateiendungen .html und
.htm produziert und publiziert. Diese Dokumente dominieren auch heute
die Indizies der Suchmaschinen, sind jedoch für viele Belange des Webpublishing
unflexibel.
Es gibt Webseiten die erst zum Zeitpunkt ihres Abrufes erzeugt werden, dynamisch.
Beispielsweise ist es sinnvoll eine separate Datei für die Navigation einer
Webseite zu erstellen um sie jederzeit schnell ändern zu können. Dafür eignen
sich unter anderem Server Side Includes, kurz SSI. Webseiten in denen SSI verwendet
werden auf .shtm oder .shtml. Ähnliches lässt sich mit der Kombination von Webseiten
mit Programmiersprachen wie PHP, Java, u.s.w realisieren. Dateieindungen lauten
dann auf .php, .jsp, .asp und so weiter.
Wie die nachfolgende Aufstellung zeigt, sind diese Endungen kein Problem für
die grossen Suchmaschinen. Sie verweigern regelmässig (aber nicht immer) dann
die Indexierung, wenn der Datei Parameter übergeben werden. Erkennbar an Sonderzeichen
wie ?, $, &, %,=.
Sollen URL mit Parameter indexiert werden, sollten Sie den Kontakt mit den Suchmaschinenbetreibern
suchen. Über die Paid-Inclusion Programme, also das bezahlte Spidern, sind Suchmaschinenbetreiber
zunehmend bereit, dynamische URL mit Sonderzeichen zu akzeptieren.
Für Webverzeichnisse ist es uninteressant, auf welcher technischen Grundlage
die Seiten erstellt wurden. Deshalb ist eine Übersicht nur für Suchmaschinen
notwendig, die den Index automatisch erstellen.
Nachfolgend werden wichtigen Suchmaschinenindizies akzeptierte Dateiendungen
zugeordnet. Dabei werden nur Dateiendungen berücksichtigt, die einen HTML-Text
für den Betrachter ausgeben. Es gibt zahlreiche andere Dokumentformen wie Postscript,
PDF, diverse Office-Formate und Textdateien die von einigen Suchdiensten auch
indexiert werden, aber keine HTML-Strukturen aufweisen. Ebenso unberücksichtigt
bleiben in dieser Aufstellung sämtliche Multimedia-Formate wie Bilder, Grafiken,
Musikdateien,...
|
Ist in der Tabelle eine Dateiendung nicht angegeben, muss das nicht zwangsläufig
heissen, dass sie nicht indexiert wird.