Outer Court

Suchroboter Entdecken die Wahrheit

Vor kurzem erst habe ich rausgefunden, wie nützlich die Google-Programmierschnittstelle "Google Web API" sein kann.
Immer mehr sehe ich das Netz als die größte bestehende Datenbank, und Suchabfragen als deren SQL*. Also im Sinne der Datenbeschaffung im größeren Umfang als "wo ist die wichtigste Einzelseite" zu einem Thema. Genauso wie eine großangelegte Web-Umfrage, die einen der Wahrheit näher bringt (oder zumindest, der im allgemeinen akzeptierten, und somit am weitesten verbreiteten, öffentlichen Wahrheit).

*SQL, die Structured Query Language (Strukturierte Abfragesprache).

Aber weil das Semantische Netz nun einmal nicht sehr realistisch ist, muß man sich hier auf Textverständnis-Erkennung verlassen. Und die funktioniert gut nur bei großen Mengen von Seiten — kleinere Mengen sind nicht so fehlertolerant. Glücklicherweise wächst die Zahl der Webinhalte Tag für Tag.

Verschwommene Abfragen

Bei diesen Bemühungen um eine "GQL", der Google-Abfragesprache (oder auch SEQL, der "Search Engine Query Language", Suchmaschinenabfragesprache) wäre es von großer Hilfe, wenn Google — oder eine andere große Suchmaschine, welche ihre Schnittstelle den Entwicklern offenlegt — einen "nächstmöglichen" ODER-Operator bereitstellt. Das heißt z.B. bei dr Eingabe von:

(Katze | Katzen | Hunde | Vögel | Katzenfutter)

... bekäme man einen Positionierungsrang basierend auf der relevantesten Schnittstelle aller Stichworte, im Gegensatz zu einem geradlinigen Algorithmus im Stil von "muss wenigstens eins enthalten". Das scheint jedenfalls zur Zeit noch nicht zu passieren. Eine Seite, die "Katze" und "Hunde" enthält, ist genauso wichtig wie eine solche, die nur "Katze" enthält. Und wenn der UND-Operator verwendet wird (die Standardsuche also), muß die Seite sowohl "Katze" und "Hunde" enthalten. Aber man bräuchte etwas mehr Unschärfe hier.

Man denke nur an die Aufgabe, Filmkritiken zu zählen, und dabei Gute und Schlechte zu unterscheiden. Folgendes wäre optimal::

"[Filmtitel x]" (gut | exzellent | super | brilliant | großartig | nett)

... versus ...

"[Filmtitel x]" (schlecht | amateurhaft | langweilig | monoton | lächerlich | enttäuschend)

... würde also die "besten" Erbenisse zurückliefern. Will man dieses Resultat dann auswerten, müsste man eine Relevanzfaktor-Grenze mitliefern. Man könnte etwa der Suchmaschine erklären: "Gib mir nur die Seiten mit einer Relevanz von über 75%". Dann wäre die zurückgegebene Seitenzahl ein guter Indikator, wie beliebt ein Film ist. (Natürlich könnte man so etwas auch auf andere Themen und Recherchen ausweiten. Nicht nur Meinungsumfragen.)

Es gibt noch einige andere Leistungen, die eine Suchmaschine den Entwicklern geben sollte, damit diese bessere Mittel zur Datenauswertung bekommen. (Etwa ein "Joker"-Zeichen, keine Einschränkung bei Anzahl maximaler Stichworte, usw.)

Suchagenten der Zukunft

Eine Google Abfragesprache (Google Query Language) würde nicht mehr oder weniger als eine Hülle um Google herum darstellen, welche die hinter den Kulissen ablaufenden NLP ("Natural Language Processing", Textverständnis-Methoden) und Schätzungen von "Umfragen" handhabt. Was ich bisher mit den Suchrobotern gemacht habe ist auch nichts anderes. (Natürlich auf einer einfacheren Ebene.)
Es wird Zeit, dass man hier mächtigere Google-Abfrageoptionen erhält.

Es wäre schon sehr faszinierend wenn man eines Tages, in nicht allzuferner Zukunft, einen Suchroboter aussetzen kann (ein Art Suchmaschinen-Roboter der Zweiten Generation). Dieser könnte so für uns Wahrheiten, Beziehungen, Meinungen und Tendenzen aufdecken. Ganz auf sich allein gestellt, einfach nur durch die Analyse von Webseiten von Leuten wie du und ich. Webseiten, die für sich allein gesehen Fehler, Ungenauigkeiten, Schreibfehler, subjektive Meinungen, ungültige Links, oder ganz einfach Lügen, enthalten... und sicherlich keine Semantische Formatierung. Aber Seiten die, im Ganzen gesehen, die "Wahrheit" der Menschheit enthalten; wie die Welt war, ist, und wie sie sein wird.
Das Ergebnis hier wäre so sicherlich wesentlich größer als nur die einfache Summe der Teile — wenn erstmal die Möglichkeit gegeben wäre, diese Gesamtsumme abzufragen.

Google, die Welt, und das weltweite Netz, im Tagebuch


[Aktuell (Englisch)]

[Archiv (Englisch)]

[Selbstfinder]

Diese Seite googeln:


RSS

Email an den Autor