pte20111129044 Technologie/Digitalisierung, Medien/Kommunikation

P2P-Suchmaschine "Yacy" durchforstet Web und Intranet

Erfinder: "Google ist Populismus-Suche"


Lupe: Yacy als zensurfreie Suchlösung (Foto: FlickrCC/Robbie1)
Lupe: Yacy als zensurfreie Suchlösung (Foto: FlickrCC/Robbie1)

Frankfurt am Main (pte044/29.11.2011/13:48) Einfache Selbstinstallation und Vernetzung sollen Yacy http://yacy.net zu einer Alternative unter den zahlreichen Suchmaschinen machen. Das Projekt setzt auf einen komplett dezentralen Zugang und hohe Anpassbarkeit, um die zensurfreie Verbindung zwischen User und Web-Inhalten herzustellen. Das Tool ist auch in der Lage, teure Intranetlösungen zu ersetzen. Erfinder Michael Christen spricht mit pressetext über Ziele und Zukunft des Projekts.

Stark anpassbares Suchskript

"Es gibt viele freie Inhalte im Internet, jeder kann publizieren, doch die Suchlösungen sind proprietär", beschreibt Christen das Grundproblem, das Yacy lösen soll. Die Suchmaschine bedient sich keiner übergeordneten, zentralen Server, sondern funktioniert auf Basis einzelner Knoten - sogenannter "Peers" - die von jedem zur Verfügung gestellt werden können. Ermöglicht wird das über eine wenige Klicks umfassende Selbstinstallation. Entsprechende Pakete stehen derzeit für Windows, MacOS und Linux bereit.

Der Suchalgorithmus lässt sich jedoch auch anders einsetzen. So kann die eigene Suchmaschine auf bestimmte Inhalte und Themen spezialisiert werden und auch, dank verschiedener Betriebsmodi, abgeschottet von Außen in einem Intranet zum Einsatz kommen, wobei sich sowohl eine Vielzahl technischer Einstellungen als auch die Optik verändern lassen. "Das Karlsruhe Institute of Technology hat mit einem eigenen Yacy-Netz eine interne Suche für wissenschaftliche Inhalte realisiert", nennt der Informatiker ein Beispiel. "Eine kommerzielle Umsetzung hätte wohl mehrere Mio. Euro gekostet."

Die Abfrage greift auf das Verfahren des "Distributed Hashtable" zurück, eine selbstorganisierte Datenstruktur, die Skalierbarkeit liefern soll, Lasten verteilt und fähig ist, den Ausfall einzelner Peers schnell zu erkennen und zu kompensieren. Bei einer Suche werden keine Nutzerinformationen gespeichert.

Netzwerk kämpft mit Ansturm

Yacy steckt, trotz achtjähriger Entwicklungszeit, noch in den Kinderschuhen des Live-Betriebs. So funktioniert die globale Suche über die meisten Knoten eher langsam, die Ergebnisse lassen oft Präzision und Diversität vermissen. Auch die Suchergebnisse unterscheiden sich je nach Peer. Letzteres ist, so Christen, ein natürlicher Effekt der dezentralen Organisation und des daraus folgenden "lokalen Blicks" jedes einzelnen Knotens auf das Netz und seine individuelle Konfiguration.

Die Performance-Probleme ergeben sich wiederum aus einem Ansturm neuer Nutzer und Teilnehmer: "Unser Netz ist in den letzten 24 Stunden stark angewachsen", schildert Christen. "Wir haben dadurch aktuell nicht die gewünschte Stabilität." Langfristig bringt das Wachstum jedoch seine Vorteile mit sich. Dadurch vergrößert sich der Gesamtindex und bessere Suchergebnisse sind möglich. Aus Sicherheitsgründen lädt jeder Peer die gelieferten Treffer im Voraus, um sie zu verifizieren und gegebenenfalls die Reihung der daraufhin angezeigten Liste anzupassen. Auch dies, erklärt der Experte, braucht entsprechend Zeit.

Solr-Integration geplant

"Wir wollen den Skalierungssprung schaffen und werden weiter am Algorithmus arbeiten, um die Trefferqualität zu verbessern", erzählt der Erfinder von den aktuellen Herausforderungen des Projekts. Langfristig ist zudem geplant, eine Integrationssschnittstelle für die Enterprise-Suchplattform "Solr" von Apache zu schaffen http://lucene.apache.org/solr . Allerdings benötigt das relativ kleine Team mehr Manpower in der Entwicklung.

Erfinder kritisiert Bevormundung

Eine Konkurrenz zu Google soll Yacy nicht sein. Während Christen der Usability der dominierenden Suchmaschine Vorbildwirkung attestiert, kritisiert er die Bevormundung durch das System. "Bei der Suche nach Fachbegriffen passiert es oft, dass Google stattdessen ungefragt nach einem anderen Wort sucht. Ich erwarte, dass eine Suchmaschine nach dem Wort sucht, das ich reinschreibe", hält er fest.

Die Vormachtstellung des Internetriesen aus Palo Alto begründet sich seiner Meinung nach am PageRank-basierten Algorithmus. "Es sortiert nach Relevanz und bildet die Interessen der meisten User ab. Damit ist es bei populären und bekannten Themen natürlich nicht zu schlagen. Andererseits ist es damit auch eine Art 'Populismus-Suche', in der Nischeninteressen untergehen."

(Ende)
Aussender: pressetext.redaktion
Ansprechpartner: Georg Pichler
Tel.: +43-1-81140-303
E-Mail: pichler@pressetext.at
Website: www.pressetext.com
|