Montag, 22. Oktober 2012

Suchen leichtgemacht: Apache veröffentlicht Lucene 4.0 und Solr 4.0

Apaches Suchfunktionsbibliothek Lucene und den Suchserver Solr, der Lucene nutzt, gibt es nun in neuer Version. Lucene/Solr 4.0 wurde besonders unter Gesichtspunkten der Skalierbarkeit verbessert, da es immer häufiger in Großprojekten wie Facebook, Twitter und Groupon verwendet wird und die Datenmengen hier zunehmen.

Die Lucene-Bibliothek ist in Java geschrieben und verbindet Indizier- und Suchfunktionen mit Rechtschreibkorrektur und Methoden zur Analyse und Tokenisierung von Daten. Mit Solr hingegen lassen sich Volltext-Web-Suchmaschinen aufbauen, die auch Formate wie *.doc und *.pdf indizieren und durchsuchen können sollen.

Die größten Neuerungen in Solr 4.0 sind die Funktionen aus dem SolrCloud-Projekt. Mit ihnen können unter anderem Indexierungsaufgaben auf mehrere Server verteilt werden (Distributed Indexing). So wird die Geschwindigkeit des Prozesses bei großen Datenmengen merklich erhöht. Solr kann nun innerhalb eines Clusters erkennen, welche Server zu- oder abgeschaltet werden, und seine Handlungen entsprechend anpassen. Hierbei hilft Apaches Cluster-Konfigurations-Software ZooKeeper. Um als NoSQL-Speicher dienen zu können, ergänzen Solr nun außerdem Funktionen wie Echtzeit-Get und Atomic Updates. Lucene 4.0 wurde in puncto Speicherverwaltung, Abfragegeschwindigkeit und Indizierungsgenauigkeit verbessert.

Lucene 4.0 und Solr 4.0 können von den jeweiligen Apache-Projektseiten bezogen werden, beide sind unter der Apache-2.0-Lizenz zu haben.

Siehe dazu auch:

(jul)

View the original article here

0 Kommentare:

Kommentar veröffentlichen