Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.

Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!

Freitag, 2. November 2012

SolrCloud einrichten / Migration zu SolrCloud

Ergänzend zu diesem Artikel SolrCloud Grundlagen möchte ich nun darauf eingehen, wie wir unsere SolrCloud eingerichtet haben. Betroffen ist unser Solr Archiv Index: 40 GB historische Daten in einigen Millionen Dokumenten, welcher doch recht träge ist. Diesen Solr Index migrieren wir nun zur SolrCloud, wobei wir erstmal mit nur einem Host anfangen. Auf diesem Host laufen dann aber später 3 Shards, also 3 Scheiben eines Solr-Index. Dies alleine bringt einen Geschwindigkeitsgewinn, da der Solr Index nun über 3 CPU kerne skalieren kann, statt wie bisher auf einem Kern fest hängt.