Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.

Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!

Montag, 13. Oktober 2014

Suchergebnis verbessern: zusammenhängende Worte besser berücksichtigen

Die Relevanzsortierung von Solr/Lucene ist von Haus aus schon sehr gut. Hin und wieder ergeben sich aber Potential, die Suchergebnisse von Solr weiter zu verbessern.
Das Suchergebnis ist regelmäßig (nicht immer) dann besser, wenn die Suchbegriffe in exakt der gleichen Reihenfolge auch im Text vorkommen.

In erster Linie geht es dabei also um die Verbesserung der Relevanzsortierung.

Beispiel die Suche nach: berliner currywurst
Ein valides Ergebnis wäre folgender Text: "Der Berliner Max fährt nach Hessen, um bei Best Worscht in Town eine Frankfurter Currywurst zu essen".
Basierend auf den Suchbegriff ist das Suchergebnis aber wenig relevant. Denn es geht hier um eine Frankfruter Currywurst, keine Berliner.
Relevanter ist folgender Text: "Der Frankfurter Moritz fährt nach Kreuzberg, um bei Curry 36 eine Berliner Currywurst zu essen."

Die Lösung besteht darin, Dokumente in Ihrer Sortierung zu Boosten, welche die Suchbegriffe in exakt der eingegebenen Reihenfolge und hintereinander aufweisen. Unabhängig davon, ob der Anwender eine phrasierte Suche gestartet hat oder nicht.

Hilfe kommt hier vom DisMax Suchhandler bzw. eDsiMax Query Parser.
Dort wird zum einem definiert, wie das Vorkommen der Suchbegriffe in einzelnen Feldern zu gewichten ist:

  <requestHandler name="/select" class="solr.SearchHandler" default="true">
[...]
       <str name="qf">
            PROVIDER^10 KATEGORIE^3 UEBSCHRIFT^5.5 TEXT^1.5

Zusätzlich kann man jedoch der "pf" (phrase Fields) Parameter kann genutzt werden, um die Dokumente in der Sortierung höher zu gewischten, bei denen die Suchbegriffe möglichst eng aneinander stehen.
  <requestHandler name="/select" class="solr.SearchHandler" default="true">
[...]
       <str name="qf">
            PROVIDER^10 KATEGORIE^3 UEBSCHRIFT^5.5 TEXT^1.5
       </str>
       <str name="pf">
          PROVIDER^10 UEBSCHRIFT^5.0 TEXT^1.5
       </str>

Abschließend den Server neu starten und die Anwendungen werden aktiv.

Montag, 6. Oktober 2014

"Meinten Sie ...?" mit Solr

Rechtschreibkorrektur mit Solr / Lucene

Es soll ja Leute geben, die Nutzen die google einzig deshalb, um die Rechtschreibung einzelner Wrote zu überprüfen. Die Funktion "Meinten Sie" ist dabei eine Hilfe.
Fakt ist: für die Ergonomie und Effizienz einer Suchmachschine ist es von Vorteil, wenn diese Rechtschreibfehler erkennt. Solr bietet hier das passende Feature unter der Bezeichnung "Spellchecking", oft auch umschrieben als DYM: "Did you mean...?".

Vorbetrachtung

Es gibt verschiedene Ansätze, eine Rechtschreibkorrektur über Solr zu realisieren. Vorab müssen zumindest 2 Dinge entschieden werden:
  1. Suchkomponente oder Dedizierter Requesthandler für die Rechtschreibprüfung und
  2. Wahl der Indexart

zu 1.) Kontakt zu Solr

Die Frage ist, über welchen Weg leitet man die Anfrage zur Rechtschreibprüfung an Solr?
Ein dedizierter Requesthandler nur für das Spellchecking ist dann sinnvoll, wenn die Rechtschreibkorrektur einen ganz besonderen Stellenwert einnimmt, wenn diese aufgrund der Last bspw. auf einer eigenen Instanz läuft oder Konfigurationen notwendig sind, die dem üblichen Request Handeler (bspw. /select ) entgegen stehen.
Üblicher weise reicht es aus, den klassischen Request Handler um die Spellchecking-Komponente zu erweitern. Dies hat den Vorteil, dass man mit nur einem Request die Suche durchführen und gleichzeitig einen Vorschalg zur Rechtschreibkorrektur von Solr erfragen kann.

zu 2.) Indexart

Spellchecking benötigt bei Solr eine Ansammlung an Worten, mittels derer die Rechtschreibprüfung durchgeführt wird. Dazu gibt es 3 Alternativen: Dateibasiert (FileBasedSpellChecker), mit einem separaten Spellchecking-Index (IndexBasedSpellChecker), oder basierend aufgrund der Informationen im aktuellen Index (DirectSolrSpellChecker).
Der große Nachteil beim Index basierten Spellchecker ist, dass der Index regelmäßig neu gebaut werden muss. Idealer Weise nach einer Optimierung des Solr-Index. Bei Systemen mit einer hohen Änderungsrate, gibt es jedoch oft einen commit, aber selten in optimize. Hier wird es schwer, den richtigen Zeitpunkt für den Neubau des Spellchecking-Index zu finden, denn ein Neubau nach jedem commit kostet sehr viel Performance.
Darüber hinaus gibt es noch den WordBreakSolrSpellChecker. Ein Spellcheck-Typ, der auf Basis geteilter Worte arbeitet und mit einem der übrigen Spellchecker kombiniert werden kann.

Im weiteren Verlauf konzentrieren wir uns auf folgende Kombination: DirectSolrSpellChecker und Standard Request Handler /select mit spellcheck component.

Konfiguration

schema.xml

 Der DirectSolrSpellChecker bezieht die Basis seiner Arbeit aus dem aktuellen Index und dort aus einem frei definierbaren Feld. In aller Regel sind die Informationen in Solr allerdings durch entsprechende Analysen, Stemming-Prozesse, etc. so verändert, dass sie für die Rechtschreibprüfung nicht mehr genutzt werden können.
Kurzum: es empfiehlt sich, für das "Meinten Sie..." Feature, einen eigenen Feldtyp zu erschaffen, der nur minimale Bearbeitungen eines Terms vornimmt. Wir nennen diesen Typ in unserem Beispiel: text_spell.

<fieldType name="text_spell" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true"
                    words="stopwords-de.txt"/>
            <filter class="solr.StandardFilterFactory"/>
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    </analyzer>
    <analyzer type="query">
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms-de.txt"
                        ignoreCase="true" expand="true"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true"
                    words="stopwords-de.txt"/>
            <filter class="solr.StandardFilterFactory"/>
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    </analyzer>
</fieldType>


Zusätzlich definieren wir ein neues Feld (SPELL_TEXT), dem wir diesen Feldtyp zuweisen.
<field name="SPELL_TEXT" type="text_spell" indexed="true" stored="false"/>

Abschließend muss dieses Feld noch mit informationen gefüllt werden. Dazu kopieren wir einfach die Werte aus dem Standard-Volltextfeld eines jeden Dokumentes. Der für die schema.xml notwendige Eintrag sieht dazu wie folgt aus:

<copyField source="TEXT" dest="SPELL_TEXT" />


solrconfig.xml

In der solrconfig.xml muss zunächst der Request Handler /select mit der Spellcheck-Komponenten verknüpft werden. Dies passiert durch eintragen eines XML Feldes:
 </requestHandler>
   [...]
       <arr name="last-components">
           <str>spellcheck</str>
        </arr>
  </requestHandler>

Im nächsten Schritt muss die Komponente mit dem Namen "spellcheck" definiert werden. Ebenfalls in der solrconfig.xml, nur außerhalb des Request-Handlers, als eigener Abschnitt, als eigenen searchComponent.

 <searchComponent name="spellcheck" class="solr.SpellCheckComponent">
    <str name="queryAnalyzerFieldType">text_spell</str>
    <lst name="spellchecker">
      <str name="name">default</str>
      <str name="classname">solr.DirectSolrSpellChecker</str>
      <str name="field">SPELL_TEXT</str>
      <str name="spellcheckIndexDir">spellchecker</str>
      <float name="accuracy">0.65</float>

      <str name="comparatorClass">freq</str>
      <float name="maxQueryFrequency">0.0001</float>
      <float name="thresholdTokenFrequency">0.0002</float>
      <int name="maxInspections">5</int>
      <int name="maxEdits">2</int>
      <str name="distanceMeasure">internal</str>
    </lst>
 </searchComponent>


Hier werden wichtige Einstellungen zum Verhalten des Spellcheckers gemacht.
Insbesondere wird hier der Spellchecker mit dem dafür vorgesehenen Feldtyp und dem dafür eingerichteten Feld (SPELL_TEXT) verknüpft.

  • <float name="accuracy">0.65</float> 
  • 65% des Wortes muss mit dem Vorschlag überein stimmen, damit es in die Kandidatenliste für Vorschläge kommt.
  • <float name="maxQueryFrequency">0.0001</float> 
  • Maximale Prozentzahl (0.01 = 1%) an Dokumenten in denen ein Wort auftauchen darf, damit es als "zu korrigieren" Kandidat angesehen wird
  • <float name="thresholdTokenFrequency">0.0002</float> 
  •  Minimale Prozentzahl an Dokumenten, in denen Vorschläge auftauchen müssen, damit sie als Vorschläge akzeptiert werden.

Nach der Konfiguration ganz wichtig: Solr neu starten und den Index einmalig neu aufbauen, damit das Feld SPELL_TEXT gefüllt wird.

Abfrage mit Spellchecking

 Nachdem alles konfiguriert ist, kann nun eine Solr Abfrage genutzt werden, um die Informationen zum Spellchecking zu erhalten. Grundsätzlich ist dazu nur ein weiterer Paremeter notwendig:spellcheck=true
http://localhost:8088/solr/select/?q=brelin&spellcheck=true
Neben der bekannten Ergebnisliste (mit oder ohne Treffer)  liefert Solr neu einen eigenen Block für die Rechtschreibprüfung, dessen Ausgabe man verarbeiten kann:
"responseHeader":{
    "status":0,
    "QTime":86,
    "params":{
      "spellcheck":"true",
      "indent":"true",
      "q":"brelin",
      "wt":"json",
      "rows":"1"}},
  "response":{"numFound":0,"start":0,"docs":[]
  },
  "spellcheck":{
    "suggestions":[
      "brelin",{
        "numFound":1,
        "startOffset":0,
        "endOffset":6,
        "suggestion":["berlin"]},
      "collation","berlin"]}}

Zusätzliche Parameter

Je nach Anwendungsfall kann man die Abfrage mit aktivem Spellchecking durch weitere Parameter anpassen. Diese können direkt an die abfragende URL angebunden werden oder Teil der solrconfig.xml sein. Es gibt eine ganze Reihe von Parametern. Zwei möchte ich hier ansprechen.
  • collation

    Collation (im oberen Beispiel bereits aktiv) schlägt eine alternative Suchphrase vor. Das ist vor allem interessant, wenn die Suchanfrage aus mehreren Wörtern besteht. Letztlich kann man die Ausgabe von Collation direkt dazu nutzen, eine "Meinten Sie...?" Ausgabe zu erzeugen.
    Beispiel: "hmaburger essen in brelin" bringt folgende Spellchecking-Ausgabe
      "spellcheck":{
        "suggestions":[
          "hmaburger",{
            "numFound":1,
            "startOffset":0,
            "endOffset":9,
            "suggestion":["hamburger"]},
          "brelin",{
            "numFound":1,
            "startOffset":19,
            "endOffset":25,
            "suggestion":["berlin"]},
          "collation","hamburger essen in berlin"]}}
    
    
  • onlyMorePopular

    Solr hat meist mehrere Begriffe zur Auswahl, die als potentieller Vorschlag für eine Rechtschreibkorrektur passen könnten. Mit dem Parameter "onlyMorePopular" werden nur diejenigen Begriff als Vorschlag berücksichtigt, die mehr Treffer in einer Suche bringen würden, als der aktuelle Suchbegriff.