SOLR & nutch - TEIL 1


Vorraussetzung

  • Unix / Windows (cygwin)
  • Java Runtime Environment
  • (Apache ant - nur bei Verwendung des src Package)
  • apache-nutch 1.9 & solr 4.10.x

Es gibt grundsätzlich 2 Arten wie man nutch installieren kann: 1 man nutzt das binary Package, 2 man nutzt das source Package. Wichtig dabei ist zu wissen, dass bei der Verwendung der src Apache ant installiert sein muss.

Eine kurze Anleitung gibts hier

JAVA Setup

Damit nutch funktioniert brauchen wir die Umgebungsvariable JAVA_HOME. Prüfen lässt sich das auf Unix Systemen mit dem Befehl "env".

Um die Variable zu setzten reicht folgender Befehl:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Crawler Setup

Nachdem wir nutch installiert haben gehen wir ins conf/ Verzeichnis. Dort öffnen wir nun die nutch-site.xml. Hier wird der Crawler konfiguriert. Alle Einstellungen die man machen kann findet man in der nutch-default.xml. Wir nutzen hier nur folgende Einstellungen :

<property>

<name>http.agent.name</name>
<value>werkraum Crawler</value>

</property>

<property>

<name>fetcher.server.delay</name>
<value>0.5</value>

</property>

<property>

<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

</property>

Als nächstes erstellen wir ein Verzeichnis "urls" mit der Datei "seed.txt" darin schreiben wir pro Zeile unsere Urls die wir später Crawlen möchten.

Zum Beispiel: werkraum.net

Nun müssen wir noch die Datei regex-urlfilter.txt anpassen:

Da wir auch parameterisierte Seiten haben müssen wir folgende Zeile auskommentieren: 

# skip URLs containing certain characters as probable queries, etc.

#-[?*!@=]

Damit tatsächlich nur die gewollten Seiten gecrawled werden muss noch folgende Zeile eingetragen werden:

+^(http://|https://)([a-z0-9]*\.)*werkraum.net/

 

Das wars auch schon. Damit kann man bereits die Seite crawlen. 

Anbindung an den Solr kommt dann mit dem nächsten Teil der Serie.

Kategorien

  Devblog

Hat dir der Artikel gefallen?

Werkraum News: