SOLR & nutch - TEIL 1
Vorraussetzung
- Unix / Windows (cygwin)
- Java Runtime Environment
- (Apache ant - nur bei Verwendung des src Package)
- apache-nutch 1.9 & solr 4.10.x
Es gibt grundsätzlich 2 Arten wie man nutch installieren kann: 1 man nutzt das binary Package, 2 man nutzt das source Package. Wichtig dabei ist zu wissen, dass bei der Verwendung der src Apache ant installiert sein muss.
Eine kurze Anleitung gibts hier
JAVA Setup
Damit nutch funktioniert brauchen wir die Umgebungsvariable JAVA_HOME. Prüfen lässt sich das auf Unix Systemen mit dem Befehl "env".
Um die Variable zu setzten reicht folgender Befehl:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Crawler Setup
Nachdem wir nutch installiert haben gehen wir ins conf/ Verzeichnis. Dort öffnen wir nun die nutch-site.xml. Hier wird der Crawler konfiguriert. Alle Einstellungen die man machen kann findet man in der nutch-default.xml. Wir nutzen hier nur folgende Einstellungen :
<property>
<name>http.agent.name</name>
<value>werkraum Crawler</value>
</property>
<property>
<name>fetcher.server.delay</name>
<value>0.5</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
Als nächstes erstellen wir ein Verzeichnis "urls" mit der Datei "seed.txt" darin schreiben wir pro Zeile unsere Urls die wir später Crawlen möchten.
Zum Beispiel: werkraum.net
Nun müssen wir noch die Datei regex-urlfilter.txt anpassen:
Da wir auch parameterisierte Seiten haben müssen wir folgende Zeile auskommentieren:
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
Damit tatsächlich nur die gewollten Seiten gecrawled werden muss noch folgende Zeile eingetragen werden:
+^(http://|https://)([a-z0-9]*\.)*werkraum.net/
Das wars auch schon. Damit kann man bereits die Seite crawlen.
Anbindung an den Solr kommt dann mit dem nächsten Teil der Serie.
Hat dir der Artikel gefallen?
Werkraum News:

WOW: unsere neue Video-Stellenausschreibung
Schau Dir den Film an und sieh selbst, warum Arbeiten bei werkraum mehr als irgendein Job ist

Unser Büro wird zum Filmset
Authentische Einblicke in unseren Alltag und die Drohne überm Fortshaus

Beyond Tellerrand - Inspiration pur
Zwei Tage mit spannenden Talks, die unseren Blickwinkel auf ein Neues erweitert haben