SOLR & nutch - TEIL 1
Vorraussetzung
- Unix / Windows (cygwin)
- Java Runtime Environment
- (Apache ant - nur bei Verwendung des src Package)
- apache-nutch 1.9 & solr 4.10.x
Es gibt grundsätzlich 2 Arten wie man nutch installieren kann: 1 man nutzt das binary Package, 2 man nutzt das source Package. Wichtig dabei ist zu wissen, dass bei der Verwendung der src Apache ant installiert sein muss.
Eine kurze Anleitung gibts hier
JAVA Setup
Damit nutch funktioniert brauchen wir die Umgebungsvariable JAVA_HOME. Prüfen lässt sich das auf Unix Systemen mit dem Befehl "env".
Um die Variable zu setzten reicht folgender Befehl:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Crawler Setup
Nachdem wir nutch installiert haben gehen wir ins conf/ Verzeichnis. Dort öffnen wir nun die nutch-site.xml. Hier wird der Crawler konfiguriert. Alle Einstellungen die man machen kann findet man in der nutch-default.xml. Wir nutzen hier nur folgende Einstellungen :
<property>
<name>http.agent.name</name>
<value>werkraum Crawler</value>
</property>
<property>
<name>fetcher.server.delay</name>
<value>0.5</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
Als nächstes erstellen wir ein Verzeichnis "urls" mit der Datei "seed.txt" darin schreiben wir pro Zeile unsere Urls die wir später Crawlen möchten.
Zum Beispiel: werkraum.net
Nun müssen wir noch die Datei regex-urlfilter.txt anpassen:
Da wir auch parameterisierte Seiten haben müssen wir folgende Zeile auskommentieren:
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
Damit tatsächlich nur die gewollten Seiten gecrawled werden muss noch folgende Zeile eingetragen werden:
+^(http://|https://)([a-z0-9]*\.)*werkraum.net/
Das wars auch schon. Damit kann man bereits die Seite crawlen.
Anbindung an den Solr kommt dann mit dem nächsten Teil der Serie.
Hat dir der Artikel gefallen?
Werkraum News:

Aus den Tiefen des Codes in die Gipfel der Pfälzer Berge
Ein Teamevent mit fesselnden Sessions, gefolgt von einem atemberaubenden Wanderabenteuer.

Dein Code, Deine Zukunft: Programmiere Dir Deine IT-Karriere
Starte Deinen Weg in der IT-Welt mit dem dualen Informatik-Studium bei werkraum und der International University

TYPO3 Conference 2023: Expertenwissen, Auszeichnungen und unvergessliche Momente
In Düsseldorf gab es dieses Jahr inspirierende Vorträge, es wurde über die Zukunft des Web diskutiert und herausragende Leistungen anerkannt.