SOLR & nutch - TEIL 1
Vorraussetzung
- Unix / Windows (cygwin)
- Java Runtime Environment
- (Apache ant - nur bei Verwendung des src Package)
- apache-nutch 1.9 & solr 4.10.x
Es gibt grundsätzlich 2 Arten wie man nutch installieren kann: 1 man nutzt das binary Package, 2 man nutzt das source Package. Wichtig dabei ist zu wissen, dass bei der Verwendung der src Apache ant installiert sein muss.
Eine kurze Anleitung gibts hier
JAVA Setup
Damit nutch funktioniert brauchen wir die Umgebungsvariable JAVA_HOME. Prüfen lässt sich das auf Unix Systemen mit dem Befehl "env".
Um die Variable zu setzten reicht folgender Befehl:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Crawler Setup
Nachdem wir nutch installiert haben gehen wir ins conf/ Verzeichnis. Dort öffnen wir nun die nutch-site.xml. Hier wird der Crawler konfiguriert. Alle Einstellungen die man machen kann findet man in der nutch-default.xml. Wir nutzen hier nur folgende Einstellungen :
<property>
<name>http.agent.name</name>
<value>werkraum Crawler</value>
</property>
<property>
<name>fetcher.server.delay</name>
<value>0.5</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
Als nächstes erstellen wir ein Verzeichnis "urls" mit der Datei "seed.txt" darin schreiben wir pro Zeile unsere Urls die wir später Crawlen möchten.
Zum Beispiel: werkraum.net
Nun müssen wir noch die Datei regex-urlfilter.txt anpassen:
Da wir auch parameterisierte Seiten haben müssen wir folgende Zeile auskommentieren:
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
Damit tatsächlich nur die gewollten Seiten gecrawled werden muss noch folgende Zeile eingetragen werden:
+^(http://|https://)([a-z0-9]*\.)*werkraum.net/
Das wars auch schon. Damit kann man bereits die Seite crawlen.
Anbindung an den Solr kommt dann mit dem nächsten Teil der Serie.
Hat dir der Artikel gefallen?
Werkraum News:

Wie füge ich CKEditor5 Plugins in TYPO3 12 ein?
Integriere mühelos CKEditor5-Plugins in TYPO3 12! Unser Teaser bietet einen kurzen Einblick, wie du die Vielseitigkeit des CKeditors optimierst und deine Textbearbeitung auf…

Der Schlüssel zur Lesbarkeit: Responsive Font Sizes
Im Dschungel der Internetseiten kann es frustrierend sein, wenn die Schriftgröße nicht mitspielt. Aber keine Sorge, Responsive Font Sizes sind hier, um sicherzustellen, dass…

Einblicke in das Logging-System von TYPO3 und Konfiguration von Log Writern
Tauche ein in die Welt des TYPO3-Loggings! Unser neuester Beitrag zeigt dir nicht nur, wie du das Logging-System optimal konfigurierst, sondern liefert auch Code-Beispiele für…