DesktopSuchmaschine

From Dietrich Blog (Strato)
Jump to: navigation, search

Siehe auch: CopernicDesktopSearch, YahooDesktopSearch, Google, Metadaten, SuchMaschinen

Meine Anforderungen

Die wichtigste Funktion meines Wissensmanagements (KnowledgeManagement) ist, Dinge wiederaufzufinden, die ich schon irgendwo (auf meinem PC (oder in Papierablagen) habe.
Ich möchte möchte nun aber ganz schlicht und ergreifend in allen meinen Dateien auf meinem Notebook-Computer suchen. Für diesen Fall muss ein Index aufgebaut werden, der dann als Basis für Suchanfragen dient.

Short List Desktop Search

Copernic
Produkt "Copernic Desktop Search 1.0" http://www.copernic.com/en/products/desktop-search Windows-Oberfläche, Dateien: TXT/RTF DOC XLS, PPT, Outlook-Mail, PDF, Music, Video, Pictures (ZIP?????)
Google
Produkt Google Desktop Search http://desktop.google.com Dateien: TXT, DOC, XLS, PPT, Outlook-Mail (PDF nicht)
Filehand
Produkt "FilehandSearch 2.0" http://www.filehand.com Oberfläche: Windows, Dateien: TXT, DOC, XLS, PPT, PDF, MP3 (ZIP???)
X1 Technologies
Produkt "X1Search" http://www.x1.com Oberfläche: Windows, ....
X-Dot
Produkt "x-friend 0.2" http://www.x-friend.de Browser-Oberfläche, Java-basiert, verwendet Apache-Lucene, Dateien: TXT, DOC, XLS, PPT, PDF, IMAP E-Mail, MP3 ID3 Tag, Bilder, ZIP-Archive,...
Yahoo Desktop Search
Yahoo hat sich mit X1Search zusammen getan und eine bessere Oberfläche geschaffen. Überragender Pluspunkt bleibt die Viewer-Technologie von X1Search (ex Magellan) YahooDesktopSearch

Meine Bewertung

Produkt/Klasse Pro Contra
CopernicDesktopSearch 1.0
Desktop-Indexer
Dokumenten-Preview
On-the-fly indexing
Kleiner Index (Beispiel: 662MB/34MB)
E-Mail nur Outlook, nicht IMAP/POP3
Indiziert nicht den Inhalt von ZIP-Archiven!!!
Filehand 2.0 Windows-Oberfläche Inhalte von ZIP-Archiven werden nicht indiziert
Google Desktop Search Google PDF nicht indiziert
Nocht nicht fertig (Beta)
X1Search 04.09
Desktop-Indexer
Inhalte von ZIP-Archiven werden indiziert
Dokument-Preview integriert
Guter PowerPoint-Preview
teuer: $99
Thunderbird-Email wird nicht indiziert
Im PPT-Preview wird nicht mit Autoscroll auf "first occurance" positioniert
x-friend 0.2
Desktop-Indexer
Plattformunabhägig durch Java
Beliebiger WebBrowser
Gut passend zur meiner Architektur (Java, WebBrowser,
Apache Lucene, IMAP...)
E-Mail IMAP
Selbsttragende CD-Indizierung
Inhalte von ZIP-Archiven werden nicht indiziert
PowerPoint PPT wird nicht indiziert
POP3-Email wird nicht indiziert
Preview von der Ansichsgrösse nicht einstellbar
Sehr schlichter PPT Preview

Meine Lösungsauswahl

Copernic oder X1Search

Copernic bestechen durch seine sehr elegante Windows-Oberfläche. Allerdings ist die Funktionalität von Copernic nicht ausreichend. Es bleibt X1Search, das zwar nicht so elegant aussieht, aber durch solide Funktionalität überzeugt.


Indizieren: Was soll, was soll nicht indiziert werden

Da das aufbauen und Aktualisieren eines solchen Index erstens Zeit kostet und zweitens Platz kostet, loht es sich zu überlegen, welche Datei-Typen man wirklich indizieren will und welche man nicht indizieren will.

Postiv (sollen indiziert werden)

Zur Konfiguration von Indexern (Teil einer Suchmaschinen-Archtektur) benötigt man MIME-Types und Parser für jeden MIME-Type:

Extension MIME Type Parser
.dbf application/dbase
application/x-dbase
 ?
.doc application/msword catdoc aus: http://freshmeat.net/projects/catdoc/
.pdf application/pdf pdftotext.exe aus XPDF: http://www.foolabs.com/xpdf/
.rtf application/rtf  ?
.xls application/vnd.ms-excel catdoc aus: http://freshmeat.net/projects/catdoc/
.ppt application/vnd.ms-powerpoint  ?
.html text/html OK
.htm text/htm OK
.svg image/svg+xml  ?
.txt text/plain OK
.vsd application/vnd.visio Visio
.xml text/xml
application/XML
 ?
.xsl  ?  ?
.zip application/zip  ?


Negativ (sollen nicht indiziert werden)

  • *.bak
  • *.dbs
  • *.dl_
  • *.do_
  • *.dsk
  • *.ex_
  • *.e2_
  • *.ndx
  • *.ffx (löschen)
  • *.ffo (löschen)
  • *.ffl (löschen)
  • *.ffa (löschen)
  • *.pqi
  • *.z


-- Dkracht 21:47, 3 July 2011 (CEST)