|
|
(24 intermediate revisions by the same user not shown) |
Line 1: |
Line 1: |
− | {{TOCright}}
| + | Has been moved to: http://blog.kr8.de/wiki-desktop-suchmaschine/ |
− | Siehe auch: [[CopernicDesktopSearch]], [[YahooDesktopSearch]], [[Google]], [[Metadaten]], [[SuchMaschinen]]
| |
− | == Meine Anforderungen ==
| |
− | Die wichtigste Funktion meines Wissensmanagements (KnowledgeManagement) ist, Dinge wiederaufzufinden, die ich schon irgendwo (auf meinem PC (oder in Papierablagen) habe.
| |
− | <br />Ich möchte möchte nun aber ganz schlicht und ergreifend in allen meinen Dateien auf meinem Notebook-Computer suchen. Für diesen Fall muss ein Index aufgebaut werden, der dann als Basis für Suchanfragen dient.
| |
− | | |
− | === Short List Desktop Search ===
| |
− | ;Copernic:Produkt "Copernic Desktop Search 1.0" http://www.copernic.com/en/products/desktop-search Windows-Oberfläche, Dateien: TXT/RTF DOC XLS, PPT, Outlook-Mail, PDF, Music, Video, Pictures (ZIP?????)
| |
− | ;Google:Produkt "Google Desktop Search" http://desktop.google.com Dateien: TXT, DOC, XLS, PPT, Outlook-Mail ('''PDF nicht''')
| |
− | ;Filehand:Produkt "FilehandSearch 2.0" http://www.filehand.com Oberfläche: Windows, Dateien: TXT, DOC, XLS, PPT, PDF, MP3 (ZIP???)
| |
− | ;SWISH-E:http://www.swish-e.org
| |
− | ;Wilbur:Produkt "Wilbur 2.2" http://wilbur.redtree.com Oberfläche: Windows,...
| |
− | ;X1 Technologies:Produkt "[[X1Search]]" http://www.x1.com Oberfläche: Windows, ....
| |
− | ;X-Dot:Produkt "x-friend 0.2" http://www.x-friend.de Browser-Oberfläche, Java-basiert, verwendet Apache-Lucene, Dateien: TXT, DOC, XLS, PPT, PDF, IMAP E-Mail, MP3 ID3 Tag, Bilder, ZIP-Archive,...
| |
− | ;Yahoo Desktop Search:Yahoo hat sich mit X1Search zusammen getan und eine bessere Oberfläche geschaffen. Überragender Pluspunkt bleibt die Viewer-Technologie von X1Search (ex Magellan) YahooDesktopSearch
| |
− | | |
− | ==Meine Bewertung ==
| |
− | | |
− | {|class=wikitable
| |
− | |-
| |
− | | '''Produkt/Klasse''' || '''Pro''' || '''Contra'''
| |
− | |-
| |
− | | [[CopernicDesktopSearch]] 1.0 <br />Desktop-Indexer || Dokumenten-Preview <br />On-the-fly indexing<br />Kleiner Index (Beispiel: 662MB/34MB) || E-Mail nur Outlook, nicht IMAP/POP3 <br /> Indiziert nicht den Inhalt von ZIP-Archiven!!!
| |
− | |-
| |
− | | [[dtSearch|dtSearch]] || Selbsttragende CD-Indizierung || teuer
| |
− | |-
| |
− | | Enfish 6.1 || kann PDF, PPT und ZIP-Inhalte <br />E-Mail Outlook, Lotus Notes, AOL-Mail <br />Schönes Pre-View|| E-Mail nicht Thunderbird <br /> kommerziell teuer
| |
− | |-
| |
− | | Filehand 2.0 || Windows-Oberfläche || Inhalte von ZIP-Archiven werden nicht indiziert
| |
− | |-
| |
− | | Google || || PDF nicht indiziert<br />Nocht nicht fertig (Beta) ||
| |
− | |-
| |
− | | htDig <br />Website-Indexer || Bestandteil der Linux SuSE Edition || CGI-Binary muss kompiliert werden ([[Cygwin|Cygwin]])
| |
− | |-
| |
− | | mnogoserach || ||
| |
− | |-
| |
− | | PerlfectSearch <br />Website-Indexer || Plattformen Linux/Windows durch [[Perl|Perl]] <br /> Internationalisierung durch i18n <br />Website-Indexer || PDF und Word durch Third-Party-Zusätze
| |
− | |-
| |
− | | Wilbur 2.2 <br />Desktop-Indexer || Inhalte von ZIP-Archiven werden indiziert<br />CD-ROM Indexing <br />QuickView support <br />Freeware || PDF und Thunderbird-Email wird indexiert <br /> Word und PowerPoint werden nicht indexiert.<br /> Kein Document Preview, aber Integration mit QuickView
| |
− | |-
| |
− | | [[X1Search|X1Search]] 04.09 <br />Desktop-Indexer || Inhalte von ZIP-Archiven werden indiziert<br />Dokument-Preview integriert<br />Guter PowerPoint-Preview || teuer: $99 <br /> Thunderbird-Email wird nicht indiziert<br />Im PPT-Preview wird nicht mit Autoscroll auf "first occurance" positioniert
| |
− | |-
| |
− | | x-friend 0.2<br />Desktop-Indexer || Plattformunabhägig durch Java <br />Beliebiger WebBrowser <br />Gut passend zur meiner Architektur ([[Java|Java]], WebBrowser, <br />Apache Lucene, IMAP...) <br />E-Mail IMAP<br />Selbsttragende CD-Indizierung || Inhalte von ZIP-Archiven werden nicht indiziert<br /> '''PowerPoint PPT wird nicht indiziert''' <br /> POP3-Email wird nicht indiziert <br />Preview von der Ansichsgrösse nicht einstellbar <br />Sehr schlichter PPT Preview
| |
− | | |
− | |}
| |
− | | |
− | == Meine Lösungsauswahl ==
| |
− | Für das russische '''mnogoserach''' spricht die Verwendung von PHP für die Search-Funktion.
| |
− | | |
− | Allerdings wird ein modifiziertes PHP benutzt, das man sich selbst durch Compilation erzeugen muss. Da die Lösung bei einfachen Providern laufen soll, scheidet diese Variante aus.
| |
− | | |
− | Für die Variante '''ht://Dig''' spricht:
| |
− | * Die sehr grosse Verbreitung und damit eine Sicherheit für eine mittelfristig gesicherte Nutzung
| |
− | * ht://Dig wird als Bestandteil der SuSE 8.0 Edition mit ausgeliefert (binary)
| |
− | * Eine Compilation unter Win98 mit Cygwin war auf Anhieb erfolgreich.
| |
− | | |
− | Nachteil bei ht://Dig ist nachwievor, dass die Such-Oberfläche als CGI-Executable realisiert ist. Nicht jeder Web-Hosting-Provider lässt "freie CGIs" zu.
| |
− | | |
− | Die Auswahl fiel trotzdem auf HtDig, da die Ausgereiftheit und Mächtigkeit der Funktionen sowie die solide Community einfach überzeugen. Der Nachteil der CGI-Suchoberfläche wird im Sinnne der Architektur in Kauf genommen, mit der Idee, dafür im Laufe der Zeit einen Austausch vorzunehmen. Die Idee ist, eine PHP-Suchoberfläche entweder direkt auf die Berkely-DB2-Datenbank zu setzten, oder die DB2 auf MySQL zu konvertieren und dann eine PHP-Oberfläche darauf zu setzen.
| |
− | | |
− | '''Mehr Komfort: Enfish oder Copernic oder X1Search'''
| |
− | | |
− | Enfish 6.1 und Copernic bestechen durch sehr elegante Windows-Oberflächen. Allerdings ist die Funktionalität von Copernic nicht ausreichend und Enfish 6.1, das sehr mit seiner Lotus-Notes-Email-Indexierung lockt, ist viel zu teuer. Es bleibt [[X1Search|X1Search]], das zwar nicht so elegant aussieht, aber durch solide Funktionalität überzeugt.
| |
− | | |
− | -----------------------
| |
− | | |
− | === Indizieren: Was soll, was soll nicht indiziert werden ===
| |
− | Da das aufbauen und Aktualisieren eines solchen Index erstens Zeit kostet und zweitens Platz kostet, loht es sich zu überlegen, welche Datei-Typen man wirklich indizieren will und welche man nicht indizieren will.
| |
− | | |
− | ==== Postiv (sollen indiziert werden) ====
| |
− | Zur Konfiguration von Indexern (Teil einer Suchmaschinen-Archtektur) benötigt man MIME-Types und Parser für jeden MIME-Type:
| |
− | | |
− | {| border="1"
| |
− | |-
| |
− | | Extension || MIME Type || Parser
| |
− | |-
| |
− | | .dbf || application/dbase<br />application/x-dbase || ?
| |
− | |-
| |
− | | .doc || application/msword || catdoc aus: http://freshmeat.net/projects/catdoc/
| |
− | |-
| |
− | | .pdf || application/pdf || pdftotext.exe aus XPDF: http://www.foolabs.com/xpdf/
| |
− | |-
| |
− | | .rtf || application/rtf || ?
| |
− | |-
| |
− | | .xls || application/vnd.ms-excel || catdoc aus: http://freshmeat.net/projects/catdoc/ ||
| |
− | |-
| |
− | | .ppt || application/vnd.ms-powerpoint || ?
| |
− | |-
| |
− | | .html || text/html || OK
| |
− | |-
| |
− | | .htm || text/htm || OK
| |
− | |-
| |
− | | .svg || image/svg+xml || ?
| |
− | |-
| |
− | | .txt || text/plain || OK
| |
− | |-
| |
− | | .vsd || application/vnd.visio || Visio
| |
− | |-
| |
− | | .xml || text/xml<br />application/XML || ?
| |
− | |-
| |
− | | .xsl || ? || ?
| |
− | |-
| |
− | | .zip || application/zip || ?
| |
− | |}
| |
− | | |
− |
| |
− | ==== Negativ (sollen nicht indiziert werden) ====
| |
− | * *.bak
| |
− | * *.dbs
| |
− | * *.dl_
| |
− | * *.do_
| |
− | * *.dsk
| |
− | * *.ex_
| |
− | * *.e2_
| |
− | * *.ndx
| |
− | * *.ffx (löschen)
| |
− | * *.ffo (löschen)
| |
− | * *.ffl (löschen)
| |
− | * *.ffa (löschen)
| |
− | * *.pqi
| |
− | * *.z
| |
− | | |
− | | |
− | -- [[User:Dkracht|Dkracht]] 21:47, 3 July 2011 (CEST)
| |