Unscharfe Suche für Terme geringer Frequenz in einem großen Korpus

Please use this identifier to cite or link to this item:
https://osnadocs.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-201101107278
Open Access logo originally created by the Public Library of Science (PLoS)
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorProf. Dr. Kai-Uwe Kühnberger
dc.creatorGerhards, Karl
dc.date.accessioned2011-01-10T13:52:34Z
dc.date.available2011-01-10T13:52:34Z
dc.date.issued2011-01-10T13:52:34Z
dc.identifier.urihttps://repositorium.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-201101107278-
dc.description.abstractUntil now infrequent terms have been neglected in searching in order to save time and memory. With the help of a cascaded index and the introduced algorithms, such considerations are no longer necessary. A fast and efficient method was developed in order to find all terms in the largest freely available corpus of texts in the German language by exact search, part-word-search and fuzzy search. The process can be extended to include transliterated passages. In addition, documents that contain the term with a modified spelling, can also be found by a fuzzy search. Time and memory requirements are determined and fall considerably below the requests of common search engines.eng
dc.rightsNamensnennung-NichtKommerziell-KeineBearbeitung 3.0 Unported-
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/-
dc.subjectSuche Retrieval Assoziativspeicherger
dc.subjectFuzzy Search Retrieval Corpus Assoziative Memoryeng
dc.subject.ddc020 - Bibliotheks- und Informationswissenschaften
dc.subject.ddc830 - Deutsche und verwandte Literaturen
dc.titleUnscharfe Suche für Terme geringer Frequenz in einem großen Korpusger
dc.title.alternativeFuzzy Search for Infrequent Terms in a Large Corpuseng
dc.typeDissertation oder Habilitation [doctoralThesis]-
thesis.locationOsnabrück-
thesis.institutionUniversität-
thesis.typeDissertation [thesis.doctoral]-
thesis.date2010-12-16-
dc.contributor.refereePD Dr. Helmar Gust
dc.subject.bk54.82 - Textverarbeitung
dc.subject.bk06.74 - Informationssysteme
dc.subject.ccsE.2 - DATA STORAGE REPRESENTATIONS
dc.subject.ccsI.5.2 - Design Methodology
ddb.annotationSelten vorkommende Terme wurden bei der Suche bisher vernachlässigt, um Zeit und Speicherplatz zu sparen. Mit einem kaskadierten Index und den vorgestellten Algorithmen sind solche Rücksichten nicht mehr erforderlich. Für das größte frei verfügbare Korpus mit Texten in deutscher Sprache wurde ein schnelles und effizientes Verfahren entwickelt, um alle Terme im Korpus mit exakter Suche, Teilwortsuche und unscharfer Suche aufzufinden. Das Verfahren ist erweiterungsfähig um transliterierte Textstellen. Darüber hinaus werden mit einer unscharfen Suche auch die Dokumente gefunden, die den Term in einer abgewandelten Schreibweise enthalten. Zeit- und Speicherbedarf werden ermittelt und unterschreiten die Anforderungen verbreiteter Suchmaschinen erheblich.ger
vCard.ORGFB8
Appears in Collections:FB08 - E-Dissertationen

Files in This Item:
File Description SizeFormat 
thesis_gerhards.pdfPräsentationsformat2,13 MBAdobe PDF
thesis_gerhards.pdf
Thumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons