AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

Liste mit "unwichtigen" Wörtern

Ein Thema von TheAn00bis · begonnen am 5. Jan 2006 · letzter Beitrag vom 11. Jan 2006
Antwort Antwort
Seite 1 von 2  1 2      
TheAn00bis

Registriert seit: 7. Jun 2004
386 Beiträge
 
#1

Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:14
Hey,

ich suche eine Liste mit allen Artikeln, Pronomen, Konjunktionen etc. der deutschen Sprache.

Diese benötige ich für ein Programm, dass Benutzereingaben mit Datenbankeinträgen vergleicht.
Dabei sollen unwichtige Wörter nicht relevant sein. Deßhalb will ich aus der Datenbank
beim Aufruf eben diese Wörter herausfiltern.

Eine andere Möglichkeit sehe ich nicht,
außer von jedem Eintrag einen gefilterten und einen nicht gefilterten zu erstellen,
was aber zu aufwändig wäre.

Wenn sich keine Liste findet, werde ich dise wohl selbst erstellen müßen.
Allerdings fürchte ich dabei Wörter zu vergessen, was bei der so komplexen deutschen Sprache leicht passiert.
(im Englischen z.B. schon weniger)

Wäre echt dankbar, wenn jemand so eine Liste kennte.
  Mit Zitat antworten Zitat
Nicolai1234

Registriert seit: 21. Feb 2004
1.008 Beiträge
 
Turbo Delphi für Win32
 
#2

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:24
Sag mal genau, wozu das gut sein soll.

Ich hatte sowas neulich auch und habe das mit einem Levenshtein Vergleich gemacht.
  Mit Zitat antworten Zitat
Benutzerbild von Sharky
Sharky

Registriert seit: 29. Mai 2002
Ort: Frankfurt
8.252 Beiträge
 
Delphi 2006 Professional
 
#3

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:25
Zitat von TheAn00bis:
... Dabei sollen unwichtige Wörter nicht relevant sein. ...
Hai Du,

ich behaupte jetzt einfach mal: Deine Mühe ist vergebens.
Selbst wenn Du eine Tabelle mit allen deutschen Wörtern finden solltest (welche es ja nicht gibt) hast Du noch immer das Problem zu entscheiden welche Wörter nach deiner Meinung "unwichtig" sein sollten.

Da es allgemein keine Regelung gibt wirst Du da nicht weiter kommen.
Stephan B.
"Lasst den Gänsen ihre Füßchen"
  Mit Zitat antworten Zitat
alzaimar
(Moderator)

Registriert seit: 6. Mai 2005
Ort: Berlin
4.956 Beiträge
 
Delphi 2007 Enterprise
 
#4

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:28
Du kannst Dir doch einfach diverse Texte nehmen und erstmal alle 2- und 3-buchstabigen Wörter auflisten. Dannn gehst Du die durch und hast schon mal einen guten Anfang. So auf die Schnelle wüsste ich auch nicht, wo man sowas her bekommt. Vielleicht beim Duden-Verlag mal anfragen.

@Sharky: Seine Vorgehensweise ist der klassische Start bei einer Volltextindizierung mit 4-Grammen. Er will ja nicht alle deutschen Wörter, sondern die Füllwörter, die für den Inhalt eines Artikels irrelevant sind.
"Wenn ist das Nunstruck git und Slotermeyer? Ja! Beiherhund das Oder die Flipperwaldt gersput!"
(Monty Python "Joke Warefare")
  Mit Zitat antworten Zitat
lizardking

Registriert seit: 2. Sep 2005
76 Beiträge
 
Delphi 7 Enterprise
 
#5

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:43
Am Besten such mal bei google noch "stop words" bzw. "Stop(p)worte" in Kombination mit Worten wie Liste,Index etc. Da duerftest Du irgendwo fuendig werden. Ist genau das was Du suchst und findet man haeufig bei irgendwelchen Projekten, die sich um Suchdienste drehen.

Gruss,

Lizzy
  Mit Zitat antworten Zitat
Benutzerbild von Lannes
Lannes

Registriert seit: 30. Jan 2005
Ort: Münster
745 Beiträge
 
Delphi 3 Professional
 
#6

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 20:49
Hallo,

ein Anfang:
Code:
ab aber ähnlich alle allein allem aller alles allg allgemein als also am an and andere anderes auch auf aus außer been bei beim besonders bevor bietet bis bzw da dabei dadurch dafür daher dann daran darauf daraus das daß davon davor dazu dem den denen denn dennoch der derem deren des deshalb die dies diese diesem diesen dieser dieses doch dort durch eben ein eine einem einen einer eines einfach er es etc etwa etwas for für ganz ganze ganzem ganzen ganzer ganzes gar gleich gute hat hinter ihm ihr ihre ihrem ihren ihrer ihres im in ist ja je jede jedem jeden jeder jedes jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner keines kommen kommt können leicht machen man mehr mehrere meist mit muß nach neu neue neuem neuen neuer neues nicht noch nur ob oder of ohne per schwierig sehr sein seinem seinen seiner seines seit selbst sich sie sind so sodaß solch solche solchem solchen solcher solches sollte sollten soviel sowohl statt über um und uns unser unsere unseren unseres unter viel viele vom von vor wann war was wenig wenige weniger wenn wer wie wieder wieviel wird wirklich wo wurde wurden zu zum zur zwischen
MfG Lannes
(Nichts ist nicht Nichts) and ('' <> nil ) and (Pointer('') = nil ) and (@('') <> nil )
  Mit Zitat antworten Zitat
Benutzerbild von Ralf Kaiser
Ralf Kaiser

Registriert seit: 21. Mär 2005
Ort: Wuppertal
932 Beiträge
 
Delphi 10.3 Rio
 
#7

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 21:00
Zitat von TheAn00bis:
Hey,

Wäre echt dankbar, wenn jemand so eine Liste kennte.
Halli Hallo,

solche "Stoppwortlisten" werden häufig in der linguistischen Textanalyse (z.B. beim extrahieren von spezifischen Terminologien aus Fliesstexten) benutzt.

Als Anfang kannst du beispielsweise mal auf http://www.ranks.nl/stopwords nachsehen (diesen Link hatte ich gerade noch greifbar). Dort gibt es Stoppwortlisten für 17 Sprachen, darunter auch Deutsch. Gute Fundstellen für Stoppwortlisten sind auch die Seiten der linguistischen Institute verschiedener Unis.

Ciao,
Ralf
Ralf Kaiser
  Mit Zitat antworten Zitat
TheAn00bis

Registriert seit: 7. Jun 2004
386 Beiträge
 
#8

Re: Liste mit "unwichtigen" Wörtern

  Alt 5. Jan 2006, 22:18
Vielen Dank!

Über die Begriffe "Stopwortliste" und "stop words" findet man ja echt vieles im Internet. Werde dann wohl einige Listen zusammenpacken!

@Nicolai1605: Den Levenstein verwende ich schon um Tippfehler rauszubügeln.

@Lannes: Danke, wirklich gut für den Anfang.

@Sharky: Wie alzaimar schon sagte sollen nur all diese üblichen Füllworte rausfallen.


Eine Sprache ohne diese Worte wäre interessant. Ich denke man würde mindestenz 50% allein über Redundanz verstehen können.
  Mit Zitat antworten Zitat
King555
(Gast)

n/a Beiträge
 
#9

Re: Liste mit "unwichtigen" Wörtern

  Alt 10. Jan 2006, 15:23
Im kostenlos erhältlichen Woltlab Burning Board Lite (www.woltlab.de) gibt es auch so eine Liste. Die ist dazu da, dass "unwichtige" Wörter nicht in den Suchindex aufgenommen werden. Da kommst du sicher auch leicht an eine Liste.
  Mit Zitat antworten Zitat
alzaimar
(Moderator)

Registriert seit: 6. Mai 2005
Ort: Berlin
4.956 Beiträge
 
Delphi 2007 Enterprise
 
#10

Re: Liste mit "unwichtigen" Wörtern

  Alt 11. Jan 2006, 07:54
Zitat von TheAn00bis:
Eine Sprache ohne diese Worte wäre interessant. Ich denke man würde mindestenz 50% allein über Redundanz verstehen können.
Chinesisch hat sich, bedingt durch das hohe Alter der Sprache, mittlerweile soweit selbst optimiert. Ich weiss jetzt nicht, ob sie ganz ohne Füllwörter (Stopwörter) auskommen, aber zumindest den Ballast der Verbformen, Zeiten, Deklinationen hat die Sprache abgeschüttelt.

Deine Liste finde ich etwas zu grobmaschig: Ein Text über die "Einfachheit des Seins" wird somit vermutlich auf NULL gekürzt. Hmm.. Auch eine Aussage über die Relevanz des Inhalts.

Wieso ist 'Neu' ein Stoppwort, aber 'Alt' nicht?` Wieso 'kommen', aber 'gehen' nicht? Sollte man Verben nicht rausnehmen?
"Wenn ist das Nunstruck git und Slotermeyer? Ja! Beiherhund das Oder die Flipperwaldt gersput!"
(Monty Python "Joke Warefare")
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 1 von 2  1 2      


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 11:48 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz