![]() |
Textfiles mit unterschiedlichen codepages gesucht
Hallo Leute.
Ich bastle gerade an einem "Codepage Indetifizierer" -- d.h. das Ding versucht die Codepage zu ermitteln, in welcher die Datei gespeichert worden ist. (Bitte keine Diskussion über die Unmöglichkeit dieses Vorhabens. Eine gute Schätzung reicht völlig aus -- und die habe ich.) Jetzt suche ich irgendwo im Netz nach Text-Files; toll wäre wenn sie alle den gleichen -- Standardtext -- enthielten, aber ganz sicher in verschiedenen Codepages gespeichert worden sind, so dass ich diese Files als Stichproben für mein Projekt verwenden kann. Habt ihr eine Idee wo ich solche Text-Files (am liebsten auch von verschiedenen Plattformen (Macs, Linux etc.) herbekommen könnte? Lieben Dank & Gruß Jasmin |
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
Zitat:
|
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
|
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
Zitat:
#13 = Mac #10 = Linux #13#10 = Windows Aber dieses ist auch nicht ganz zuverlässig, denn z.B. das neue RichEdit-Control in Windows arbeitet standardmäßig mit #10. Im Endefekt geht sowas nur über eine Sprachanalyse, wobei du da dann schauen kannst, wie die jeweiligen Nicht-ASCII-Zeichen kodiert sind, um die verwendete Codepage abzuschätzen. Was man relativ leicht abschätzen kann, ist ob UnicodeBE, UnicodeLE (UTF-16), UTF-7, UTF-8, Ansi (in unbekannter Codepage). |
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
Aber ich glaube ich schon was gefunden, was mir erstmal helfen wird: ![]() Vielen Dank & Gruß Jazzman |
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
![]() ![]() Dann solltest du Raymond mal deinen Trick verraten. ;) |
Re: Textfiles mit unterschiedlichen codepages gesucht
Zitat:
Och, ich denke Raymond wird den Trick (der keiner ist) schon kennen, denn er schreibt ja selbst: Zitat:
Danke für den Hinweis (ich kannte die Taexte nicht -- aber soweit ich es erkennen kann, bestätigen sie mein Vorgehen). Gruß Jazzman |
Re: Textfiles mit unterschiedlichen codepages gesucht
Ach so OK. Mit BOM ist es einfach, das ist klar. Ich dachte, du hättest für ohne BOM einen Trick gefunden.
|
Re: Textfiles mit unterschiedlichen codepages gesucht
Im Europäischen und ähnlichen Sprachräumen kann man, durch 'ne sehr einfache Musteranalyse, derartige Formate auch ohne BOM relativ zuverlässig erkennen.
Sobald aber z.B. Unicode und oder asiatische Sprachräume ins Spiel kommen können, dann kann man es eigentlich vergessen und man ist auf ein BOM oder externe Informationen angewiesen. Wie gesagt, wenn du jetzt nur von Multibyte-Codepages ausgehst, dann kommst du um eine Sprachanalyse nicht drumrum, da ein Byte nunmal ein Byte bleibt, egal was für ein Buchstabe sich darin versteckt. Ob nun ein Byte, mit dem Wert $A9 z.B. ein deutsches Ä darstellt oder ein Russisches Irgendwas, das bkommst du aus diesem Byte niemals raus. Sowas geht eben nur über eine Verbindung der umliegenden Bytes, z.B. indem man signifikante Muster der zu erkennenden Sprachen (codiert in mehreren Codepages) sucht. Wenn man UTF-7 ignoriert, dann ist diesbezüglich ASCII das Einzige Format, welches man relativ sicher erkennen kann. Wie gesagt, es gab in den letzten Jahren schonmal soein Thema und dieses wurde dann nach vielen Diskusionen unter dem Ergebnis "teilweise nicht zuverlässig genug und im Rest nicht lösbar" aufgegeben. (wobei die Sprachanalyse damals auch, Aufgrund von "zu aufwändig" ignoriert wurde) PS: Du kannst dein Vorhaben hiermit vergleichen: ![]() Nur daß du als Lösung das Passwort&Algorithmus (Codepage) suchst, womit dieser Text verschlüsselt (gespeichert) wurde. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 20:48 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz