Einzelnen Beitrag anzeigen

Benutzerbild von Assarbad
Assarbad

Registriert seit: 8. Okt 2010
Ort: Frankfurt am Main
1.234 Beiträge
 
#14

AW: Womit kann man versteckte Unicode/ASCII-Zeichen im Code finden ?

  Alt 27. Mai 2020, 11:42
Hab das jetzt mal mit ripgrep in meinem Home-Verzeichnis durchexerziert:
Code:
rg -P '[^\x00-\x7FÄÖÜäöüß]'
... du kannst andere Zeichen zwischen ß und ] einfügen.

Falls du dich mit RE noch nicht so auskennst: "[]" definiert eine Menge von Zeichen auf die der Ausdruck zutrifft, "^" negiert das, "\x00-\x7F" trifft auf alle ASCII-Zeichen (also 0..127) zu und dahinter folgen halt die Umlaute in Groß- und Kleinschreibung, sowie ß.

Was ich damit fand waren bspw. das Copyrightzeichen ©, Apostrophe ’ (statt ' auf der Tastatur), ², ●, µ, └, ─, à, í, î, ⍝, •, ‣, ⁃, χ, ⍺, ⍶, ⍵, ∇, ⍫, é, jede Menge Emojis (hunderte!) und diverse Zeichen die in einer anderen Codepage Sinn ergeben, aber nicht als UTF-8 interpretiert. Jetzt muß ich erstmal aufräumen, weil viel von dem Code eigentlich als UTF-8 daherkommen sollte.

Über 30000 Dateien in ~2 Sekunden.
Oliver
"... aber vertrauen Sie uns, die Physik stimmt." (Prof. Harald Lesch)
  Mit Zitat antworten Zitat