-
Language Identification in Mixed-Language Texts using Python
If I’m working on hobby programming projects these days, it usually involves foreign language stuff. It often starts with language identification of the text at hand. In Python there are a lot of libraries for language identification and they work quite well. I’m currently using Stanford Stanza’s language identification.
-
Auto-mounting an SSH Filesystem on First Access
Auto-mounting a fileystem over SSH with the FUSE filesystem sshfs on first access to it can be done with the following entry in
/etc/fstab
(or slight variations): -
Filtering an OCR Scan of Harry Potter with a List of 5000 most common Words
In a previous post I looked a bit at vocabulary from a scan of Harry Potter in Spanish. I’ve now created a list of common Spanish words using the Gutenberg Dammit corpus against which I can compare my scan.
-
Kroatischer Imperativ mit Sanjaj Sad von Shorty und Jacques Houdek
Rap und Hip-Hop sind beim Erlernen von Fremdsprachen mit Musik meiner Meinung nach das schwierigste zeitgenössische Genre. Viel Text, meistens schnell vorgetragen und in der Regel nicht die allerüblichsten Wörter, damit die Reime besser klingen. Deshalb überspringen wir bei Sanjaj Sad von Jacques Houdek in diesem Artikel einmal die Strophen und achten nur auf den Chorus.
-
Fremdsprachige Zahlen üben mit ElevenLabs und Python
In seiner Broschüre What do you need to know to learn a foreign language? gibt Paul Nation einige Beispiele für Übungen beim Lernen von Fremdsprachen.