Warum klingt das "sch" in meiner mp3-Datei so schrecklich?

Vielleicht habt ihr das auch schon erlebt: Ihr hört euch eine Musikdatei auf youtube an und manche Töne klingen nicht besonders sauber. Dies betrifft vor allem “sch”-Töne. In der Sprachforschung nennt man solche Laute wie “sch” Zischlaute. Auch bei hohen Instrumenten ist das sehr häufig zu erleben.

Warum klingen gerade diese Töne bei manchen mp3s falsch? Dazu müssen wir uns mit zwei Dingen befassen:

Der menschlichen Sprache
Der Speicherung im Computer

Die menschliche Sprache

Schauen wir uns zunächst die menschliche Sprache an. Wie wird die menschliche Sprache überhaupt übertragen, damit wir hören können, was andere sagen?

Die menschliche Sprache wird in Wellen übertragen. Aus der Schule wisst ihr vielleicht noch, dass Wellen eine Frequenz und eine Amplitude haben. Wichtig für die Unterscheidbarkeit von Lauten sind die Frequenzen. Frequenzen zeigen an, wie schnell oder langsam eine Welle von oben nach unten (und wieder nach oben) geht. Genauer gesagt besteht ein Ton nicht nur aus einer einzelnen Welle, sondern aus einer Überlagerung von ganz vielen Wellen. Wenn diese zusammenkommen, entsteht eine unförmige Schwingung. In den Bildern ist diese Situation gezeigt.

Die ersten beiden Bilder zeigen reine Schwinungen mit genau einer Frequenz:

Das dritte Bild ist eine sog. Überlagerung der beiden vorhergehenden Schwingungen und enthält beide Frequenzen.

Jeder Laut eines Menschen besteht also aus verschiedenen Wellen mit verschiedenen Frequenzen. Das Ohr verarbeitet diese Welle und erkennt so, welche Einzelfrequenzen vorhanden sind.

Damit man unterschiedliche Töne sprechen kann, müssen die verschiedenen Töne unterschiedliche Frequenzen beinhalten.

Die technische Umsetzung

Wie kommen die Frequenzen nun in den Computer? Der Computer kann nicht die gesamte analoge Welle erfassen, sondern muss sie an bestimmten Stellen betrachten und sich den dortigen Wert merken. Diesen Vorgang nennt man Abtasten. Natürlich kann man schneller oder langsamer abtasten, also z.B. alle 10 Millisekunden oder nur jede Sekunde.

Wie schnell man dies tun sollte, hängt damit zusammen wie hoch die Frequenzen in der Stimme sind, also wie schnell dort die Wellen hoch und runter gehen. Eine Regel besagt, dass man mehr als doppelt so schnell abtasten muss, wie die Frequenzen sind.

Beides zusammen

Mit dieser Regel kann man auch erklären, warum manche Töne in manchen Aufnahmen sehr schlecht sind. Die menschliche Sprache geht bis etwa 8000Hz, das sind 8000 Auf-ab-Bewegungen in einer Sekunde. Besonders Zischlaute wie “sch” haben Frequenzen in diesem hohen Bereich. Hohe Instrumenten enthalten ebenso hohe Frequenzen, oft sogar noch höhere als die menschliche Sprache.

Damit alles korrekt erkannt wird, muss man also schneller als 16000mal in der Sekunde mit dem PC abtasten. Tut man das nicht, dann gehen Informationen über die Sprache verloren. Und dann klingt die Aufnahme unsauber.

I do not maintain a comments section. If you have any questions or comments regarding my posts, please do not hesitate to send me an e-mail to blog@stefan-koch.name.