Suche
Suche Menü

Spracherkennung: Texte diktieren statt tippen

Das Diktieren von Text für eine Hausarbeit oder Bachelorarbeit kann eine interessante Alternativen zum Tippen über die Tastatur sein. In den letzten Jahren hat es große Fortschritte bei Spracherkennungssoftware gegeben, die ihre Kinderkrankheiten mittlerweile überwunden hat. Wir haben uns mit Tilo Schlumberger von der ASKA GmbH unterhalten, um mehr über das Thema zu erfahren.

Herr Schlumberger, können Sie uns etwas zu Ihrer Person erzählen? Wie sind Sie zum Thema Spracherkennung gekommen?

Gerne: Nach meinem Wehrdienst habe ich in Pforzheim BWL studiert Richtung Steuern und Revisionswesen. Meine Mutter hat zu der Zeit bei der IBM gearbeitet, die 1993 begonnen, das erste kommerzielle Sprecherkennungssystem aus den USA in Deutschland zu vermarkten. Ich fand die Vorstellung faszinierend, dass man in einen Computer sprechen konnte und dieser dann tatsächlich einen Text daraus erstellt und  habe ich mich dann als IBM Software Partner mit diesen ersten Systemen selbstständig gemacht. Allerdings hat es danach noch 10 Jahre gedauert bis die Systeme so gut waren, dass man sie im täglichen Arbeitsleben einsetzen konnte. Neben diesen Systemen zur Erkennung von ganzen Texten, gab es damals auch schon Systeme für die Eingabe von Daten und Namen zum Beispiel für Navigationssysteme. Mit diesen Systemen habe ich mich ebenfalls auseinandergesetzt. 1999 konnte ich Volkswagen als Kunden gewinnen, und habe für den Prototypenbau in Wolfsburg ein System entwickelt, mit dem es möglich ist, Daten während eines Audits direkt in die Datenbank mittels Spracherkennung einzutragen. Zuvor wurde alles in einer Liste erfasst und danach von Hand in die Datenbank übertragen. Das ist natürlich eine enorme Zeiteinsparung. 2006 habe ich dann zusammen mit Siemens für Royal-Mail in England Spracherkennung in die Abläufe bei der Paketsortierung integriert. Man spricht das Land ein und legt dann das Paket auf das Förderband wo es dann noch einmal gescannt wird. Durch die vorherige Eingabe des Landes mittels Spracherkennung, haben sich die Lesefehler des Scanners deutlich reduziert. Das half die Kosten extrem zu reduzieren, da Fehlsendungen entfielen bzw. deutliche abnahmen. Im Bereich der Spracherkennung für die Erfassung von Texten konnten wir 2002 den Auftrag für die Ausstattung der Justiz in Baden-Württemberg mit Spracherkennung gewinnen. Dies war damals weltweit die erste richtige große Installation von hunderten von Plätzen Spracherkennung bei einem Kunden.

Sie haben gesagt, dass Sie BWL studiert haben, aber um diese Software zu schreiben brauchen Sie ebenfalls einen IT – Hintergrund. Wie haben Sie das gemacht?

Nun ja, also als ich 1993 begann mich mit dem Thema zu beschäftigen, war da noch nicht viel und ich hatte Zeit und mir mein IT Wissen quasi durch „rumspielen“ anzueignen, also das Basiswissen. Ich habe mir dann auch aus dem Internet Skripte von Vorlesungen über Programmierung runter geladen und mir das Programmieren selbst beigebracht. Die Fähigkeit für den Kunden nun auch selbst Software entwickeln zu können, hat den möglichen Kundenkreis natürlich deutlich vergrößert. Ich glaube, dass mir die Neugier damals geholfen hat, alles aufzubauen.

Wenn Sie zurück schauen, was hat sich in der Branche in den letzten Jahren so alles getan?

Es ist unglaublich, wie genau die Spracherkennung geworden ist heutzutage. Natürlich muss man unterscheiden, ob man sich in einem normalen Umfeld befindet oder ob man sich eine Fantasiegeschichte ausdenkt oder ob ich Physiker bin und außergewöhnliche Beobachtungen erfassen möchte. Aber bei der normalen Spracherkennung, die wirklich Texte umsetzen kann, liegt die Erkennungsgenauigkeit bei 99%. Ich kann jederzeit mitlesen, weil es mir sofort auf dem Bildschirm erscheint und dann kleine Änderungen vornehmen. Wenn man es vergleicht – 1993 kam die Idee auf, das war vor der Verbreitung des Internets – ein unglaublicher Fortschritt. Die technische Spracherkennung damals war wirklich noch etwas „dumm“. Sie konnte Wörter mäßig erfassen und das auch nur hintereinander weg. Mittlerweile können die Wörter in einen Zusammenhang gesetzt werden und das entsprechende Vokabular wird vorgeschlagen. Ich meine Bill Gates hat einmal gesagt, als er noch richtig Chef von Microsoft war, dass im Jahre 2005 sich die Art und Weise wie wir mit dem Computer arbeiten sich verändert haben wird. Nun ja, es ist nicht 2005, aber im Grunde hat er Recht.

Man merkt, dass sie eine Leidenschaft für das Thema besitzen, was ist ihr Antrieb?

Also ich glaube ich fand es damals einfach faszinierend, denn es war noch keiner an dem Thema dran. Ich war der erste in Deutschland. IBM hat mich damals sogar hin und her geflogen und ich habe für die IBM Präsentationen gemacht, weil ich mich in dem Thema so gut auskannte. Ich habe große Räume gefüllt, weil die Menschen die Technik so faszinierend fanden, dass man tatsächlich etwas reinsprechen kann und es dann für einen geschrieben wird. Ich denke, das war der Antrieb für das Thema. Der Hauptantrieb war allerdings, dass ich schon immer selbstständig arbeiten wollte. Hier war es so, dass die Technik neu war und ich in dem Thema gewissermaßen ebenfalls, da konnte man zusammen wachsen.  Am liebsten würde ich jeden Tag ein neues Projekt machen. (lacht) Also natürlich nicht jeden Tag, aber ich würde mich gerne immer neuen Herausforderungen stellen und versuchen eine Lösung für das Problem zu finden. Aber der Handel von der Software und der Hardware gehört natürlich auch zu dem Geschäft. Konkurrenz ist immer ein Thema und es gibt Händler, die ihre Lösungen günstiger an einem vorbei verkaufen, aber so ist das eben.  Natürlich muss man auch die App Hersteller als Konkurrenz betrachten, denn vor allem Diktierapps haben sich mittlerweile etabliert. Es ist heutzutage eigentlich keine Frage mehr, ob die Spracherkennung funktioniert, sondern ob und wie sie sich in die vorhandenen Abläufe integrieren lässt.

Können Sie Spracherkennung auch Studenten empfehlen?

Für Studenten ist die Spracherkennung sicher hilfreich für Hausarbeiten, Referaten und ähnlichem. Damals bei meiner Diplomarbeit, das müssen so um die 60 Seiten gewesen sein, habe ich schon mit schlechter Spracherkennung meinen Text verfasst. Einfach um den Gedanken vernünftig zu Ende zu bringen und runter zu schreiben. Also man muss schon sagen, durch Spracherkennung wird das Ganze flüssiger. Die heutigen Studenten sind ja mit dem Computer aufgewachsen, da ist das 10-Finger schreiben ja auch kein Problem. Aber selbst wenn man schnell schreibt, ist die Spracherkennung eine Option, alles noch schneller zu machen. Und die Kosten sind ja mittlerweile auch noch kaum was. Für Studenten, also die Standard Software von Nuance, gibt es schon für 99 €. Die kann man einfach runterladen und los legen. Je nachdem was nach dem Studium angestrebt wird, ist es sogar relativ wahrscheinlich, dass man mit Spracherkennung arbeiten wird. Momentan wird solche Software vor allem von Ärzten und Juristen genutzt, das ist noch recht spezifisch. Aber eine Nutzung ist durchaus auch in allen anderen Bereichen möglich, es kommt drauf an, ob Text wichtig ist. Alle die viel Text machen, die werden damit konfrontiert.

Tilo_Schlumberger_01_web

Tilo Schlumberger: Experte für Spracherkennung

Denken Sie, dass die Zunahme der Nutzung von Spracherkennung zu einer Verschlechterung der Rechtschreibung führt?

Oh, das ist ein wirklich interessanter Ansatz. Ich muss sagen, dass ich mir die Frage selbst noch nicht gestellt habe. Die Rechtschreibung leidet ja heutzutage sowieso – Groß- und Kleinschreibung wird missachtet, auf Fehler wird nicht so genau geschaut, vor allem beim Chatten und Microsoft Word und Smartphones steuern ihr restliches dazu bei. Wenn man alleine schon einmal bedenkt was für eine riesen Hilfe Word ist und die Korrektur, die das System vornimmt. Ich habe letzten erst irgendwo gelesen, habe aber gerade das Land vergessen, dass diskutiert wird, ob es sich noch lohne den Kinder in der Schule überhaupt nach die Schreibschrift beizubringen, da sie wahrscheinlich eh alles an dem Computer machen werden…

Was denken Sie, was die Zukunft mit sich bringen wird?

In Amerika z.B. diktieren die Ärzte ihre Befunde in das Telefon und übermitteln ihr Diktat damit an einen Dienst in der Cloud, der dann das fertige Dokument zur weiteren Bearbeitung wieder zurücksendet. Das geht momentan in Deutschland noch nicht, da der Datenschutz in Deutschland sehr hoch ist. Hier wird die Spracherkennung auf dem Computer installiert und läuft nicht über ein Cloud System. 1995 war ich an der Charité in Berlin und ein Doktor hat mich mit in die Bibliothek genommen. Dort stand ein einfacher Computer, ich glaube es war ein MAC, er hat den Computer angemacht und es erschien die Seite von einer Bibliothek in Amerika – das war der Anfang des Internets, und ich hatte damals überhaupt keine Vorstellung davon, wie wichtig das alles noch einmal sein wird.  Man denkt heute ja auch nicht darüber nach, dass die Spracherkennung gar nicht auf dem Smartphone abläuft, sondern dass die Daten an einen Server geschickt werden und die Antwort dann zurückkommt. Ich denke, dass das Cloud-Computing weiterhin eine große Rolle spielen wird; ich denke das wird die nächste große Revolution nach dem Internet. Man kann sich noch nicht vorstellen was die Zukunft bringt.

Herr Schlumberger, durch die Erfahrungen, die Sie mittlerweile gesammelt haben, gibt es einen Rat, den Sie gerne an unsere Studenten weiter geben würden?

Es gibt so viel was ich gerne sagen würde, da muss ich erstmal kurz überlegen. Auch wenn man das fast an jeder Ecke hört, aber ich glaube, dass es wirklich das Wichtigste ist,  nie den Überblick über das große Ganze zu verlieren, das ist wirklich so. Selbst über Randbereiche, die irgendwie zu einem gehören, versuchen möglichst viel mitzunehmen. Globales, universelles Wissen, mit dem eigenen Schwerpunkt verbunden, ist heute extrem wichtig. Nur stur in eine Richtung zu gehen, das braucht keiner. Das Große sehen und zu verstehen – gerade weil heute alles so komplex ist.

Haben Sie vielen Dank, dass Sie sich die Zeit genommen haben, es war sehr interessant.

Danke, es hat Spaß gemacht.

 

Kontaktdaten:

Tilo Schlumberger
ASKA Spracherkennungssysteme GmbH
Amselweg 16
D- 71065 Sindelfingen
Telefon +49 (0) 7031-7976 0
Telefax +49 (0) 7031-7976 55
E-Mail: info[at]aska.de

Die Fragen stellte Ann Hildebrandt

 

Bildnachweis: Vector mobile phone in flat style – voice control © venimo – fotolia.com

Autor:

Prof. Dr. Uwe Manschwetus hat seit 1997 eine Professur für Marketing-Management an der Hochschule Harz. Wissenschaftliches Arbeiten und Digitales Marketing sind zwei Schwerpunkte seiner Arbeit.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.