Heute ist Post gekommen, was Neues zum testen :-)
Ich habe schon so oft gehört, dass die Spracherkennungssoftware Dragon NaturallySpeaking von Nuance gut sein soll und dass ich’s unbedingt ausprobieren soll. Es ist schon sehr verlockend, dem Computer einfach sagen zu können, was er tun soll bzw. was er schreiben soll. Ich habe vor, demnächst einiges zu schreiben und so nehme ich gerne die Hürde, etwas Neues zu lernen, um mir danach die Arbeit leichter zu gestalten.
Die Software liegt schon in einem Preissegment, wo man das Geld nicht einfach so ausgibt, um’s einfach mal auszuprobieren, sondern wo man Kosten und Nutzen schon deutlich abwägt. Einen unabhängigen und ausgiebigen Testbericht konnte ich leider nicht wirklich finden, was jetzt hier nachgeholt wird.
Spracherkennung Dragon NaturallySpeaking 13 – Testbericht
Inhaltsverzeichnis
Was wirst Du in diesem Testbericht lesen?
Ich werde die Software auf Herz und Nieren überprüfen und mir selbst und Euch die Fragen beantworten:
- Wie gut ist die Erkennungsrate?
- Wie lange braucht man für’s Training?
- Muss ich meine Sprache in eine „Diktiersprache“ ändern oder kann ich einfach so drauf los reden?
- Bewährt sich der Einsatz im Alltag?
- Wie viel muss ich von Hand ausbessern?
Dazu werde ich Euch auch die Soundfiles und die original erkannten Texte zur Verfügung stellen.
Testobjekt
Dragon NaturallySpeaking Premium, Version 13
Die Software wurde mir freundlicherweise von Nuance für diesen Testbericht zur Verfügung gestellt.
Testumgebung
Mein System | Mindestanforderungen | |
---|---|---|
Laptop: Samsung Series 5 Ultra NP530U3C | ||
Betriebssystem | Windows 7 Home Premium (64-Bit), SP1 | |
Arbeitsspeicher | 6 GB | > 2GB (32-Bit-Systeme > 4GB (64-Bit-Systeme) |
Prozessor | Intel® Core i5-3317U CPU @1,70GHz (= Quad-Core) | Intel® Dual Core mit 2,2 GHz oder äquivalenter AMD-Prozessor. |
Prozessor-Cache | 2 MB L2 Cache empfohlen (Mindestens 512 KB) | |
Freier Festplattenspeicher | > 30 GB | 4 GB |
Schon recht ordentliche Anforderungen. Ich habe die Hoffnung, dass mein Laptop den Unterschied in der Prozessorgeschwindigkeit durch die zwei zusätzlichen Kerne wett macht.
Also los geht’s!
Beim Auspacken kommt folgender Packungsinhalt an Tageslicht:
- Installations-DVD
- Schnellstartanleitung
- Headset mit Adapter
Headset – erster Eindruck
Negativ:
- Das Headset sitzt auf meinem Dickschädel recht fest, die Bügel werden schon deutlich nach außen gedrückt und dadurch drücken die Ohrmuscheln auf den Kiefer. Da bin ich mal auf ein längeres Tragen gespannt…
Positiv:
- Dickes Audio-Kabel (Länge ca. 2m), ist dadurch weniger anfällig für Kabelbrüche.
- Mitgelieferter Adapter: Da mein Laptop nur eine Audio-Buchse hat, die gleichzeitig für Kopfhörer und Mikrofon da ist (wie bei einem Smartphone), brauche ich diesen Adapter unbedingt. Danke, dass ihr hier nicht an einem Cent-Artikel gespart habt!
- Klangqualität: Deutlich und klar, realistische Wiedergabe der Stimme
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
Headset_erste_Aufnahme.mp3 (645KB)
Installation
Zur Installation wird natürlich ein DVD-Laufwerk benötigt, was mein Laptop nicht hat. Also mal das externe Laufwerk aus dem Schrank ausgegraben, angeschlossen, DVD eingelegt, Installation gestartet, und Kaffee gemacht. Ok, Zeit für Frühstück. Nach ca. 30min ist die Installation bei meinem Rechner fertig.
Erster Start
Produktaktivierung geht kurz und schmerzlos.
Dann wird mein Benutzerprofil angelegt. Dazu muss ich einen Text vorlesen:
Interessanterweise verändert Dragon die Windows-Audio-Einstellungen. Die zuvor gewählte Pegeleinstellung Mikro = 75%, Verstärkung = +10dB wird auf 100% und 0dB gesetzt. Dem entsprechend schlecht ist die aufgenommene Audioqualität:
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
03_einstellung_mikro_pass.mp3 (556KB)
Die ersten beiden Versuche scheitern daher, der dritte gelingt. Eine letzte Frage noch und Dragon ist für mich bereit! :-) (ca. 10 Min.)
Lernprogramm
Im Lernprogramm wird man an die Spracheingabe herangeführt. Ich habe es erst mal komplett durchgemacht und ca. 20 min dafür gebraucht.
Also: Satzzeichen diktieren! Ob ich die Navigationsmöglichkeiten wie z.B. „Klick auf senden“, um auf die Schaltfläche „senden“ zu klicken wirklich nutzen werde, wird sich herausstellen.
Na dann: Erster Versuch
Ich versuche mal, einen Text zu diktieren.
Irgendwas passt jedoch nicht. Wenn ich etwas spreche, hinkt mein Rechner ständig hinterher, ich muss ihm richtig Zeit lassen, bis er die Worte erkannt hat. Auch darf ich nicht zu viele Worte auf einmal sprechen, sondern muss in einer ichdiktiereeinemErstklässleretwas-Geschwindigkeit reden. Tippen geht da wesentlich schneller…
Was ist los? Tja, die Systemanforderungen: Ich bräuchte einen schnelleren Rechner! Ich bin kurz davor, den Test abzubrechen…
Update: 4 Monate später
OK, eine einfach „auspacken und loslegen“-Lösung ist die Software nicht, man muss sich die Zeit nehmen, sich richtig damit auseinanderzusetzen.
Bei mir lagen die Prioritäten der letzten Wochen einfach anders. Der Winter war im Anmarsch und wir wollten nicht unter einer dicken Schneedecke sondern lieber in der Sonne in Spanien überwintern. Dazu wollte erst die Solaranlage auf unserem Anhänger installiert werden. Ohne Strom für’s Wohnmobil auch kein Strom für den Laptop. Und damit auch kein Strom für den Test einer Spracherkennungssoftware. Das Redesign der Website hat auch noch einiges an Zeit beansprucht. Ohne Website kein Platz für den Testbericht…
Jetzt geht’s aber weiter.
Ich habe mir vorgenommen, das nächste Ebook zu diktieren!
Was mir beim ersten Test aufgefallen ist: Mein Rechner hat nicht genügend Leistung für die Software.
Darüber habe ich mir ehrlich gesagt zuvor keine Gedanken gemacht. Da ich mit meinem Laptop auch problemlos Videos schneide, bin ich nicht davon ausgegangen, irgendwo an Leistungsengpässe zu kommen. Falsch gedacht, Spracherkennung ist sehr ressourcenhungrig. Die 4 * 1,7GHz reichen da nicht aus, auf Rückfrage bei Nuance kam auch die Antwort, dass die 2,2GHz auf einem Dualcore unbedingt notwendig sind. Auch ein Quadcore braucht mindestens 2,2GHz Prozessortakt
Daher muss ich den Test etwas beschränken. Ich werde die Texte aufnehmen und dann nicht in Echtzeit sondern im Nachhinein von Dragon NaturallySpeaking 13 erkennen lassen (übrigens einer der Unterschiede zwischen Premium- und Home-Version). Ich möchte schon „naturally speaking“ und nicht nach jedem halben Satz warten, bis mein Rechner hinterherhinkt…
Zum weiteren Kennenlernen habe ich einen Probetext aufgesprochen, den die Software jetzt umwandeln soll.
Dazu wird erstmal eine neue Diktierquelle angelegt:
Rechtsklick auf das Dragon-Symbol in der Taskleiste:
Dann „Neue Diktierquelle hinzufügen“, „Digitale Audiorekorder“ auswählen und im Dialog immer weiter gehen. Bei der Konfiguration des Rekorders stehen in der Hilfe die Einstellungen, die bei den Aufnahmen verwendet werden sollen:
- 22kHz
- .WAV
- ohne Hintergrundgeräuschunterdrückung
Nur zwecks Interesse habe ich mal die verlinkte „Hardware-Kompatibilitätsliste“ aufgerufen: https://support.nuance.com/compatibility/
Gut, wenn man Englisch kann… Für meine Soundkarte gibt es folgenden Hinweis:
Auf Deutsch übersetzt und zusammengefasst:
Meine integrierte Soundkarte (wie bei den meisten Laptops) hat eine zu geringe Audioqualität. Die Mikrofonverstärkung nach oben zu regeln macht’s nicht besser.
Da kommt der Unterschied zwischen dem Erkennungsalgorithmus zwischen einer Software und dem menschlichen Hirn… Das Hirn kann auch bei schlechterer Qualität noch einiges erkennen.
Aufnahmegerät: Eine Alternative muss her
Na gut, hier die Liste, was wir so an Aufnahmegeräten dabei haben…
- LG GTab
- Samsung Galaxy S2
- Apple iPhone 4
- Zoom H2N
- Laptop Wendy
- Laptop Michi
Dann gehen wir die Listen mal durch, was passen könnte
Eingebaute Soundkarten
Die Soundkarte von Wendy ist zwar nicht aufgeführt, allerdings auch nicht gerade vielversprechend. Damit sind die Laptops raus.
Recorder
Das Zoom ist nicht dabei… hat aber eine Topqualität. Ist einen Versuch wert.
Smartphones
Das Samsung Galaxy S2 und das iPhone 4 sind nicht in der Liste. Halte ich auch nicht wirklich vielversprechend.
PDAs
Wenn man ein Tablet als PDA bezeichnen würde… Das LG ist nicht dabei.
Ja, das ist durchaus ernüchternd. Laut Nuance-Website ist das Diktieren auch schon mit den eingebauten Mikrofonen in neueren Laptops möglich. Bei den Systemanforderungen steht nur „Soundkarte für 16-Bit-Aufzeichnung“. Dass da jetzt das mitgelieferte Mikrofon in Kombination mit der Soundkarte keine ausreichende Qualität liefert, ärgert mich schon…
Na ja, ich probiere trotzdem mal die folgenden Varianten aus:
- Laptop mit von Nuance mitgeliefertem Headset
- Tablet mit von Nuance mitgeliefertem Headset
- Zoom H2N
Ich gehe davon aus, dass es mit dem Zoom klappen sollte. Ist zwar etwas oversized zum Diktieren, die Aufnahmequalität ist allerdings excellent.
Ich klicke weiter und schließe die Konfiguration ab und darf wieder die Spracherkennungssoftware trainieren lassen.
Lerntext einsprechen
Das ist durchaus umfangreich. Ich habe für das erste Märchen („Der Hase und der Igel“) ca. 8min gebraucht und die vielen Anführungszeichen der direkten Rede haben mich fast wahnsinnig gemacht… Jetzt ist das Märchen auf den H2N eingesprochen, und das WAV-File auf die Festplatte kopiert.
Anschließend kommt das Einlesen in Dragon NaturallySpeaking. (Anmerkung: NaturallySpeaking kann die vom Zoom gespeicherte Datei nicht direkt einlesen. Abhilfe schafft hier: Das File mit Audacity aufmachen und einfach nochmal speichern. Dann klappt’s.)
Nach 16 Minuten ein Lichtblick:
Der Umweg ist erledigt. Jetzt geht’s endlich ans Eingemachte!
Probetext 1 umsetzen – mit H2N
(Aufnahme mit Zoom H2N: 44100Hz, 32bit, stereo; WAV)
1_Probetext_1_H2N.mp3 (1,65MB)
Rechte Maustaste auf das Symbol in der Taskleiste – Extras – Aufnahme umsetzen:
Dann die Optionen auswählen bzw. eingestellt lassen:
Datei auswählen und auf „umsetzen“ klicken.
…es tut sich was…
…der eingesprochene Test erscheint Stück für Stück…
…nach 1 Minute ändert sich mein Gemütszustand:
Plötzlich bin ich entzückt :-)! Im Dragonpad steht mein diktierter Text!
Wie hoch ist die Erkennungsrate?
Dazu vergleiche ich den Originaltext mit dem erkannten Text und markiere die Fehler:
Folgende Fehler habe ich selber diktiert:
gut wenn | ja, das Komma habe ich vergessen |
daher rede ich man daher rede ich mal über | Hier wollte ich mich selbst verbessern |
Hard und Software | Hinter Hard hätte ich den Bindestrich diktieren müssen |
testen :-). | Hier will ich eigentlich das zwinkernde Smiley haben |
Folgende Fehler kommen von der Spracherkennung:
Person zwei. | Fehler |
Oder ist das Schicksal? | schwer zu erkennen |
Gegenständen Systemen | schwer zu erkennen |
die von Tonalität | Fehler |
Wenn die | Fehler – und zwar ein ziemlich böser ;-) |
Fehler, die nicht gewertet werden:
Wenn ich mich was | tja, da war ein Versprecher drin, daher schwer zu erkennen |
bedient Freundlichkeit | deutsches Wort für „Usability“ gesucht! Benutzerfreundlichkeit wäre besser… |
Fazit erster Versuch:
Maschine: 3 Fehler auf 221 Wörter (Erkennungsrate 98,6%) Mensch: 6 Fehler auf 221 Wörter (Fehlerrate 2,7%) Die Änderungen speichere ich im DragonPad noch nicht und verbessere den Text auch nicht. Ich habe erstmal was anderes vor:
Probetext 1 umsetzen – Laptop mit Nuance-Headset
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
2_Probetext_1_laptop.mp3 (1,55MB)
Auch das kann sich sehen lassen. Ich habe mal darauf verzichtet, das Audiofile komplett durchzugehen. Das Lernprogramm wurde ja auch mit einer Aufnahme vom H2N durchgeführt.
Probetext 1 umsetzen – Tablet mit Nuance-Headset
(Aufnahme mit Audio Evolution Mobile: 44100Hz, 16bit, mono; WAV)
3_Probetext_1_Tablet.mp3 (1,59MB)
Ebenfalls relativ gut, auch hier bin ich das Audiofile nicht nochmal komplett durchgegangen.
Zwischenfazit
- Spracherkennung mit Dragon NaturallySpeaking funktioniert!
- Die höhere Erkennungsrate bei der H2N-Aufnahme erkläre ich mir damit, dass das Lernprogramm eben mit diesem Mikro durchgeführt wurde. Die Audioqualität spielt mit Sicherheit auch eine große Rolle.
- Trotz den nicht optimalen Bedingungen für Laptop und Tablet sind auch hier die Erkennungsraten hoch.
- Das Headset ist immer noch nicht bequem
- Ab sofort wird mehr diktiert als geschrieben :-)
Weiter geht’s!
Text korrigieren
Dazu lasse ich wieder die Aufnahme vom H2N in Text umwandeln und starte mit den Korrekturen:
Für die Korrektur werden auch gleich Vorschläge angezeigt. Die könnten auch ganz einfach per Sprachbefehl übernommen werden:
Benutzerprofil aktualisieren und Dragon schließen
Schluss für heute. Beim Schließen können die neuen Erkenntnisse über das eigene Benutzerprofil gespeichert werden. Das dauert zwar ca. 15 Minuten, ich gehe allerdings davon aus, dass das mir beim nächsten Text zu Gute kommt.
Da fällt mir Tipp wieder ein, den ich mal in einem Forum gelesen habe: Neustarts sind immer wieder mal sinnvoll, damit das neu gelernte auch geladen wird.
Ist die Spracherkennung mit Dragon NaturallySpeaking empfehlenswert?
Nach aktuellem Stand ist es sehr vielversprechend. Mein Testfokus lag klar auf Texterkennung. Für die Steuerung bzw. Bedienung des Computers mit der Stimme ist zuerst ein Rechner mit den entsprechenden Systemvoraussetzungen notwendig. Gaaanz wichtig: Eine hervorragende Audioqualität sollte gewährleistet sein! Eine endgültige Beurteilung mit Beispieltexten kommt bald.
Update: 12 Monate später
Spracherkennung mit Dragon Naturally Speaking ist fest in meinen Arbeitsprozess eingebunden:
- So gut wie alle neuen Artikel habe ich diktiert
- Das Ebook Mobiles Internet habe ich komplett diktiert
- Längere E-Mails diktiere ich auch ganz gerne (z.b. während Autofahrten)
Für mich ist folgende Vorgehensweise beim Erstellen von Texten sehr hilfreich:
- Brainstorming
- Struktur erstellen
- Diktieren, Spracherkennung
- Text überarbeiten
- Feinschliff, Formatierung, Layout
Mein persönliches Abschluss-Fazit
Auch wenn das Diktieren eventuell ein bisschen länger braucht als das Schreiben, bleibe ich konzentriert und am Stück bei der Sache, da das Aufnahmegerät ja läuft. Auch wenn ich den nächsten Satz erst einmal im Kopf formuliere, kann ich zwar die Sprechpause machen, bin aber „gezwungen“, weiter zu diktieren.
Natürlich muss der eingesprochene Text korrigiert werden und eventuelle Spracherkennungsfehler ausgebessert werden. Dafür kann man aber beim Texte erstellen in der Gegend umher laufen und ist nicht an den Laptop bzw. einen Tisch gebunden. Interessant ist es vor allem auch dann, wenn man zum Beispiel für einen Text nebenbei Fotos macht.
Der Vorteil der Spracherkennung ist für mich also nicht, dass man schnelle Texte in den PC bringt, sondern die Änderung der Art und Weise wie man Texte erstellt.
Und so fällt mein Fazit nach über einem Jahr Nutzung sehr positiv aus: Absolut empfehlenswert!
Welche Version ist die richtige? Home oder Premium?
Einen Überblick über die verschiedenen Versionen gibt die Feature Matrix.
Das kann Premium mehr:
- Sprachbedienung von Excel und Powerpoint
- Spracherkennung von Aufnahmen, z. B. mir einem Diktiergerät
- Im-/Export von persönlichen Vokabularlisten
- Eigene Kommandos festlegen
Für Aufnahmen unterwegs ist ein richtiges Diktiergerät natürlich am Besten. Bei der Version Premium 13 Mobile ist gleich ein Philips Digital Voice Tracer 4100 mit dabei.
Max
Hallo Ihr Beiden
ich habe es mal vor 2 Jahren mit Dragon NaturallySpeaking 11 versucht. Mir war es damals aber noch zu langsam und die Erkennungsrate was auch mies. Aber was ich jetzt so von die lese könne ich es ja mal wieder versuchen.
Sonnige Grüße
Max
Michi
Hi Max!
ja, ich hatte auch mal eine vorherige Version in der Hand. Der Unterschied ist schon deutlich, die Erkennungsrate wirklich recht hoch.
Ich glaube, die größte Herausforderung ist jetzt die Umstellung der eigenen Arbeitsgewohnheit vom „Tippen“ in „Diktieren“ :-). Ich werde nach ein paar Wochen berichten…
Grüße!
Ronald
Schade, dass es mit dem Rechner nicht so funktioniert, wäre an dem Ergebnis interessiert. Meine Erfahrung ist ähnlich wie die von Max. Im Ergebnis erreicht man zwar eine gute Erkennungsrate, doch sind auch wenige Fehler zu viel. Wenn man im Gedankenfluß ist, stört es, immer wieder für Korrekturen rausgerissen zu werden. Man könnte die zwar auch später machen, aber da das Programm kleine nahe liegende Fehler macht (wem statt wem oder so), ist das oft sehr mühsam. Am Ende bin ich dann tippend doch irgendwie schneller.
Grüße am Sonnenfinsternistag.
Michi
Hi Ronald! Ja, hätte ich auch gerne ausprobiert. Das mit dem Gedankenfluss ist der Vorteil vom Diktiergerät: Das Diktieren ist ablenkungsfrei. Grüße!
Steffi Mania
Hi Michael!
Ich probiere das Programm auch gerade aus, wegen einer Sehnenscheideentzündung in der rechten Hand. Bin eigentlich ganz zufrieden. Der Computer versteht mich und macht weniger Fehler als ich beim Tippen. Diktieren ist aber nichts für mich. Ich bin eher der stille Schreiber. Irgendwie bekomme ich schreibend meine Gedanken besser zu „Papier“. Aber ich habe ja noch ein paar Wochen eine kaputte Hand – vielleicht gewöhne ich mich ja noch an den Drachen.
:)
Michi
Hi Steffi!
Ja, das Diktieren muss einem liegen. Gerade am Anfang ist es eine größere Umstellung. Inzwischen gehört das Diktieren bei mir jedoch fest zum Erstellen von längeren Texten dazu. Bald kommt noch mein Abschluss-Fazit zum Testbericht.
LG und gute Besserung!