Whisper von OpenAI transkribiert alles problemlos für Sie und ist das beste Transkriptionstool, das ich bisher gefunden habe.
Es gibt mehrere Möglichkeiten, ein Interview oder ein Video zu transkribieren. Sie können es von Hand tun, indem Sie einfach zuhören. Das ist zwar am genauesten, dauert aber bei weitem am längsten, oder Sie können einen Dienst oder ein Tool verwenden. Ich habe beispielsweise früher YouTube verwendet, Untertitel automatisch generieren lassen, diese Untertitel gespeichert und sie bearbeitet, um alle Probleme zu beheben. Mittlerweile gibt es verschiedene KI-Tools, die hervorragende Arbeit leisten können, und eines dieser Tools ist Whisper von OpenAI.
Um zu demonstrieren, wie gut das Tool funktioniert, habe ich das neueste XDA TV-Video transkribiert . Wie Sie unten sehen können, werden Abschnitte transkribiert und mit Zeitstempeln versehen, die problemlos als Untertitel auf Plattformen wie YouTube verwendet werden können. Es funktioniert auch schnell; ich habe es auf meinem M1 MacBook Pro verwendet, um ein 10-minütiges Video in etwas mehr als fünfeinhalb Minuten zu transkribieren.
Dieses Tool ist von entscheidender Bedeutung für Content-Ersteller, die Untertitel erstellen müssen, für Leute, die Interviews transkribieren müssen oder einfach Audiomaterial jeglicher Art in Text umwandeln möchten. Ich finde seine Genauigkeit unglaublich und habe kürzlich ein 25-minütiges Interview transkribiert, bei dem nicht ein einziges Wort falsch transkribiert wurde. Whisper kann auch Sprachen in transkribiertem Audio übersetzen.
Was ist Whisper?
Whisper ist ein automatisches Spracherkennungssystem, das gesprochene Wörter unglaublich genau versteht. Es wurde von OpenAI entwickelt, vermutlich für den Einsatz in Systemen wie ChatGPT , wo Sie jetzt mit einer KI kommunizieren können , aber das Unternehmen hat Whisper auch als Open Source freigegeben, damit auch die Community es nutzen kann.
Die Funktionsweise ist ziemlich fortgeschritten und umfasst das Training anhand von 680.000 Stunden überwachter Daten aus dem Internet, von denen ein Drittel nicht auf Englisch war. Audio wird in 30-Sekunden-Blöcke aufgeteilt, konvertiert und dann an einen Encoder weitergeleitet, und ein trainierter Decoder versucht, die entsprechende Textüberschrift vorherzusagen. Auch hier finden noch andere Schritte statt, die jedoch ziemlich technisch sind und die Identifizierung der gesprochenen Sprache, mehrsprachige Sprachtranskription und Übersetzung ins Englische umfassen.
Wie schneidet Whisper im Vergleich zu anderen Tools ab?
Im Vergleich mit anderen Tools sagt OpenAI, dass Whisper bis zu 50 % weniger Fehler macht als andere Sprachmodelle, und ich glaube das. Ich habe im Laufe der Jahre viele Tools verwendet, um Audio zu transkribieren, und nichts war für mich so präzise wie Whisper. Wie bereits erwähnt, habe ich ein 25-minütiges Interview transkribiert, das fehlerfrei herauskam, womit so ziemlich jedes Tool zu kämpfen hat.
Besonders interessant an Whisper ist, dass es sich nicht um ein Tool handelt, das sich an Endbenutzer, sondern an Entwickler und Forscher richtet. OpenAI gab an, dass der Grund für die Veröffentlichung der Modelle und des Codes darin bestand, „als Grundlage für die Entwicklung nützlicher Anwendungen und für weitere Forschungen zur robusten Sprachverarbeitung zu dienen“. Sie können es immer noch einrichten und verwenden, aber es ist noch kein wirkliches Verbraucherprodukt.
Es gibt mehrere Modelle, die Sie zum Transkribieren von Audio verwenden können, und für jedes Modell gelten unterschiedliche vRAM-Anforderungen. Das größte Modell benötigt 10 GB vRAM, ist aber auch das genaueste. Es gibt von jedem Modell auch nur englischsprachige Modelle, mit Ausnahme des größten Modells, was die vRAM-Anforderungen reduzieren sollte, wenn Sie wissen, dass der Inhalt, den Sie transkribieren, nur auf Englisch ist. In jedem Fall benötigen Sie eine gute GPU mit genügend vRAM, um das Ganze zum Laufen zu bringen.
So verwenden Sie OpenAIs Whisper
Whisper von OpenAI ist ein Open-Source-Tool, das Sie mithilfe einiger Tutorials ganz einfach lokal ausführen können. Wenn Sie ein MacBook haben, sind einige kompliziertere Schritte erforderlich, um es zum Laufen zu bringen, aber das ist nicht so schlimm, da Sie im Grunde nur selbst eine C++-Version von Whisper aus der Quelle kompilieren müssen. Es handelt sich zwar nicht um einen offiziellen Port, aber es ist die einzige Möglichkeit, es nativ auf Apple-Silizium auszuführen. Sie können diesem Tutorial auf Medium folgen, um zu erfahren, wie das geht windows 365.
Sie können es auch einfach in Google Collab ausführen, obwohl das langsamer ist, oder Sie können es lokal ausführen, wenn Sie eine x86-Maschine haben . Sie müssen nur sicherstellen, dass Sie ffmpeg installiert haben, und Sie können das Git-Repository, in dem sich Whisper befindet, klonen und ausführen. Folgen Sie einfach den Anweisungen im Whisper-Git-Repository , und Sie können Whisper im Handumdrehen einrichten. Je leistungsfähiger Ihre Hardware ist, desto besser, natürlich, aber es läuft grundsätzlich auf jedem Gerät mit genügend vRAM, es dauert nur länger, wenn Ihr PC langsamer ist.