Das automatisierte Untertitelsystem verarbeitet täglich Hunderte von Videostunden

Das automatisierte Untertitelsystem verarbeitet täglich Hunderte von Videostunden

Video: Das automatisierte Grenzkontrollsystem Easy Pass (April 2020).

Anonim

von Rob Matheson, Massachusetts Institute of Technology

Image

Im Jahr 2008 entwickelten vier Studenten der MIT Sloan School of Management ein System zur Untertitelung von Online-Videos, das weitaus effizienter ist als herkömmliche Methoden, bei denen ein Video häufig angehalten wird, um Text zu schreiben und Zeitcodes zu markieren.

Das System verwendete eine automatisierte Spracherkennungssoftware, um "Grobentwurf" -Transkripte zu erstellen, die auf einer einfachen Oberfläche angezeigt und leicht bearbeitet werden konnten. Nach einem Auftritt mit Untertitelvideos aus fünf MIT OpenCourseWare (OCW) -Klassen konnten die Schüler 100 Stunden Inhalt in einem Bruchteil der Zeit der manuellen Untertitelung untertiteln.

Dies war der Beginn des Captioning-Service-Unternehmens 3Play Media, das mittlerweile mehr als 1.000 Kunden und die gleiche Anzahl von Vertragsredakteuren zählt, die täglich Hunderte von Stunden an Inhalten verarbeiten. Zu den Kunden zählen akademische Einrichtungen, Regierungsbehörden und namhafte Unternehmen wie Netflix, Viacom und Time Warner Cable sowie viele Benutzer von Websites für die gemeinsame Nutzung von Videos.

Heutzutage funktioniert das System von 3Play ähnlich wie am MIT, jedoch in größerem Maßstab: Kunden laden Videos auf die Website von 3Play hoch, wo automatische Spracherkennungssoftware Transkripte und Untertitel erstellt, die dann in die Cloud übertragen werden. Anschließend kann jeder der beauftragten Redakteure auswählen, welche Transkripte bearbeitet werden sollen. Abschließend geben die Manager jedem Auftrag einen endgültigen Look, bevor sie ihn in die Cloud zurückschieben, damit die Kunden darauf zugreifen können.

Laut 3Play kann das Unternehmen Untertitel in wenigen Stunden pro Videostunde verarbeiten - im Vergleich zu herkömmlichen Methoden, die mehr als 10 Stunden pro Videostunde dauern können.

"Es geht darum, genaue Beschriftungen im Maßstab zu erstellen", sagt CJ Johnson '02, Mitbegründer und Chief Technology Officer von 3Play, MBA '08, der das System im MIT-Labor für Informatik und künstliche Intelligenz (CSAIL) miterfunden hat. "Wir haben folgende Fragen gestellt: Wie können wir eine Datei schneller verarbeiten und wie können wir täglich Tausende von Dateien verarbeiten, um die Anforderungen des Internets zu erfüllen?"

Die vom System erstellten Transkripte enthalten auch Zeitdaten hinter jedem Wort. Dies hat den Weg für "interaktive Transkripte" geebnet, die Videoinhalte, die vom MIT und anderen Universitäten veröffentlicht wurden, zu Online-Lernplattformen, einschließlich edX, begleiten. Diese Transkripte rollen zusammen mit dem Video, markieren den gesprochenen Text und lassen die Benutzer auf Wörter klicken, um sie auf den genauen Zeitpunkt im Video zu bringen.

Neben Johnson sind Josh Miller MBA '09, Chris Antunes MBA '08 und Jeremy Barron MBA '08 Mitbegründer und Miterfinder von 3Play.

Handwerkszeug

Im Laufe der Jahre hat 3Play auch eine Reihe von Tools entwickelt, die den Workflow vereinfachen sollen. Mit einem Tool können Benutzer die Untertitelformate mit einem Klick auf eine Schaltfläche wechseln. Mit einer anderen Option können Benutzer Text aus dem interaktiven Transkript ausschneiden und einfügen, um Clip-Rollen zu erstellen.

Sie haben aber auch Tools entwickelt, um den sich ständig ändernden Regeln und Vorschriften für Untertitel gerecht zu werden: Im Januar 2016 verlangt die Federal Communications Commission beispielsweise, dass Online-Clips von Fernsehsendungen mit Untertiteln versehen werden.

Um diese Anforderung zu erfüllen, hat 3Play in diesem Monat ein Untertitel-Tool für Videoclips entwickelt, das Untertitel für kurze Clips generiert, indem diese automatisch aus dem vollständigen Transkript extrahiert werden.

Anfang dieses Jahres hat 3Play einen Return-on-Investment-Rechner entwickelt, damit Ihr durchschnittlicher YouTube-Uploader erfahren kann, ob Untertitel die Kosten wert sind. Zu diesem Zweck griff das Unternehmen auf Daten von Drittanbietern in Tausenden von YouTube-Videos zurück, bei denen durch das Hinzufügen von Untertiteln ein deutlicher Anstieg der Zuschauerzahlen zu verzeichnen war.

Wenn der Rechner einen Videolink erhält, durchsucht er den Kanal des Benutzers, um die Zuschauerzahlen von Videos ohne Untertitel zu ermitteln, und schätzt auf der Grundlage dieser Daten den Anstieg der Zugriffszahlen und der Suchmaschinenoptimierung und wie dies unter anderem zu mehr Werbeeinnahmen führen kann Dinge.

"Jeder möchte wissen, 'Wenn ich Geld in irgendetwas investiere, was ist meine Rendite?'", Sagt Johnson. "Das Gleiche gilt für Untertitel."

"Die richtigen Ecken abschneiden"

Das System von 3Play nahm am MIT Gestalt an, als die Mitbegründer begannen, "über Untertitelung aus Sicht der Fertigung nachzudenken", sagt Johnson. "Das bedeutete, die richtigen Ecken zu kürzen, um den Untertitelungsprozess effizienter zu gestalten, aber nicht fehlerhaft."

Während er 2007 für OCW arbeitete, lernte Johnson den mühsamen und zeitaufwändigen Prozess zum Untertiteln von Videos kennen. "Es wurde schnell klar, dass dies etwas Reifes für Innovationen ist, und Technologie könnte angewendet werden, um diesen Prozess ein wenig zu vereinfachen", sagt Johnson.

Die automatische Spracherkennung schien die klare Lösung zu sein. Es stellt sich jedoch heraus, dass die Technologie bestenfalls aufgrund von Fehlern, die unter anderem durch Akzente, komplexes Vokabular und Hintergrundgeräusche verursacht werden, nur zu etwa 80 Prozent genau ist.

Seit Jahren hatten die Forscher erfolglos versucht, diese 20-prozentige Lücke zu schließen. Die eigentliche Innovation musste also "nachträglich" eingeführt werden, so Johnson. Dies verkürzt den Zeitaufwand für die Bearbeitung eines fehlerhaften Entwurfs.

Dies führte die Studenten zur Gruppe für gesprochene Sprachsysteme, die von James Glass, einem leitenden Wissenschaftler bei CSAIL, geleitet wurde. Im Laufe des Sommers entwickelten sie einen Prototyp der 3Play-Benutzeroberfläche, der unter anderem traditionell manuelle Aufgaben automatisierte, wie das Gruppieren von Wörtern in Einzelbildsequenzen.

Heute ist diese Schnittstelle ein Schlüssel für die Effizienz des Systems, sagt Johnson. Mitschriften erscheinen den Redakteuren als einfache Dokumente mit einem Video an der Seite. Falsche oder unhörbare Wörter in der Benutzeroberfläche werden markiert und zusätzliche Funktionen erleichtern die Bearbeitung. Alle an den Transkripten vorgenommenen Änderungen werden in den Untertiteln wiedergegeben und die Zeit wird synchronisiert.

"Beim Schneiden von Ecken besteht die Idee darin, Technologie anzuwenden, um die Art und Weise zu verbessern, wie Menschen Transkripte bearbeiten

.

um der Perfektion so nahe wie möglich zu kommen und gleichzeitig die Zeit zu minimieren, die eine Person benötigt, um die Fehler zu korrigieren ", sagt Johnson.

Untertitel verkaufen

3Play startete im Jahr 2008 - nach dem Prototyping ihrer Technologie mit OCW - und nutzte den Venture Mentoring Service des MIT, um zu lernen, wie man einen Geschäftsplan erstellt, Kunden anlockt und Gelder verdient. "VMS war die Nr. 1, die uns beim Start geholfen hat", sagt Johnson.

Das Entrepreneurship- und Innovationsprogramm von MIT Sloan, an dem Johnson und Miller beteiligt waren, "war von entscheidender Bedeutung, um die Grundlage für den Start aus dem MIT zu schaffen", sagt Johnson.

Nachdem die Mitbegründer von 3Play das MIT Sloan abgeschlossen hatten, richtete das Unternehmen einen Laden in einer winzigen Wohnung in Somerville, Massachusetts, ein, in der die vier ohne Informatikhintergrund versuchten, ein webbasiertes Unternehmen aufzubauen. "Wir hatten" JavaScript for Dummies "-Bücher auf unseren Schreibtischen", erinnert sich Johnson. "Wir haben alles im Handumdrehen herausgefunden."

Irgendwann fanden sie eine Liste aller Colleges und Universitäten im Land und riefen nacheinander an, um ihre Dienste in Anspruch zu nehmen. "Wir haben Monat für Monat versucht, mit dem Verkauf von Untertiteln Geld zu verdienen", sagt Johnson.

Dann, eines Tages, riefen Vertreter der Yale University, die den Service schon einmal in Anspruch genommen hatten, an und sagten, sie kämen in die Unternehmenszentrale von 3Play - "unsere heruntergekommene Wohnung", sagt Johnson. "Also zünden wir ein paar Kerzen an und reden unangenehm mit ihnen darüber, wie wir ihre Untertitel machen werden", sagt er.

Yale wurde der erste große Kunde von 3Play außerhalb des MIT. Dutzende anderer Bildungseinrichtungen folgten, darunter die Princeton University, die Boston University, die Harvard Business School, die Johns Hopkins University und andere.

Im Laufe der Jahre hat das MIT 3Play verwendet, um Videos zu untertiteln, die für das Infinite History-Projekt MIT Sloan und das Industrial Liaison-Programm produziert wurden, bei dem es sich 2009 erstmals um interaktive Transkripte handelte.

In jüngerer Zeit betrat das Unternehmen den Unterhaltungsbereich und landete Netflix als Kunden. Das war ein Produkt der Fähigkeit des Unternehmens, viele Inhalte in kurzer Zeit zu verarbeiten, sagt Johnson: "Es geht nur um Skalierbarkeit."