Facebook i tłumaczenie maszynowe
Czy to już koniec?
Istnieje rozbieżność pomiędzy językami, którymi ludzie mówią, a treściami, z którymi chcą się utożsamiamy lub interesujemy w Internecie. Tak wygląda według Facebooka świat – i to, co dało impuls tej największej sieci społecznościowej do stworzenia własnego, opartego na sieci neuronowej systemu tłumaczenia maszynowego (MT).
“Z 1,6 miliarda ludzi, którzy aktywnie korzystają z Facebooka, ponad połowa… w ogóle nie mówi po angielsku. Większość z nich nie mówi po angielsku”, twierdzi Alan Packer, dyrektor techniczny i szef zespołu ds. technologii językowych w Facebooku.
W tej samej historii, eksperci z branży językowej zgodzili się z tym, co Packer miał do powiedzenia później: “Wierzymy, wraz z większością społeczności badawczej i akademickiej… że obecne podejście statystyczne, oparte na frazach pochodzących z tłumaczenia maszynowego (MT) osiągnęło w pewnym sensie koniec swojego naturalnego życia”.
Chociaż Packer przyznaje, że statystyczne tłumaczenie maszynowe (MT) jest w stanie tworzyć technicznie dokładne tłumaczenia, “nie brzmią one tak, jakby pochodziły od człowieka”. Nie są naturalne, nie są płynne”, zaznaczył Packer.
Ekspert Facebooka, którego zespół ds. technologii językowych pracował przez dwa lata nad tłumaczeniami maszynowymi (MT), rozpoznawaniem mowy i zrozumieniem języka naturalnego, powiedział, że są oni częścią zespołu ds. nauki maszynowej, którego celem jest wykorzystanie sztucznej inteligencji (AI) i zastosowanie jej, na dużą skalę, w produktach z Facebooka.
Ale dlaczego Facebook zdecydował samodzielnie budować projekt związany z tłumaczeniem maszynowym? Dlaczego nie korzystają z gotowych licencji lub używają tzw. open sources?
Jednym z powodów jest oczywiście skala przedsięwzięcia, dla którego Facebook zainwestował we własną technologię tłumaczenia maszynowego (MT}. Według Packera, istnieje ponad dwa biliony postów i komentarzy, których liczba codziennie rośnie o kolejny miliard. “Całkiem wyraźnie widać, że nie rozwiążemy tego problemu za pomocą pełnej sali, ani nawet budynku wypełnionego ludzkimi tłumaczami”, powiedział Packer, dodając, że aby mieć choćby cień nadziei na rozwiązanie tego zagadnienia z tłumaczeniami dla Facebooka, potrzebujemy sztucznej inteligencji oraz pełnej automatyzacji”.
Kolejnym powodem jest zdolność adaptacji, jeszcze bardziej jej brak. “Próbowaliśmy tego rozwiązania, popróbowawszy zlecać ten projekt tłumaczeniowy na zewnątrz”, powiedział Packer o wykorzystaniu zewnętrznych MT, ale “nie działało to wystarczająco dobrze, patrząc na skalę naszych potrzeb”. Głównym powodem jest fakt, że “język Facebooka” jest inny od tego, który występuje w pozostałej części sieci.
Packer opisał język Facebooka jako “niezwykle nieformalny”. Jest pełen slangów, jest bardzo regionalny.” Dodał, że jest też obfitujący w metafory, idiomatyczne wyrażenia, i jest usiany błędną pisownią (większość z nich jest celowa). Dodatkowo, podobnie jak w innych częściach świata, istnieje wyraźna różnica w sposobie komunikowania się różnych grup wiekowych na Facebooku.
Wyjaśnił, że istniejące systemy realizujące tłumaczenie maszynowe (MT) są szkolone z wykorzystaniem głównie akademickich zbiorów danych i danych wydobywanych z Internetu “poprzez szukanie równoległych korpusów”, czyli “tego samego dokumentu w wielu językach w sieci”.
Ale te równoległe dane zazwyczaj pochodzą z takich miejsc jak dokumenty rządowe, przebieg konferencji i podręczniki użytkownika. Packer śmieje się, że: “To wspaniałe, że mogę znaleźć w sieci podręcznik zmywarki do naczyń i dowiedzieć się, w jaki sposób wydłubać nasiona cytryny z dysz zmywarki. Okazuje się jednak, że język, który znajduje się w instrukcji obsługi zmywarki, ma niewiele wspólnego z językiem, którym ludzie rozmawiają ze sobą na Facebooku”.
Packer powiedział, iż wierzy, że dopiero sieci neuronowe będą w stanie nauczyć się “podstawowego znaczenia semantycznego języka”, więc to, co zostanie przez nie produkowane, to tłumaczenia “które będą brzmiały bardziej, jakby pochodziły od człowieka”. Powiedział, że sieci neuronowe oparte na tłumaczeniu maszynowym mogą również nauczyć się idiomatycznych wyrażeń i metafor, i “zamiast robić dosłowne tłumaczenie, znaleźć kulturowy odpowiednik w innym języku”.
Podobno wstępne wyniki są bardzo obiecujące. Czekamy na rozwój sytuacji.
Udostępnij wpis
Newsletter
Zapisz się do Newslettera i otrzymuj powiadomienia o najnowszych wpisach i promocjach
Wysyłając swój adres mailowy wrażasz zgodę na przetwarzanie swoich danych osobowych – Administratorem danych osobowych jest firma Trzecia Połowa Sp. z o.o. z siedzibą w Warszawie, ul Sarmacka 1A/82