Michał Wąsowski, Money.pl: Rozmawiamy przy okazji otwarcia Waszego biura w Polsce, więc muszę zapytać: czy wierzysz, że nasz kraj może być istotny na AI-owej mapie świata? Nawet niekoniecznie jako mocny gracz, ale po prostu - żebyśmy byli obecni, zauważeni.
Mati Staniszewski, współzałożyciel ElevenLabs: Wierzę. I nie tylko w to, że możemy stać się potęgą czy mieć firmy kojarzone z AI. Już teraz realnie dołożyliśmy się do świata sztucznej inteligencji. Czy patrząc produktach, czy po badaniach. Duża część tego pierwszego researchu AI była tworzona przez Polaków. Miałem to szczęście, że mój co-founder, Piotr Dąbkowski, też jest z Polski, tutaj się poznaliśmy ponad 14 lat temu. Wydaje nam się, że talentów jest w naszym kraju dużo: wygrywają olimpiady, są na światowym poziomie AI. Niestety, często nie mają wielu szans, by znaleźć topową firmę, w której mogą pracować. Dlatego my, otwierając działalność w Polsce, chcemy przede wszystkim być partnerem dla tych super talentów.
Dotknąłeś istotnego problemu: mamy talenty, ludzi, ale duża część z nich pracuje na Zachodzie: w USA, Wielkiej Brytanii czy innych krajach. Otwieranie oddziałów takich firm jak Wasza to jedno, ale co jeszcze musi się wydarzyć, żeby powstawały u nas kolejne startupy AI, żeby utalentowani ludzie chcieli tu zostawać?
Na pewno można tutaj robić więcej. Często teraz jest tak, że największe laboratoria AI w Stanach Zjednoczonych, na zachodnim wybrzeżu, wymagają bycia na miejscu, aby w ogóle tam pracować. Dlatego możemy budować tutaj centra R&D, aby dało się pracować stąd i być w tym świecie AI. Po drugie, uważam, że tworzymy niesamowite projekty i powinniśmy pokazywać je szerzej - żeby ludzie wiedzieli, że coś takiego istnieje, dzieje się, jest przydatne. Wierzę, że jeśli w Polsce powstanie kilka firm, z polskimi founderami, którzy wydepczą tę ścieżkę, to nadejdzie też fala nowych przedsiębiorców, którzy będą wiedzieli, jak się do tego zabrać. Gdy myślę o przeszłości swojej i wielu rówieśników, to start w świecie startupów jest nadal wielką niewiadomą. Jak to powinno działać, jaki jest pierwszy krok. My mieliśmy szczęście znać kilka osób w ekosystemie, które pomogły nam w pierwszych krokach. Mamy nadzieję, że będziemy w stanie przekazać to dalej kolejnym osobom.
Trzeci kierunek, to pokazanie ludziom, że wykorzystanie AI jest im bliskie. Jest część zastosowań oderwanych od życia codziennego, ale to, co robimy z audio, jest naprawdę blisko ludzi. Daje np. możliwość przeczytania na głos artykułu, w innym języku - to jest element szerszej edukacji. To coś, co do tej pory nie było dostępne, a może nam wszystkim naprawdę pomóc.
Dalsza część artykułu pod materiałem wideo
A kapitał? To jest coś, czego ani Polska, ani nawet Europa, nie ma tak dużego jak USA czy Chiny. Ale Francja na przykład inwestuje spore nakłady państwowe.
W całej Europie ten kapitał jest dużo mniejszy niż w USA i na pewno jest to problem. Startupy zarówno na wczesnym etapie rozwoju, jak i na dalszych etapach, mają trudności z pozyskaniem kapitału. Całej gospodarce zajmie pewnie co najmniej kilka lat, żeby dojść do skali, w której można operować, ale stąd też nasza inwestycja. Chcemy zaoferować talentom w Polsce i regionie światowe wynagrodzenie, i tym samym zmienić zasady gry. Większym pytaniem jest: jak ściągnąć cały świat venture capital, żeby inwestował w Polsce. Na to jednak nie mamy dobrej odpowiedzi. Może jeśli z czasem ludzie zobaczą, jakie firmy się tutaj budują, to kolejnym generacjom będzie łatwiej.
Wy chyba nie mieliście tak łatwo? Dzisiaj AI wydaje się oczywistym tematem dla inwestorów, wszędzie jest wielki entuzjazm, ale jeszcze kilka lat temu tak nie było. Kiedy nastąpił moment, w którym postanowiłeś, że akurat tym będziesz się zajmować?
Mieliśmy dużo szczęścia. Z Piotrkiem znaliśmy się od liceum, byliśmy w tej samej klasie. Zostaliśmy najbliższymi przyjaciółmi. Potem razem mieszkaliśmy, podróżowaliśmy i studiowaliśmy, aż założyliśmy startup. Przez lata, jak Piotrek był w Google, a ja w Palantirze, realizowaliśmy wspólnie różne weekendowe pomysły na hackathonach. To były naprawdę różne rzeczy: od analiz ryzyka w kryptowalutach, przez optymalizację rekomendacji, aż do projektu audio. Na początku był inny niż to, czym teraz zajmuje się ElevenLabs: analizował to, jak mówisz i dawał ci wskazówki, co poprawić. Ja np. dostałem wskazówkę, by mówić wolniej, a dalej mówię za szybko, więc to chyba nie było skuteczne. Widzieliśmy jednak jeszcze jeden problem do rozwiązania. W młodości razem z Piotrem oglądaliśmy amerykańskie filmy z beznamiętnym lektorem. Chcieliśmy zaproponować alternatywę: zaoferowanie tej samej treści, przekazanej głosem tego samego aktora, ale w ojczystym języku widza lub słuchacza. Zauważyliśmy, że nasz model może rozwiązać jeden z największych problemów związanych z generowaniem naturalnej mowy przez AI, czyli zrozumienie kontekstu tekstu i emocji, jakie przekazuje. Kontynuowaliśmy więc research. Byliśmy wtedy w dobrym położeniu: mieliśmy oszczędności, pracę, mogliśmy zaryzykować i poświęcić się w pełni pracy nad ElevenLabs. To był początek 2022 r., czyli jeszcze przed tą falą pędu na AI. Na początku było trudno. Ale osoby, które chciały z nami pracować, też wierzyły w projekt.
Skoro sam wspomniałeś o Palantirze, to zatrzymajmy się przy nim na chwilę. Co wyniosłeś z pracy tam? To firma, która budzi duże emocje, przez lata nazywana najbardziej tajemniczym startupem w USA.
To było zderzenie z ciekawą, inną rzeczywistością. Wcześniej byłem w BlackRock, potem w Palantirze. W BlackRocku przez pierwszych kilka miesięcy nie możesz nic zrobić samodzielnie. Jeśli masz wysłać cokolwiek na zewnątrz, najpierw tworzysz draft maila, czekasz aż ktoś go zrewiduje i dopiero potem możesz to komukolwiek wysłać. W Palantirze w ciągu kilku pierwszych tygodni zostałem wysłany z zespołem do Aberdeen, do pracy z pierwszym klientem i po trzech tygodniach robiłem dla tych osób prezentację. Było zupełnie inaczej. I bardzo to doceniam: było tam duże zaufanie do pracowników, duża odpowiedzialność, można było mieć wpływ, nawet w małym zespole. Od wczesnych dni miałem bliski kontakt z klientem, gdzie mogłem zrozumieć, jaki on ma problem, jak to się przekłada na rozwiązanie palantirowe. Próbujemy to realizować teraz w ElevenLabs, dając każdej osobie duże pole odpowiedzialności. Wierzymy w kompetencje ludzi, chcemy, by pracowali bezpośrednio z naszymi klientami, żeby uczyli się tego, czego potrzebują. Mam nadzieję, że to z naszej strony dobry zakład.
Zapytałem o Palantir, bo to jedna z firm, które budzą pewne kontrowersje pod kątem wykorzystania swojej technologii. Po tej przygodzie, a teraz budująć startup AI, masz w sobie sceptycyzm wobec AI? Jakieś obawy? Wspominasz o lektorach - nie jest tak, że Wasza technologia np. odbiera im poniekąd pracę, jeśli dadzą Wam licencję na swój głos?
Widzę tutaj dwie rzeczy. Pytasz o sceptycyzm - na pewno mamy kilka kwestii, gdzie myślimy o tym, jak technologia powinna być chroniona od nieprawidłowego użycia. Jak powinniśmy tworzyć te ramy, żeby uchronić ludzi od np. wykorzystania technologii w deepfake’ach.
To wydaje się głównym problemem, jeśli chodzi o treści generowane przez AI. Co więc robicie, żeby to zaadresować?
Na pewno deepfake i ich szerzenie jest problemem czy potencjalnym zagrożeniem. Już teraz, technologia, nie tylko nasza, jest w stanie tworzyć bardzo dobry obraz głosu czy twarzy. I tych treści tworzonych przez AI będzie więcej, nie mniej. Tak naprawdę większość contentu może być w formie AI. Całe społeczeństwo będzie do tego musiało podejść trochę inaczej niż dotychczas. My patrzymy na to, co możemy zrobić i z naszej strony najważniejsza jest profilaktyka oraz transparentność. Chcemy aby dało się sprawdzić, jak powstała dana treść, kto ją stworzył. Są trzy szczeble: po pierwsze, prawdziwy głos powinien mieć swój znak wodny i móc być zakodowany i odkodowany, by było wiadomo, że jest prawdziwy. Potem mamy głos autoryzowany przez AI, czyli: ja dałem zgodę na użycie głosu, bo chcę żeby przeczytał jakiś artykuł, ale nadal można sprawdzić, jak zostało stworzone to nagranie. I trzeci poziom to możliwość sprawdzenia po prostu, czy coś zostało wygenerowane przez AI. Do tego dochodzi też oczywiście moderacja. Robimy to jako odpowiedzialna firma, moderujemy głosy i tekst.
Możesz rozwinąć na czym ta moderacja polega?
Na przykład mamy teraz klonowanie głosu - jeśli to robisz, to w pierwszej kolejności porównujemy go z naszą bazą danych. Jeżeli jest to głos, co do którego sądzimy, że już do kogoś należy, a ty nie masz zgody na jego wykorzystanie, blokujemy go. W najbardziej zaawansowanym modelu do klonowania głosu w najwyższej jakości trzeba przejść jeszcze kilka określonych kroków: dać próbkę, a potem nagrać siebie w określonym czasie. Porównujemy oba nagrania i dopiero gdy potwierdzimy spójność, to klonujemy ten głos. Następnie jeszcze sprawdzamy, czy treść w ten sposób generowana nie jest np. scamem.
Czyli patrzycie też na to, co jest generowane przez głos: czy nie jest to oszustwo itd.?
Tak. Patrzymy i próbujemy znaleźć działania i treści, które mogą być oszustwem. Teraz na przykład mieliśmy intensywny okres przy okazji wyborów w USA. Chcemy udostępniać nasze mechanizmy szerzejcałym świecie. Mamy np. narzędzie, które pozwala wgrać plik audio i dostać informację, czy został wygenerowany przez AI czy nie. Jest to publiczne, darmowe, każdy może skorzystać. Teraz pracujemy z partnerami, żeby rozszerzyć to na inne platformy. Technologii do tworzenia nagrań jest już teraz naprawdę dużo. Ale widzimy, że te do scamu wykorzystuje się najczęściej technologie open source, które nie mają żadnych restrykcji.
To jedno zagrożenie. A drugie, czyli zmiany na rynku pracy, które mogą powstać na skutek Waszej technologii?
Za każdym razem, gdy technologia wchodzi w nowe obszary, zmienia sposób pracy. Najczęstsze zastosowania naszej technologii, które teraz obserwujemy, to wykorzystanie audio w obszarach, w którym wcześniej w ogóle nie istniało.
Czyli np. treści tekstowe, których nie ma w formie audiobooka lub artykuły, które nie były dotąd czytane. Nie mówiąc o książkach, które mogą czytać różne głosy – tak, by odbiorca miał wybór. Kolejne elementy to dostarczanie treści w różnych językach tym samym głosem. Jeden z partnerów, z którym współpracujemy, zrobił dokładnie tak: pozyskali licencje na głosy głosy kilku świetnych lektorów i dają wybór, który z nich przeczyta daną książkę. Na pewno zmieni się sposób, w jaki lektorzy zarabiają. Jedną z naszych inicjatyw jest możliwość stworzenia swojego głosu AI i udostępniania go w naszej bibliotece oraz zarabiania, kiedy jest wykorzystywany. Mamy w tym programie już 2 tys. osób, które udostępniły w ten sposób swój głos. Zainicjowaliśmy to w tym roku i od momentu startu wypłaciliśmy już milion dolarów. Nasz pierwszy głos w języku angielskim, najbardziej znany, pochodzi od aktora z Hiszpanii, więc miał zupełnie inny akcent. Na pewno więc model pracy się zmieni, ale dopiero odkryjemy, jak to wszystko będzie wyglądało.
Gdy patrzysz na te wszystkie aspekty, o których rozmawiamy: kapitałowe, biznesowe, technologiczne, społeczne, to co wydaje Ci się największym wyzwaniem w zdrowym zaadaptowaniu AI? Zawsze będą jakieś zagrożenia, tego nie da się uniknąć, ale powinniśmy dążyć do tego, żeby technologia bardziej pomagała, niż przeszkadzała.
To świetne pytanie. Gdy myślę o osobach w moim otoczeniu, np. rodzicach - bo na pewno jestem w tej bańce, w której wszyscy mówią o AI - to pierwszym krokiem wydaje mi się częstsze używanie narzędzi, które już istnieją. Próbowanie, jak to działa. Może dziś nie wszystko jest wystarczająco dobre, ale ważne jest, by każdy się edukował, używał tego, co już jest na horyzoncie. Często rozmowa o AI polega na tym, gdzie możemy być za 5-10 lat, ale już dziś są przykłady zastosowań dające wartość w codziennym życiu i pracy ć. Wydaje mi się, że potrzebujemy więcej uwagi skierowanej na to, co jest teraz niż na to, co będzie w przyszłości.
Rozmawiał Michał Wąsowski, zastępca szefa redakcji Money.pl