я на прошлых выходных длинных сделал себе приложение, которое может на лету переводить речь и озвучивать моим же голосом (на бэкэнде пайплайн из нейросетей). И тут выходит новая гпт и я такой — блэт 😄
А ну если развлечься, то можно. У меня была идея программки для анонимизации голоса и лица, чтобы люди могли свободно разговаривать на видеоконференции или записывать разные шорты или видео, если до сих пор стесняются.
Python, PyTorch, математика, публичные датасеты =) из распознавания лучшее это Whisper (он кстати от openai, но его код доступен в паблике), для синтезирования много моделек, но мне качество не понравилось, я свою обучал. Перевод тоже элементарно обучается, но я взял готовую модель от Helsinki. По факту синтезирование речи только сам допиливал на торче
Уже существует DeepFaceLive, но там для каждого лица нужно обучать заново, для чего нужна мощная видюха как минимум, для голоса есть RVC и другие похожие проекты
Да как раз таки идея в том чтобы люди могли использовать на любых устройствах, просто пользуясь выбором нужного видео и аудио потока. Думаю реалистичность в таких вещах не сильно важна, главное отразить эмоции на лице и в голосе.