
Транскрибировать всю мою жизнь
TLDR: speech2md позволяет хорошо транскрибировать речь на смеси языков и разделять её на дикторов на NVIDIA GPU с 16Gb памяти. Я встроил его в автоматический сценарий, так что записи с телефона автоматически конвертируются в текстовые заметки.
Распознавание речи вообще не новая штуковина, существовала давно-давно. Более того, на каждом телефоне есть голосовой ввод на клавиатуре. И он даже работает хорошо. Но есть моменты.
Во-первых, что касается меня, я часто мешаю языки в речи. Я могу говорить по-русски, добавлять кучу англоязычных терминов, потом вставить парочку чешских слов, дальше продолжить на русском или английском.
И вот с таким маленькие модели, которые установлены на телефонах, уже справляются не очень. Нужны модели побольше. Я использую слово “модель”, потому что сейчас практически все распознавание речи делается специальными большими языковыми моделями (LLM) со специальным энкодером для речи.
К счастью,