Speech

Транскрибировать всю мою жизнь

Транскрибировать всю мою жизнь

TLDR: speech2md позволяет хорошо транскрибировать речь на смеси языков и разделять её на дикторов на NVIDIA GPU с 16Gb памяти. Я встроил его в автоматический сценарий, так что записи с телефона автоматически конвертируются в текстовые заметки.

Распознавание речи вообще не новая штуковина, существовала давно-давно. Более того, на каждом телефоне есть голосовой ввод на клавиатуре. И он даже работает хорошо. Но есть моменты.

Во-первых, что касается меня, я часто мешаю языки в речи. Я могу говорить по-русски, добавлять кучу англоязычных терминов, потом вставить парочку чешских слов, дальше продолжить на русском или английском.

И вот с таким маленькие модели, которые установлены на телефонах, уже справляются не очень. Нужны модели побольше. Я использую слово “модель”, потому что сейчас практически все распознавание речи делается специальными большими языковыми моделями (LLM) со специальным энкодером для речи.

К счастью,