дрожжи

Неформальные заметки на русском. Также в Telegram.

Транскрибировать всю мою жизнь

Транскрибировать всю мою жизнь

TLDR: speech2md позволяет хорошо транскрибировать речь на смеси языков и разделять её на дикторов на NVIDIA GPU с 16Gb памяти. Я встроил его в автоматический сценарий, так что записи с телефона автоматически конвертируются в текстовые заметки.

Распознавание речи вообще не новая штуковина, существовала давно-давно. Более того, на каждом телефоне есть голосовой ввод на клавиатуре. И он даже работает хорошо. Но есть моменты.

Во-первых, что касается меня, я часто мешаю языки в речи. Я могу говорить по-русски, добавлять кучу англоязычных терминов, потом вставить парочку чешских слов, дальше продолжить на русском или английском.

И вот с таким маленькие модели, которые установлены на телефонах, уже справляются не очень. Нужны модели побольше. Я использую слово “модель”, потому что сейчас практически все распознавание речи делается специальными большими языковыми моделями (LLM) со специальным энкодером для речи.

К счастью,

Читать дальше →
ИИ конференции устарели

ИИ конференции устарели

Еще одна мысль о конференциях про искусственный интеллект. Они в общем-то устарели. Как какое-то время назад устарели книги об инструментах для программирования, так как к моменту издания книги она будет уже о старой версии языка или библиотеки. Теперь же тема презентации, принятая за месяц до события, может быть вообще не актуальной, так как и модели поменялись и подходы. Нужно постить научные находки в TikTok. А на конференциях оставить только кофе-брейки.

У LLM нет сознания (пока что)

У LLM нет сознания (пока что)

На прошлой неделе, я был на конференции OpenTalks.ai и один из вопросов, который теперь регулярно всплывает у меня в сознании - это вопрос о наличии сознания у языковых моделей.

Ответить на него односложно довольно легко - у современных LLM сознания нет. Нет его хотя бы по той причине, что у них нет внутреннего состояния, которое сохраняется между запросами и может меняться само по себе. Модель не может подумать о своем или еще раз вернуться к запросу, который она обрабатывала несколько часов назад.

Читать дальше →
Однорукий агент

Однорукий агент

Пару месяцев назад в ИИ агентах для кодинга произошел качественный скачок. Связано это в первую очередь с новыми моделями (Claude Opus 4.5/4.6 и GPT-5.2/5.3-codex). Теперь они решают достаточно большие задачи, на которые так бы ушли многие часы, а выкидывать плохой код нужно реже, да и задачу не нужно расписывать слишком уж детально - у них хватает своего здравого смысла. И это завлекает. Я чувствую себя супер-героем, способным за 15 минут сделать полезную штуку. А потом еще одну. И еще. И еще.

Читать дальше →