<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>дрожжи on kumekay</title><link>https://kumekay.com/drozdi/</link><description>Recent content in дрожжи on kumekay</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Sun, 26 Apr 2026 22:12:21 +0100</lastBuildDate><atom:link href="https://kumekay.com/drozdi/index.xml" rel="self" type="application/rss+xml"/><item><title>Транскрибировать всю мою жизнь</title><link>https://kumekay.com/drozdi/transcribe-my-life/</link><pubDate>Sun, 26 Apr 2026 22:12:21 +0100</pubDate><guid>https://kumekay.com/drozdi/transcribe-my-life/</guid><description>&lt;p&gt;TLDR: &lt;a href="https://kumekay.com/utoolek/speech2md/"&gt;speech2md&lt;/a&gt; позволяет хорошо транскрибировать речь на смеси языков и разделять её на дикторов на NVIDIA GPU с 16Gb памяти. Я встроил его в автоматический сценарий, так что записи с телефона автоматически конвертируются в текстовые заметки.&lt;/p&gt;
&lt;p&gt;Распознавание речи вообще не новая штуковина, существовала давно-давно. Более того, на каждом телефоне есть голосовой ввод на клавиатуре. И он даже работает хорошо. Но есть моменты.&lt;/p&gt;
&lt;p&gt;Во-первых, что касается меня, я часто мешаю языки в речи. Я могу говорить по-русски, добавлять кучу англоязычных терминов, потом вставить парочку чешских слов, дальше продолжить на русском или английском.&lt;/p&gt;
&lt;p&gt;И вот с таким маленькие модели, которые установлены на телефонах, уже справляются не очень. Нужны модели побольше. Я использую слово &amp;ldquo;модель&amp;rdquo;, потому что сейчас практически все распознавание речи делается специальными большими языковыми моделями (LLM) со специальным энкодером для речи.&lt;/p&gt;
&lt;p&gt;К счастью,&lt;/p&gt;</description></item><item><title>ИИ конференции устарели</title><link>https://kumekay.com/drozdi/conf-time/</link><pubDate>Thu, 05 Mar 2026 00:12:21 +0100</pubDate><guid>https://kumekay.com/drozdi/conf-time/</guid><description>&lt;p&gt;Еще одна мысль о конференциях про искусственный интеллект. Они в общем-то устарели. Как какое-то время назад устарели книги об инструментах для программирования, так как к моменту издания книги она будет уже о старой версии языка или библиотеки. Теперь же тема презентации, принятая за месяц до события, может быть вообще не актуальной, так как и модели поменялись и подходы. Нужно постить научные находки в TikTok. А на конференциях оставить только кофе-брейки.&lt;/p&gt;</description></item><item><title>У LLM нет сознания (пока что)</title><link>https://kumekay.com/drozdi/consciousness/</link><pubDate>Tue, 24 Feb 2026 22:19:27 +0100</pubDate><guid>https://kumekay.com/drozdi/consciousness/</guid><description>&lt;p&gt;На прошлой неделе, я был на конференции &lt;a href="https://opentalks.ai/"&gt;OpenTalks.ai&lt;/a&gt; и один из вопросов, который теперь регулярно всплывает у меня в сознании - это вопрос о наличии сознания у языковых моделей.&lt;/p&gt;
&lt;p&gt;Ответить на него односложно довольно легко - у современных LLM сознания нет. Нет его хотя бы по той причине, что у них нет внутреннего состояния, которое сохраняется между запросами и может меняться само по себе. Модель не может подумать о своем или еще раз вернуться к запросу, который она обрабатывала несколько часов назад.&lt;/p&gt;</description></item><item><title>Однорукий агент</title><link>https://kumekay.com/drozdi/gambling/</link><pubDate>Thu, 19 Feb 2026 00:00:00 +0000</pubDate><guid>https://kumekay.com/drozdi/gambling/</guid><description>&lt;p&gt;Пару месяцев назад в ИИ агентах для кодинга произошел качественный скачок. Связано это в первую очередь с новыми моделями (Claude Opus 4.5/4.6 и GPT-5.2/5.3-codex). Теперь они решают достаточно большие задачи, на которые так бы ушли многие часы, а выкидывать плохой код нужно реже, да и задачу не нужно расписывать слишком уж детально - у них хватает своего здравого смысла. И это завлекает. Я чувствую себя супер-героем, способным за 15 минут сделать полезную штуку. А потом еще одну. И еще. И еще.&lt;/p&gt;</description></item></channel></rss>