Голосовой режим ChatGPT: говорить с AI как с другом
Разговаривать с AI кажется странным секунд девяносто, а потом превращается в самый естественный интерфейс из существующих. Практический гид по голосовому режиму — в чём он хорош, в чём плох и как им реально пользоваться.
Большинство людей, впервые пробующих голосовой режим ChatGPT, бросают через тридцать секунд, потому что чувствуют себя слегка глупо. Это понятно — говорить вслух с телефоном с непривычки странно, особенно на людях. Но голосовой режим — одна из самых недооценённых функций современного AI, и стоит найти ситуации, где он действительно лучше клавиатуры, как перестаёшь воспринимать его как аттракцион.
Эта статья — короткий обзор того, в чём голосовой режим хорош, в чём плох и как им пользоваться, не чувствуя себя футуристом.
Как его найти
В приложении ChatGPT — на iOS и Android — рядом с полем ввода есть иконка в виде наушников. Нажмите. На большинстве актуальных версий вы увидите два голосовых варианта:
- Standard voice: базовый режим «спроси и ответь». В мобильных приложениях работает стабильно; в вебе поддержка голоса зависит от вашего аккаунта и текущего интерфейса продукта.
- Advanced voice (иногда под брендом «Realtime» или похожим): разговорная версия, которая обрабатывает перебивания, интонацию и ощущается куда естественнее. Доступна на тарифах Plus и Pro.
У Claude, Gemini и Grok теперь тоже есть похожие разговорные голосовые режимы. Apple Intelligence Voice и Google Gemini Live тоже на хорошем уровне. Советы в этой статье применимы ко всем, с небольшими отличиями в расположении кнопок.
Почему голос меняет то, как вы пользуетесь AI
Клавиатура заставляет вас формулировать. Вы продумываете, что именно хотите сказать, набираете, перечитываете, отправляете. Голос — другой. Вы думаете вслух. Вы рассуждаете. Вы возвращаетесь назад. Вы говорите что-то вроде «а нет, погоди, ещё...».
Оказывается, это правильный интерфейс для определённого типа задач. Когда вы ещё разбираетесь, что именно вы хотите сказать, клавиатура вас тормозит. Голос встречает вас там, где вы находитесь. Несколько примеров, где это важно:
Думать вслух про решение. «Так, я пытаюсь решить, принимать ли оффер. Меня смущает дорога, но мне кажется, работа интереснее. И ещё моя партнёрша упомянула... слушай, а можешь задавать мне вопросы, а не просто слушать?» Разговор течёт так, как с клавиатурой не получилось бы.
Прорабатывать задачу на ходу. Встать, подвигаться, проговорить — есть исследования о том, почему это работает лучше, чем сидеть перед экраном. Голосовой режим позволяет делать это, имея при этом партнёра по мышлению.
Учить язык. Тренировать разговорную речь на эстонском, немецком, испанском, японском — везде, где нужно именно говорить, а не только читать. Модель охотно отыгрывает роль носителя, поправляет произношение и замедляется, если попросить.
Моменты, когда руки заняты. Готовка, вождение, выгул собаки, тренировка. Клавиатура недоступна; голос — единственный вариант.
Быстрая фиксация. «Запомни, что мне нужно списаться с Анной по поводу предложения в следующий вторник, и напомни спросить про вопрос с бюджетом». Быстрее, чем набирать в заметках.
Ментальная модель: говорите с ним как с умным другом по телефону
Если голосовой режим кажется неловким, лекарство почти всегда одно — перестать думать о нём как о поисковой строке с микрофоном и начать думать как о телефонном разговоре с умным, начитанным другом. Вы можете:
- Перебивать его. («Стоп, я не это имел в виду».)
- Рассуждать вслух. («Так, в общем, у меня ситуация такая, она довольно запутанная...».)
- Менять курс по ходу фразы. («Нет, забудь, давай заново».)
- Естественно задавать уточняющие вопросы. («Подожди, а что ты имел в виду?»)
- Останавливаться и думать. («Хм, дай секунду».)
Попробуйте это один раз. Откройте голосовой режим и скажите что-то вроде: «Сегодня у меня был странный разговор с коллегой, и я хочу обдумать, как с этим быть. Послушай минуту, а потом задай мне три вопроса». А потом говорите пару минут так, как говорили бы с другом. Модель подхватит нить и задаст полезные вопросы в ответ. В первый раз это правда удивляет.
В чём голос плох
Честный список:
Всё визуальное. Если задача требует смотреть на документ, график или экран, голос — неправильный инструмент. Будет соблазн описать то, на что вы смотрите, но описание всегда теряет информацию. Используйте камеру или режим загрузки.
Точный текстовый вывод. Если нужно, чтобы модель набросала письмо, слайд, служебку — вы можете запросить голосом, но результат вам захочется получить в виде текста, который можно скопировать. Большинство голосовых режимов умеют и то и другое (произнести ответ и показать на экране), но голос редко бывает самым быстрым способом произвести письменный продукт.
Всё, что нужно читать параллельно. Сложные объяснения, списки вариантов, всё с цифрами или шагами. Голос плохо справляется со списками. Пять пунктов, произнесённых вслух, удержать в голове гораздо труднее, чем те же пять пунктов в тексте.
Публичные места, где вы не стали бы говорить по телефону. Это больше про социальное, чем про техническое, но это имеет значение. В тихом офисе или в забитом автобусе голосовой режим читается как невежливый — так же, как и обычный разговор по телефону. Вставьте наушник — и проблема исчезает.
Задачи, где нужна точность ввода. Произносить вслух фрагмент кода, точное имя, длинный URL или сложный адрес — рецепт раздражения. Это лучше напечатать.
Несколько полезных паттернов
Когда голос становится привычным, небольшой набор паттернов покрывает большую часть реального использования:
Аналитическая прогулка. Двадцать минут на улице, голосовой режим включён, проработка одного сложного вопроса. Иногда настоящей задачи, иногда черновика чего-то, иногда «объясни мне X так, как будто я обычный любознательный человек». Многие, кто так делает, замечают, что это заменяет час встречи с самим собой, которого они до этого избегали.
Утренний брифинг. Откройте голосовой режим утром и попросите модель сделать пятиминутный брифинг на день. «Сегодня вторник. У меня три встречи в 10, 14 и 16. Главные приоритеты — X, Y, Z. Расскажи мне за пять минут, как подготовиться к этому дню». Особенно хорошо работает в связке с интеграцией календаря, если она у вас есть.
Партнёр по языковому погружению. «Веди со мной разговор на эстонском. Уровень — средний. Используй простую грамматику, но варьируй лексику. Поправляй меня, когда я говорю что-то явно неправильно, но не перебивай ради этого — дожидайся конца моего предложения». Реальный тренажёр навыка, и в отличие от репетитора — с бесконечным запасом терпения.
Партнёр по подготовке к интервью. «Ты собеседуешь меня на позицию senior product manager в стартап на стадии Series B. Задавай по одному реалистичному вопросу за раз. Дави, если мой ответ слишком общий. Не давай мне фидбэк до конца интервью, а потом скажи, какие два ответа мне стоит улучшить и как». Сложно переоценить, насколько это полезно вечером перед реальным интервью.
Промпт для дневника. «Задай мне три вопроса о том, как проходит моя неделя. Не давай советов. Просто слушай и задавай уточняющие». Пять минут в неделю — на удивление хорошая привычка чек-ина.
Небольшая финальная заметка
Не надо говорить так, будто вы диктуете служебную записку. Весь смысл в том, что можно рассуждать, начинать заново, противоречить себе и просить модель собрать из этого смысл. Модель спокойно относится к спотыканиям. Многие пользователи замечают, что разговоры с AI в голосовом режиме оказываются полезнее, чем напечатанные, — потому что они меньше думают над формулировкой промпта и больше над тем, что им вообще нужно понять.
Если до сих пор голосовой режим казался вам странным, попробуйте сделать так: завтра утром, по дороге туда, куда вы едете, вставьте наушники и попросите модель помочь вам подумать над одной вещью, которая у вас в голове. Идите десять минут. К тому моменту, как вы дойдёте, вы её либо решите, либо сформулируете чётче. И то и другое — победа, и единственное, что только что поменялось, — это интерфейс.