Голос в текст

1K 13:39 - 15/Сен/24 Россия

(5 лет 11 месяцев)

Друзья, нужен совет. Какой преобразователь голоса в текст лучше?

Авторство:

Авторская работа / переводика

Блог пользователя Oleg78 | Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Забыл добавить, что, например, мой знакомый много пользовался индийцами - посылая им диктофонные записи и получая транскрипты. Он был согласен на значительное удорожание ставки, только бы не поточные транскрипты (которые читались с неизменным хохотом)... Речь шла про английскую речь и англоязычные транскрипты.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(2 года 7 месяцев)16:51-15/Сен/24

Я давным-давно научился печатать вслепую и наслаждаюсь этим. Да, учиться очень скучно - нужно долбить и долбить все эти ОВАУВЫ, но зато когда научишься - пальцы сами по нужным клавишам долбят с дикой скоростью. Приятно, что при этом не нужно смотреть ни на клавиатуру, ни даже на экран. А решился я научиться потому что не нашёл ни одной нормальной программы, которая бы переводила речь в текст. Да, все нужно обучать, но даже когда обучишь - это ненормально. А потом я прочёл статью про компьютерное зрение и компьютерный слух. Там просто и доходчиво объяснялось, что компьютерное зрение нормальным не будет никогда - слишком большие объёмы информации нужно хранить, а потом ещё и обрабатывать. Если компьютеру показать ладонь и обучить его этому, то он в следующий раз её определит. Но! Только в том случае, если вы опять ему покажете ладонь в том же положении. Если немного повернёте и наклоните - он уже не поймёт что это (в то время не мог). Если согнёте один палец - тоже. То есть ему нужно тысячи ладоней показать в разных положениях, чтобы он мог определить. Но тогда повышается время обработки этих данных. И ладони могут быть женские, мужские, негритянские...

Со звуком вообще интересно. Оказывается, мы не говорим отдельными словами, мы издаём всё слитно, а мозг разбивает сплошной поток звуков на знакомые слова. До этой статьи я даже не знал этого и не задумывался. Компьютер так не умеет. Поэтому компьютеру нужно говорить каждое слово отдельно - то есть делать паузы. Понятно, что перед этим нужно его обучить. Но если вы охрипнете - то придётся учить заново. Так вот, даже если вы отлично обучили программу, не охрипли, у вас чуткий микрофон и мощный компьютер - всё равно речь в текст будет переводиться очень медленно. Из-за этих пауз. Любая секретарша, умеющая печатать даже 200 знаков в минуту, будет гораздо эффективнее всех этих систем (на то время, сейчас - не знаю). Так что лучше научитесь быстро печатать и купите себе эргономичную клавиатуру. Я так радовался, когда купил себе знаменитейшую Microsoft Ergonomic 4000 по большой скидке (всего за 3000 вместо 6500 - видимо распродавали остатки), и так удивился, когда через три года клавиши начали стираться, а некоторые почти перестали работать... Но сама клавиатура очень удобная - на ней сейчас печатаю. Руки лежат спокойно, не устают. Вот найдите что-нибудь эргономическое - и никаких распознаваний текста не нужно будет.

PS Может поэтому у меня комменты такие большие всегда - что мне печатать несложно?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(3 года 7 месяцев)17:45-15/Сен/24

У Вас устаревшие данные )

Что касается компьютерного зрения. Цифровое зрение это несколько другое явление, нежели биологическое.

Собственно все эти капчи от Гугла и Яндекса, которые сплошь и везде вынуждают разгадывать людей - это как раз таки идет халявное обучение онлайн нейронных сетей с компьютерным зрением. Просто людям это преподносится как защита от ботов. На самом деле капча от ботов не защитит, если кто-то заморочиться обойти вашу капчу. В интернете полно программ по обходу капчи.

Что же касается определения речи. Не имеет значения - какой у вас голос, для сети это несущественно, если ее обучали именно на распознавание речи в текст.

Она среди всего шума просто ищет слова (токены), которые у нее есть в базе данных.

А вот если обучали именно на распознавание голоса, то в таком случае тембр голоса конечно играет роль

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(5 лет 11 месяцев)19:52-15/Сен/24

Тексты я печатаю. Уже 12 книг таким образом написал. Но иногда удобнее не писать, а говорить. И в то же время иметь текст для редактирования.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(11 лет 8 месяцев)17:51-15/Сен/24

Такое впечатление, что запрос написан несколько лет назад.

Распознавателей речи - полно, Гитхаб вполне удовлетворит.

Есть и системы с гуманными требованиями к железу.

============

искать на Гитхабе непосредственно и на paperswithcode.com.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(5 лет 11 месяцев)19:53-15/Сен/24

До этого не было необходимости.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(5 лет 11 месяцев)21:44-18/Сен/24

Всем спасибо!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Голос в текст

Комментарии