20250329 音声認識環境構築

自分のLinux PCに日本語音声認識の環境を構築した。今日の日記は完全にその方法で全部書いてみたい。ということにすると言い間違いの部分を訂正することができないので文章が不自然になったり誤字が残ったりしそうで怖いそもそもなんでそういうことをしようと思ったのかというと、VSコードのクライン君に指示を出すときに、キーボードからタイピングするのではもう遅すぎるなと感じたからだ。せっかく言語指示に対しては爆速で反応してくれるのだから、それ以外の場所もどんどんスピードアップしていこうと思った。

最初はVS Code Speechの拡張機能を試してみたのだが、エディターに対する入力ができるものの、フラインの拡張機能に対する入力ができない感じだった。コパイロットチャットに対する入力はできるのにクライアントにはできないというのはなんだかケチな感じがする

それはともかく、OSレベルで入力できた方がいいと思ったので、P1ノートを使うことにした。Speech NotePeach to Text Engineとしては、Fastor Whisper Large V3 Turboを採用。CPUのアクセラレーションを有効にすれば、変換の時間はとても短い。GPUね。なんだけど、別のアプリケーションに対して文字を入力するという機能を使っているので、変換は早く終わるけれども、別のアプリケーションに入力するところに結構ラグがあるようだ。

変換の精度はご覧の通り相当高いと言っていいと思うが、プログラミングで使う英語名なんかはうまく変換してくれないこともままある。もう一度言っておくけれども、これは本当に音声認識の出力をそのまま入力した文章で一切の訂正をしていないので、凄いよねで移動精度が高いと言っているんですがとても短い文章はむしろうまく変換できないことが多い英語名の問題に関しては、ある程度適当に突っ込んでもクロード君が何とかしてくれることが多い。

さて、ここまでこの調子で日記を書いてきて、まして音声認識の入力が効率的か早いかと言われると微妙なところ。もちろん決まりきった文章を出力するという点ではピンクより早いと思うんだけれど特にプログラミングのような複雑な思考に関しては、思考の道筋が必ずしも文章のシーケンシャルではないので思いついたアイディアを文章の形に成形している段階で考えていたことを忘れてしまったりする。いや冷静にこれ俺喋るの下手なだけかもちろんラグの問題もあるあとは音声という形で出力をするので、耳からの音声入力と干渉が発生しやすくて、適当なものを聞きながら口で全く別の内容を出力するというのはとても難しい。BGMが効けない

でもこの方法にどんどん慣れていったらだんだん面白い感じになってくるいい感じになってくるんじゃないかなと思いますね

今日の昼ご飯はゴロゴロした肉が食べたいなと思ったので、松屋のゴロゴロチキンカレーでした。ゴルゴルはひらがらなんだよなおやすみ

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル