画像や音声のテキスト化

📘 画像や音声のテキスト化

2022/07/25

　今回は、峰山が2人の生徒と対話するという形式で、画像や音声のテキスト化について考えてみる。

　さやかが峰山のところへ大量の原稿用紙をかかえてきた。

峰山: 「どうしたんだね？」
さやか: 「読書会の感想文を集めて小冊子を作ることになったんですが、皆の書いてくれた原稿の量が多くて、それをパソコンに全部打ちこまなきゃならないのかと思うと憂うつで……」
峰山: 「さやかさんはOCRって聞いたことがありますか？」
さやか: 「何ですか、それは？」
峰山: 「活字や手書きの原稿をスキャナで読みとったのを、キーボードで打ったのと同じデジタル文字データに変える仕組みです」
さやか: 「どうやるんですか？」
峰山: 「原稿を貸してごらんなさい」

　峰山は原稿用紙を教員室の隅にあるコピー機の上にセットした。おもむろにボタンを押すと、原稿用紙はコピー機の中へ吸いこまれ、ピカッと光って1枚ずつ吐き出されていく。あっというまに、全ての原稿の処理が終わった。峰山は原稿を整えてから、さやかに戻した。

さやか: 「今のはどういうことですか？」
峰山: 「このコピー機が原稿用紙を画像データにしてくれたんです。今度はパソコンでOCRを使ってみます」
さやか: 「何だかむずかしそうだわ」
峰山: 「昔は大変だったけど、今は Google Drive を使えば簡単にできます」
さやか: 「Google Drive って、ネット上で Google アカウントを作ったら使えるという、あれですか？」
峰山: 「そうです。見ててごらんなさい」

　こう言って、峰山はコピー機が出力した画像データをパソコンに取りこみ、全部選んで、Google Drive にアップロードした。その数は数十枚あったので、全部がアップロードされるまで2-3分かかっただろうか。

さやか: 「アップロードしたらデジタル文字になるんですか？」
峰山: 「残念ながらそうはいきません。やり方を言いますから、あなたがやってごらんなさい」
さやか: 「はい」
峰山: 「画像ファイルを右クリックし、[アプリで開く]-[Googleドキュメント]としてごらんなさい」
さやか: 「それだけですか？」
峰山: 「そう、それだけです」

　数秒後、文書に貼り付けられた画像の下に、デジタル化された文章が現れた。縦書きの原稿は横書きになり、キーボードで打ったように文字が正確に並んでいる。

さやか: 「すごい。先生、すごいわ」
峰山: 「自分で打ちこまなくても、機械がやってくれたでしょう？」
さやか: 「ええ」
峰山: 「縦書きは少し苦手なんだけど、原稿用紙のように縦線があると平気です。手書きの原稿は読みまちがいもあるけど、幸いうちの読書会の部員たちは字がきれいだからだいじょうぶ」
さやか: 「ふふ。まあ、99％正しく読めてるわ！」
峰山: 「残りの原稿もOCRにかけられますか？」
さやか: 「ええ。面白そう」
峰山: 「じゃ、頼みます。それが終わったら、私が読書会の使うパソコンにファイルをコピーしておきましょう」
さやか: 「お願いします」

さやか　そこへ、今度はアスカが浮かぬ顔でやってきた。

峰山: 「どうした、きみも原稿用紙かね？」
アスカ: 「違います。取材である先生にインタビューした音声を文字にするのが思ったより大変で……」
峰山: 「Google の音声入力って知ってるかい？」
アスカ: 「キーボードを打ったりする代わりに声を音声にする仕組みですよね」
峰山: 「そうだ。それを使えば、文字起こしができるんだよ」
アスカ: 「？？？」
峰山: 「そのデータを貸してごらん」

音声のテキスト化

　アスカはスマホを取り出し、音声を流してみせた。峰山はデスクの中から何やらコードを取り出すと、スマホとパソコンをつないだ。

アスカ: 「何してるんですか？」
峰山: 「きみのスマホの音声出力を、このパソコンの音声入力にするんです」
アスカ: 「それで文字起こしができるんですか？」
峰山: 「そうです。さやかさんの作業も終わったようだし、やってみるとしましょう」
さやか: 「わたしも見せてもらっていいですか？」
峰山: 「いいですとも。やることはさっきと同じ仕組みです。 Google ドキュメント上で[ツール]-[音声入力]として、マイクボタンをクリックする。テストしてみよう。アスカくん、スマホに向けてこの詩を読んでごらん」
アスカ: 「何ですか、これは？」
峰山: 「私が愛唱しているプーシキンの詩の一節です」
アスカ: 「……光の夏の傾きに明るい日々は流れ去って、音なき夜のまどろむ影には冷たい霧が立ち込める」
峰山: 「スマホとパソコンの接続はいいようだね。それじゃ、しゃべる代わりに、さっきの音声データを流してごらん」
アスカ: 「はい」

　すると、不思議なことに、しゃべってもいないのに、画面に文字が流れ出した。パソコンが音声データを勝手に文字に直してくれているのだ。

峰山: 「どうだい、楽ちんだろう？」
アスカ: 「こんなことができるなんて！」
さやか: 「すごいわ。でも、わたし、パソコンの中にある音声データを文字にしたい」
峰山: 「できますよ。パソコンの音声データを再生できるようにして、スピーカー端子とマイク端子をオーディオケーブルでつなげばいいんです。それから後は、さっきやった通り、Google ドキュメントを起動して、音声データを再生し始めたら、ドキュメントのマイクボタンを押すだけ」
さやか: 「オーディオケーブルっていうのは？」
峰山: 「家電量販店で買えます。ないなら、パソコンのスピーカーの近くへパソコンのマイクを向けてやれば同じことができます。試しにやってみましょう」

　峰山が録音した読書会の音声が流れ、パソコンはそれを次々文字データに変えていった。少々うるさかったが、文字起こしの大変さが少しもない。

アスカ: 「先生、助けてもらって、ありがとうございました」
さやか: 「助けてもらった上に、驚くようなことをいろいろ教えてもらえたわ」
峰山: 「喜んでもらって何よりです。人間が苦手な単調作業はパソコンにやらせるに限りますからね。困ったらまたいらっしゃい」
二人: 「はい！」

🕍 同ジャンル最新記事(-5件)

	note のその後(2025/05/20) 3/29 の段階で、フォロワー 42、ビュー 185 だったものが、現在では...
	note を始める(2025/03/29) Amazon の KDPは本を手軽に出せるのはいいが、手応えがあまり感じられないので...
	漢文の訓点入門(2022/07/29) 以前 Vector などに登録していた TeX の漢文マクロに手を入れ、文字コードを UTF-8 に統一し、手軽に使える例と便利な拡張機能をつけたものです...
	画像や音声のテキスト化(2022/07/25) 昔は大変だったけど、今は画像をデジタルデータにすること(OCR)は Google Drive を使えば簡単にできるんだ...
	Webで絵文字を使う(2022/07/13) 最近、Web 上でカラフルな絵文字が目につくようになりましたが、一体どう使えばいいのでしょう？...