昭和の本を読む

読み上げ音声を利用してテキスト化したい

国立国会図書館デジタルコレクションで昭和の本を読もうと思います。JPEGで保存されている本を声に出して読んで、その録音を文字起こしでテキスト化すれば、後でいろいろ役に立ちそうなので面白いかなという気がしていますが…。

いかんせん、悲しいことに旧漢字が読めないことが多く、音声データを作るのに苦労しています。

そこで先ずは全編読みがな付きの本を選び、一冊読み上げて、それをテキストデータでPDFにしようと思いました。

読み上げ起こし第一弾は、昭和7年に出版された『共産党を吾等が排撃する五つの理由』です。この本はページ数で51、コマ数で32なのでボリューム的にも手頃です。

この本、ロシア革命後10年後ぐらいのロシア共産党への批判(というか共産主義への警鐘)なのですが、文中の「労農ロシア」という箇所を「中国共産党」と読み替えれば、そのまま現代に通じる内容です。

これはぜひテキスト化して、要約・翻訳して発信したいと思います。只今鋭意文字起こし中です。

Speech 

関連記事