国立国会図書館デジタルコレクションに収録されている昭和の本を音読して、その録音の文字起こしからテキストデータを作成する試み。最初に困るのがダウンロードしたPDFが読みにくいことです。
読みにくいと言ってもこの場合は、難しい漢字や言い回しということではなくて、「画像が暗い」「字が小さい」など視覚的につらくて読みにくいということです。
それで、PDFからオリジナルのJPEGを抜き出す方法を調べてみました。
continue…▶「漫画漫文」は、大正から昭和初期にかけて漫画界の流行スタイルになった独特の形式で、紙の上半分が漫画、下半分が文章になっています。私は、この形式で自分の思いや意見を書き留められる「漫画漫文ノート」を作りたいと思いました。
そのために漫画ヘルパーアプリを開発し「漫画漫文ツール(mmTool)」と名付けて公開することにしました。デジタル疲れを癒やすためのツールになることを願って、漫画漫文ノートを広めたいと思っています。
“Manga-Manbun” is a unique format that became a popular style in the manga world from the Taisho era to the early Showa era, where the top half of the paper is manga and the bottom half is text. I wanted to create a “Manga-Manbun Notes” where I could jot down my thoughts and opinions in this format.
To achieve this, I developed a manga helper app and decided to release it under the name “Manga-Manbun Tool (mmTool)". I hope it becomes a tool to heal digital fatigue and wish to spread the use of Manga-Manbun Notes.
国立国会図書館デジタルコレクションに収録されている昭和の本を音読して、その録音の文字起こしからテキストデータを作成する試み。最初に困るのがダウンロードしたPDFが読みにくいことです。
読みにくいと言ってもこの場合は、難しい漢字や言い回しということではなくて、「画像が暗い」「字が小さい」など視覚的につらくて読みにくいということです。
それで、PDFからオリジナルのJPEGを抜き出す方法を調べてみました。
continue…▶仕事でやっているのではないけど、文字起こしに勤しんでいます。なんというか、少しずつテキストデータが完成していくのが楽しいんですね。
ソースはもっぱらYouTube。今日は「ひとりがたり馬渕睦夫」の53回動画を起してみます。
continue…▶『共産党を吾等が排撃する五つの理由』の第七章、全文(5576字)と要約(557字以下)
※文中の2箇所「即ち万世一系の皇位を廃止し奉らんとする」「朝憲紊乱行為は、彼等が万世一系の皇位を廃止し」の「廃止」は、原文では伏せ字になっています。文脈からその言葉は「廃止」であろうと判断しました。
continue…▶『共産党を吾等が排撃する五つの理由』の第六章、全文(5810字)と要約(581字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第五章、全文(1310字)と要約(131字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第四章、全文(1960字)と要約(196字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第三章、全文(5099字)と要約(509字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第ニ章、全文(1897字)と要約(189字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の第一章、全文(1382字)と要約(138字以下)
continue…▶『共産党を吾等が排撃する五つの理由』の目次に各章のポイントをつけました。この書の骨格が解りそうです。
continue…▶