いや、その後体調不良(下痢が止まらない)状況で何にも出来なかったのですが、1冊完成した(仮ですが)ので、続きを。
まあ、正直、自炊という行為は本来好ましいことでは無いのですが、個人の私的複製の範囲であれば良いと判断するわけです。
だから、業者に依頼するなんて事は、しないというのが根本方針。
※業者さんが悪という訳ではありませんが、本来は現存する範囲の版元は、その作品について電子化を請け負うべきだと思うのですよ。それ以外は、他人に代行する事へ費用を投資すること自体が個人の趣味の範囲を超える、と勝手に思っているだけです。
で、基本的な話として、完成品がどうなっているか、という事を前提に選択肢を考えます。
1.取り込んだ情報を画像として表示させる
2.読み込んだ情報をPDFとして管理する
(OCR機能によるテキスト情報追加を含む)
3.文字情報を書き起こして、文書として掲載する
の三択です。
まあ一般的に一番多いのは2.のPDFです。この利点は「外字の処理」にあります。
前述したとおり2バイト文字文化圏の漢字がすべて表示できる訳では無いので、無い漢字をどうにかして表示させる必要があるのですが、画像をPDFにしてしまえば、外字のことは気にしなくて良いのです。
いや、文字情報ありでやりたいなら、「超漢字原稿プロセッサ」からPDFにはき出してしまえば良いのです。
ところが、例えば古い本だと紙が焼けてしまってい、読むのは大変になってしまう、というデメリットが1つ。
そして、文字サイズの変更が出来ないという問題が一つ(拡大は出来ても、改行位置が変わらない)。
将来のことを考えると、文字サイズを変更しても読みやすい方法が好ましいので、3.の文書として書き起こすことにしました。
じゃあ、わざわざ全部ワープロ打ちするのか、と言われると、それは労力が大変です。
なので、今回は
1)書籍の画像を取り込む → 2)画像データから文字をOCRで読み込みテキスト化する → 3)完成したものをワープロで推敲・編集する → 4)EPUB3形式にして保存する
というプロセスで対処しようと思ったわけです。
前にも言っているとおり、本を裁断して読み込む、なんて事はしたくありません。
(自動紙送り・両面読み込み機能があるドキュメントスキャナなんぞがを新しく買う気にもなれないが、何しろ裁断したら二度とその本は使い物にならない訳です。それは本に対して失礼だと思います)
じゃあ、フラットヘッドスキャナに本を押し当てて綺麗になるようにして取り込むか、と言われると「本が壊れる」ので、それはなし。上手くいかないときに何度もやり直すのは本がかわいそうだから。
(無線綴じ平綴じの文庫本の場合だと、そこから糊が剥がれてページが脱落する事が多い)
という訳で、デジカメで撮影する、という方法を今回採用しました。
では具体的な方法と対象書籍、必要な道具については次回。