非破壊自炊に挑戦(5)OCRと一太郎での作業

さて実際にOCRにかけるのですが、ここで注意事項を挙げておきます。

  • ・「読取革命」で変換できるのは、原則JIS水準にあるもののみで、Unicode依存の文字は《環境損文字》として扱われ、その後の編集に影響が出る(少なくともその一行は文字を選択しても画像の該当部分を表示しない)。よって異体字や外字の取り扱いの際には無理な入力は避けて、一太郎側で編集する。
    例:異体字の場合は標準文字を入れておき、その事を一太郎の別ファイル(補足とか名前を変えておく)に「標準字」→「異体字」、という風に記載する。 具体的には「装填」→「装塡」、「蝋」→「蠟」
  • ・Unicodeにしかない文字は記号で表現し、一太郎の別ファイルに前後の文字と組み合わせて記載する。
    例:「占★」→「乩」※間違っても一括変換などする時に★を変換元に入れ忘れないこと。「★子埔」→「崁子埔」
  • ・どう探しても字が出てこない場合は外字扱いとする為に記号で表現し、一太郎の別ファイルに前後の文字と組み合わせて記載する。
    例:埤★ → 埤 土州(つちへんに州)
  • 図版は別途トリミングする。その場合、後で画像処理ツールで白黒2値(Notグレースケール)にする事を前提に、光ムラを最小限にするように撮影する。
  • 変換効率を上げるため、事前に撮影画像に以下の修正を加えると後が楽。「紙の汚れを明るめの色で補正する(ただし一番光っている所の文字色の近似値にならないように。ソフトによってはそのへんの色を間違って変換することがある)」「汚れ(インク滴、背面の過度な映り込み、髪の毛など)は背景色にそろえる」「ルビ・ふりがなや圏点は消しておいた方がいい(間違って隣の文字とくっついて認識される率が高く、逆にルビとして独立して識字される率は低い)」

※何せ戦前の台湾を舞台にした小説なので、最終的に4文字が見つからず、さらに1字だけ異体字が存在しない事が判明し、合計5文字が外字さなりました。また、ルビや圏点は版元・紙質・紙焼けの度合い・フォントサイズ等で認識されたりされなかったりです。基本的にルビまで認識させるのは無謀です。

一太郎を入れるともれなくATOKが入ります。ATOKの文字パレットはかなり強力な文字検索ツールですので、IMEパッド使うより便利だと私は思いますが、そこは人の好き好き。

読取革命の機能に「一太郎に吐き出す」機能がありますが、正直長編小説を吐き出すには向いてません(間違って状態保存しそこねた時に、過去の分の認識結果テキストが消えます。吐き出したものを読み込む機能はないようですし)。
何画像かに一度、変換内容を一太郎に貼り付けて行った方が利口だと思います。
こまめな保存という観点から見たら、作業状況の保存よりも変換結果の完成データの保存の方がいいです。
ちなみに私は、4画像ごとを原則としていましたが、これは作業にB5ノートPCを使っていて(ThinkPad X61)、ここに表示できるのが4画像だった為です。まあ、16ページ8ページ単位(すみません、最初間違ってました)で一太郎に貼り付け、成形するという事になります。

読み込みは書籍1行につき1改行されます。ですから、改行位置を原本とつきあわせつつ、不要な改行記号を削除してください。

あと、OCR作業字の注意事項としては、「一括変換する時は、正しく変換されている文字は「変換対象にしない」こと」を強くお勧めします。と、いうのは読取革命のユーザー辞書は1万件で、「、」「。」「の」「っ」「い」などは識字率が低いため大量登録されてしまいます。あまりにもひどいと思ったら、読取革命の上での一括変換は諦めていちいち手入力した方がいいです。

一太郎での作業の本番は、全編をOCRで変換してからです。

  • まず、異体字の変換を実行します。置換機能を利用してください。
  • 通常の画像はレイアウト枠で埋め込んでください。
  • 文章中に埋め込みたい図は、外字と同じ扱いにします。
  • 外字はここでは扱いません。FUSEeで処理しますから、手を出さないこと。
  • 縦書き書籍の場合は、原本と同じ一行字数・一頁行数にした上で縦書きにレイアウトに変更します。
  • ルビ・圏点を、原本を参照して書き起こします。一太郎の機能では、ルビ:「書式」-「ふりがな」 圏点:「書式」-「文字飾り」-「傍点」です。
  • 最後に目次を設定しますが、改頁と密接な影響が出るので、最初は「目次2」で設定してください。「挿入」-「記号」-「改ページ」とEPUBの 改頁は一致しません。

一番最後の問題、改頁。実は一太郎2012の段階では改頁指をはき出しません。では強制改頁をどうやって演出するかというと、ドキュメント部分のXMLファイルそのものを別ファイにして改頁を再現します(別ファイルに書かれているのだから、一画面に連続して表示しようが無くなるわけです。そりゃそうだな、と)。
強制的にXMLファイルを分割する単位に、一太郎の目次機能の「目次1」タグを利用しています

従ってこの『内部の真実』の場合、なんとしても第一部と第二部は改頁せねばならない構成上の理由があったため、以下のような構造になるように仕組みました。(なお一太郎の目次機能を使うと、自動的に目次ページが生成されます)
 cover.xhtml    -表紙。これは後で説明。
 navi.xhtml     -自動生成されるファイル。
 document1.xhtml -目次。
 document2.xhtml -中扉。作品タイトルだけのページ
 documnet3.xhrml -第一部 玉蘭姉妹の庭(Ⅰ~Ⅹにリンク)
 document4.xhtml -第二部 個の権利(Ⅰ~Ⅱにリンク)
 document5.xhtml -書誌・校訂:ちょっとカッコつけて書いてみましたなもの
ちなにみ、一太郎上では原本にそろえるべく改頁記号は入れてありますが、これは確認作業の都合上わかりやすくするために行っているものです。
※まだ試していませんが、シートを別にするとそれだけでXMLファイルが分割されるのかも知れません。
目次レイアウト自体はEPUB形式にしてからいくらでも(多少は知識がいりますけどね!)修正可能です。

ついでに、この段階で一度、必ず原本との校訂、および必要なら(今回の目的のように、複数の異本を照合する場合は)異本との照合作業をして校異校訂をすませておきましょう。
EPUB化にコケたり編集ミスっても、一太郎ファイルを正本として保存しておけば取り返しがききます。

最後に。一太郎ファイルに関しては忘れてはならない格言を。忘れちゃいけないこまめなセーブ

あと、原稿のバージョン違いは最終決定するまでそれぞれ保持したほうがいいです。