投稿

6月, 2017の投稿を表示しています

懺悔の毎日から解放!

イメージ
最近クライアント様からPDFが持ち込まれ、そのままオフセット印刷してくれとの依頼が増えてきました。

PDFをチェックすると明らかに画像が悪い・・・でも・・・

どのくらい悪いか? 数値化出来ずに、そのままオフセット印刷し、仕上がった印刷物を見てビックリ、落胆、後悔・・・

懺悔

それではどのようにチェックしたら良いのでしょうか?

アクロバットでプリフライトし、概要からピクセル数を確認するのが普通ですね。

一つのPDFに画像が数百点、そんなPDFは珍しくありません

その都度、我々DTP作業者は「汗、汗、汗」の毎日

懺悔

まぁ、一応、参考になるかもしれません、

懺悔 ←クリック




感謝の心を込めて・・・ 伊東祐三(山梨県 樋口印刷内) JR1GDY Good HAM Life jr1gdy

PDF 文字検索2 (スキャナで取り込んだ画像からテキスト検索可能なPDFを作る)

スキャナで取り込んだ画像からテキスト検索可能なPDFを作る

AdobeAcrobat proにその機能がある。その認識率は?

「Adobeに電話して聞いてみると、デモ版を使って試してくれ」との事

購入すると毎月のチャージで淋しい懐が更に寂しくなる。。。

思い出した!昔、Win版の「ワンタッチOCR」というソフトをつかって、紙原稿をWordなどに変換したことがあった。
しかし変換効率が悪くて、最初から打ち直した方が、間違えなく出来、信頼性も高かったので、いつしかそれも使わなくなった。

そんな折り、無線界のOMさんの貴重な手書き資料をPDF化しよう、さらに索引キーワードで検索できるように。そんな話が舞い込んできた。
全てボランティアだ。

ワンタッチOCRを使っていた頃から既に10年くらい経過したので、そろそろOCRソフトも進化した頃。
そこで、ネット検索してみると、OCRエンジンソフトはフリーなものが出ていた。

tesseract 画像からテキストやテキスト含んだPDFへの変換
pdftotext PDFからテキスト変換
pdftk   PDF合成(残念、私のPCにインストール失敗)
pdfgrep PDF文章のgrep(検索)

そこで、どうせフリーなので、tesseractを使ってみることに!
開発元をネットで調べるとGoogleです。
元の開発はHP、現在はGoogleが公開しているオープンソースのOCRエンジンです。
Windows版、Linux版それぞれ公開されており、今回はWindows版を試してみることにしました。 さらに説明を読んでみると、フォントや文字の開始位置終了位置等を設定できる学習機能があり、それらを利用して読み取り率を向上させることで認識率を上げられるようです。 文章を手書きすること自体が減ってきおり、活用する場面はなかなか思いつきませんが、面白い技術ですので色々と実験してみたいと思います。 さて、検証1。
イラレで文字(29ptゴシック体)を打ち込んで、プリンターに出し、手書き文字を加えてからスキャナで読み込ませ画像にしました。
認識率は、イラレ活字は100%、手書き文字は全滅でした。

検証2。
朝刊での検証です。タテ、ヨコ混在の組体裁、おまけに悪い紙質、
期待通りには行きません、認識率30%〜40%位で、画数の多い文字は全滅でした。

結果内容

PDF 文字検索

イメージ
PDFは便利です。
レイアウトは崩れないし、フォントは埋め込まれるので、印刷体裁がそのまま反映されます。
取説等では文章中の検索ができるのも良いですね。
目次をクリックでそのページにリンクされるのも使いやすいですね

しかし

沢山のPDFから、目的の文章を検索するには、いちいち沢山のPDFを開いて検索しなければなりません。



そんな時便利なpdfgrepというソフトがあります
http://macappstore.org/pdfgrep/
ここにインストールの仕方が書いてあります。

因みに LEDで検索してみると


こんなに沢山ヒットしました。
表示の左、赤表示はファイル名、次の緑の番号は行番号
ヒットした行を表示してくれました。

結果をデスクトップのファイルに保存するときは
%> pdfgrep LED *.pdf > ~¥desktop/led.txt
などとします(¥はバックスラッシュ)

普段使っているgrepと同じ仕様のようです。

えっ! grepを知らない・・・

ググってみて下さい。これは超便利なツールです。



感謝の心を込めて・・・ 伊東祐三(山梨県 樋口印刷内) JR1GDY Good HAM Life jr1gdy