講習会の記録 

URADOCPDS>帯広道路事務所安全協議連絡会が企画運営するCPDSプログラム>講習会のお知らせ
URADO
いなかのCIMとGIS今日から使うQGIS

「PDFの基礎知識とスキャンのテクニック」

 講師:川田テクノシステム株式会社 成田 文武(なりた ふみたけ)

 以下の資料は、受講者の技術研鑽に役立つことを願い、講師のご厚意により提供いただいたものです。


20180223公開

PowerPoint PAGE-01

CADデータの加工(位置情報入力・縮尺変更・ファイル種類変換) 及びQGISへの取込み設定方法等を解説します。
CADソフトは「Aノート」です。

PowerPoint PAGE-02

PDFはアドビシステムズ社が開発、1993年にリリースした。
特徴は、画面の見たまま印刷できること。
動画とか色んなものを埋め込めること。
画面の見たままが印刷できる特性は、出版業界で受け入れられ、印刷の原稿としての性能を十分満たす。
そういうことが世界標準になっていった背景

PowerPoint PAGE-03

そもそも、皆さん誤解している方が多い。
PDFって、編集できない、いじれない、扱いにくいものと思ってる。
それは大きな間違い。

PowerPoint PAGE-04

PDFというものに、少し詳しくなっていただきます。
一言でPDFといっても、大きく3種類あります。実はもっといろんな種類があるのですが、今回の講習テーマとしては、この3つの分類と違いのみ扱います。 }

PowerPoint PAGE-05

世の中には、PDFを開けるソフトウェアはたくさんありますが、Adobe社が出すAcrobatが、PDFを扱うソフトウェアとしてはもっとも信頼できます。
PDFという形式自体もAdobe社が開発したものですからね。 ほかにも、ソースネクスト社のいきなりPDFってのもメジャーかもしれません。成田はAdobeの回し者なので、あくまでもAdobeAcrobatユーザです。
で、とあるPDFファイルを開いてみました。
文字の近くにマウスのポインタを持っていくと、ワードとかと同じように、どうやら文字列選択ができそうなので、やってみると、出来ました。 こういうPDFはいわゆる「文書」です。文字がいわゆるテキストデータとして生きてる訳ですね。判りやすく言うと、文字として選択して、クリップボードコピーができる というものです。
さて、文字として生きている、ということは、文字として打ち直したり、消したり、フォントや文字高さを変えられる、ということです。 方法は後で説明します。

PowerPoint PAGE-06

同じファイルで、挿絵をクリックしてみました。そうすると、挿絵だけが選択できました。これは 文書+画像 とでも言っておきましょう。
まあ、①の文書PDFと同じと持ってもらってかまいません。
選択できる、ということは①と同じように、この挿絵の画像部分を差替えりできるということです。

PowerPoint PAGE-07

3つ目、同じようなPDFファイルなのですが、開いて先ほどのように文字列選択使用と思ってもできません。なんか変なエリアで選択されたり、ページ一杯が全部選択されるようになってしまいます。
これは、このページ全体が一つの画像になっているからです。文字の部分も人間の目と脳では文字 として認識できますが、コンピュータにとっては、文字と認識できない状態のもの、なのです。 印刷物とまあ同じですね。
①②で、選択できるから編集できるといいましたが、これはどうでしょうか?答えは、編集できる、です。
ただし、ページ全体が一つの画像になってしまっているので、あくまでも画像として編集できる、ということなのですが、では、このタイプのファイルの文字を書き換える事は出来ないと思ってる方。
大丈夫、ちゃんと編集できます。
結果①と同じ結果が得られるように編集可能です。方法は異なりますが。

PowerPoint PAGE-08

①、②、③ どのタイプのPDFであっても、編集するにはAdobeAcrobat Pro を使います。
ここでは最新版のDCを使って説明します。
ツーる にPDFを編集 があるので、これを実行します。

PowerPoint PAGE-09

①、②のように文字の部分がテキストデータとして生きている場合、とても簡単。
ワード感覚とはいいませんが、少なくとも、エクセルのオートシェイプのテキストボックス的な感覚で加工できます。
見ていただいたら判るとおり、なにやらAcrobatが勝手に段落みたいに分けてテキストボックスみたいになっています。
文章そのものの書きかえも、フォントの変更、文字サイズの変更、色の変更、なんでもありです。

PowerPoint PAGE-10

では、③の場合はどうすればよいのでしょうか?3つの方法が有りますが、1つ目は①②でやったのと同じ事ができるように変換するということ 2つめは、PDFにする前のオリジナルファイルに戻してしまえ、ワードが元ならワードに戻してしまえ、というやつです。
もう3つめは、画像編集の概念で加工するということ、 この3つの方法を紹介します。
まず、変換してしまう方法ですが、これは、OCRテキスト認識という技術に委ねます。
文字データとしては死んでしまっているものを、自動で文字認識させるということです。 壁に黒で複数の線が交錯する模様があります。
これを見た日本人の脳は、ただの模様ではなく、ひらがなの最初の文字であると認識するわけですけども、おなじことをPCがやるわけです。
ですので、精度の問題が常についてまわります。

PowerPoint PAGE-11

そうすると、文字として認識できるようになり、①②と同じような方法で編集できるようになります。
ただ、元の解像度が低くて、肉眼でも荒れてるな、と感じるような場合は、全く違う文字になったりするので、用途は広く無いです。 それでも、手打ちで打ち直すより、コピペできるわけですから、使い道は有ります。
なお、前にどこかのコンサルさんが、これをやることでファイルが軽くなる、というお話をされているのを聞いた事がありますが、それは正確では有りません。
確かに文字として人間が読める画像よりも、テキストデータとして生きている文字データのほうが遥かに軽いです。画像の正体は細かな色つきの点の集合に対し 文字のデータは1文字当たり数バイトのコードと呼ぶ情報なので。
ただ、画像PDFを文字認識させたとしても、文字部分を構成していた点郡が消滅して軽い文字コード情報に置き換わるのではなく、文字認識を実行することで、元のファイルに文字コード情報が付加され、見た目は変わらないわけですから、単純に考えると重くなってるはず。
それでも確かに軽くなってるのは、文字認識をする上で必要な前処理が、そのファイル自体を軽くした結果なのであって、決して文字認識がファイルを軽くする訳ではありません。
このからくりは、後で説明する 最適化 の話につながります。

PowerPoint PAGE-12

2つ目の、元のファイルにもどしてしまえ、というやつですが、ワードやエクセルなどのOfficeソフトがPDFの元データである事がおおいので、有効な場合が有ります。
今のAcrobatには、PDFを書き出し、というツールに、この機能が有ります。 ためしにワードに戻してみました。

PowerPoint PAGE-13

やはり精度のげんかいがあるようですが、1からまた手打ちで文章を作成しなおすよりは遥かに楽です。コピペも出来るようになった訳ですし。
後はは文書校正など、Officeの機能をふんだんに使えば、まあ簡単に色々できるでしょう。

PowerPoint PAGE-14

でも、見た目が崩れたりするのは困る。ピンポイントでここだけ加工したい、とか消したい そんな時の貴方にお勧めなのは

PowerPoint PAGE-15

墨消し、とテキスト追加を使います。
墨消し、は言葉の通りなので、直したいところを上から墨塗って隠すということなのですが、それだと、どこぞの開示請求した公文書みたいになっちゃうので、
そうではなくて、背景色と同じいろ、まあ白が通常でしょうから、これで直したいところを塗りつぶして、別なものを書き込んだり配置したりするということです。

PowerPoint PAGE-16

墨消しつーろを選択します。まずはオプションで、塗りつぶし色の指定や、墨消対象として選択した領域を確認するための表示方法について自分好みに設定しておきます。
さっそく、墨消しとしてマーク を実行して、消したい部分だけ矩形選択します。
ずでは、指定した領域が赤囲みで表示されて確認できる設定をしています。囲まれた中にマウスポインタを移動させると、結果のプレビューが見れます。
これでよければ、適用 絵をクリックすると、墨消しが実行されます。

PowerPoint PAGE-17

直したいところが消えた事がわかります 正式には白く塗られたとおうことなですが。
で、消すだけでなくて、直し、ということであれば、編集ツールのテキストを追加で、目的の正しい記述や文章を入力します。
このとき、文字サイズやフォントが、元の文章と一番近いものを選択してください。 ただ、完全に一致させるのはむずかしいので、修正したことがわかってしまうこともあります。
この辺が差し支えないものに対して行いましょう。 いじる必要の無い部分に対しては無害な編集方法です。

PowerPoint PAGE-18

さて、PDFは決して編集できない堅物では無いということを理解いただきましたところで、ちょっと話が変わります。
次に説明したいことを正しく理解していただくうえで必要な知識として持っていてほしいのですが、 Acrobatとかソフトウェアにもバージョンがあり、新しくなっていくのが普通ですが、ファイルそのもの、つまりPDFというふぁいるそのものにもバージョンがあることを 意外と皆さん意識してない。そこが落とし穴なんです。
PDFの開発元のAdobeしゃの製品、Acrobatの最新版はDCというやつで、私も使っています。
それまではVer1.2.3.4.5.6.7とカウントしていって、最新版がDCと呼称が変わるのは、マイクロソフト社のウィンドウズの世代呼称が今の最新、10で終わるのに追従しているんでしょうかね??
それはさておき、これまで、新しいAcrobatがリリースされる度に、PDFのバージョンも上がってきています。 何がどう変わってきているのかはかなりマニアックなはなしになるので、ここでは割愛しますが、簡単に言うと、新しいバージョンのほうが性能がよいということになります。 PDFの性能がよいとは、判りやすく言うと、表示させると綺麗な見た目なのに、ファイル容量は小さいというイメージで把握してくれれば十分です。 PDFのバージョンは最新は1.7レベル8です。
1.7から1.8、1.9とならないのは、PDFというファイルの形式は、もう既にAdobe社という1企業の手からはなれ、その仕様(つまりデータの形式とか構造とかマニアックなこと)はすでにISO、国際標準化なんとか、に委ねられているからなんです。そのあとレベル3tか8とかは、1.7を完全に満たすが、Adobe社の独自のノウハウを埋め込んで独自の開発と進化は続けてる、ということなんです。
ちなみにAcrobatお使いの方で、Ver9以前は論外です。それで事足りる、とおっしゃる方は、WINDOWS XPで事足りる、といってるくらいダメなことです。
また、2017年秋で、Acrobat11のサポートが終わりました。開発元がサポートしてないソフトを使い続けるというのは、いろんな意味で感心できません。
これを機会にバージョンアップしたい方は、見積出しますよ。ヨドバシで買うのが一番安いかもしれませんが。

PowerPoint PAGE-19

で、なんでPDFのバージョンについて知っておく必要があるのか。身近なところでいうと、スキャンして生成したPDF あれ、無駄に重いんですよ。
データ量が。大したページ数でもないのに。理由は単純で、古い形式のPDFだから。

PowerPoint PAGE-20

じっさい、スキャンしたPDFを調べてみるとよくわかります。
スキャンで得られたPDFを開き、プロパティをみてみると、驚愕の事実が判明します。 なお、ここでは説明のため、あえて高い解像度での読み取りを行なっています。
1.3、Acrobat4相当、Acrobat4といえば、私が卒業して会社入ってすぐのころ使ってた記憶が有りますんで、かるく20年前の形式ですね。 し
かも、たかがA3横6ページフルカラーなのに、147MBです。同じファイル5個でCD-R一杯に成ります。

PowerPoint PAGE-21

でもって、この無駄に重くて古いPDFをファイルキャビネットにアップしたり、9号に添付してくるんですよ。
なんとなくポータルのファイルキャビネットみてても、ありました。怪しいの。

PowerPoint PAGE-22

なんとなく無作為にダウンロードしてプロパティ見てみると、やっぱり。
20ページくらいのカラーPDFですが、1.4、11MB この程度で、しかも見た目の画質、結構荒かったです。 それで10MB超えはないわな。

PowerPoint PAGE-23

なんでそんな事がおこるのかというと、ずばり、スキャナに内蔵されているPDFを生成する仕組みがきっと古い。
最新の機種でも、スキャンしたPDF見ると、良くて1.5。 せめて国際標準の1.7で出せよとか思い、前に当社の複合機リース切れて入替えたときにメーカーの営業さんに聞いたら、何のこと?ってな反応だったので、説明した。
XDWが負けたから、PDF利用者に嫌がらせしてるとしか思えない、といってやりました。もちろん大人の口調で。

PowerPoint PAGE-24

なので、そこはPDFの取扱者である我々がどうにかしなければならない、ということになるのですが、Acrobatもってるなた、スキャンしたPDFは最適化という操作を行なってください。
ツールメニューに、PDFを最適化ってのがあり、そのものずばり、ファイルサイズを縮小というのを実行してください。
実行すると、PDFのバージョン選択のダイアログが出るんで、もちろん最新の形式を選んでおきましょう。
元のデータの状態にもよりますが、数秒~数十秒で終わります。
高度な最適化 とか、スキャンしたページを最適化 とか有りますが、こちらは難しいのと、望む結果になかなかならないとかあるので、止めたほうがいいです。

PowerPoint PAGE-25

どうでしょう。1/4の3MB代まで落ちました。

PowerPoint PAGE-26

で、先ほど、マニアックなので止めたほうがよいというところをいじって、実験してみました。
最適化という処理は言い換えると、画像をどの程度低画質にするか、で結果のファイルサイズの変わり方に大きく影響するので、この画像処理の劣化のどあいを変えて実験してみました。 当社のbasepageのカタログ表紙をこの条件でスキャンしました。生データはPDF1.3 147MBもあります。
これをAcrobatの最適化の設定で、デフォルト値の50%、言い換えると、画質の落とし方を半分にして実行、これが真ん中で、一番右がデフォルトの設定のまま実行、デフォルトの設定は結構シビアで、ここまで画質落としてもいいのかな、と若干思える値なのですが、この3つの見た目を比較してみました。
もちろん拡大表示させればするほど、ドットの荒さが見えてきますが、100%現寸表示で比較しました。ごらんのとり、ほとんど変わらないですよね。
また、400%ん拡大、みため的には倍にしたくらいの拡大でも、ドットの荒さとかは気になりませんでした。つまり、印刷しても品質はほとんどかわらない、ということが見て取れます。
ですので、デフォルト値のまま、最適化実行 してもなんら問題ないです。しかもファイルサイズ1/100 驚愕のダイエットですよ。 大事なのは、最初のスキャンで高い解像度で読み込むこと。
低い解像度でスキャンすると、元からファイルサイズは小さいかもしれませんが、見た目が汚い苦なくなります。

PowerPoint PAGE-27


はい、まとめ。

PowerPoint PAGE-28


それと、最近は色んなものが国際標準になっているので、以前は専用のソフトウェアが必要だった事が、今はいらなかったりします。
代表的な例は、ファイルの圧縮と解凍。以前はこれを行なう専用のアプリが必要でしたが、今はWINDOWSに標準装備されてるので、アプリはいりません。
但し、扱えるのは国際標準のZIPなので、LZHを生成する事はできません。解凍はできますが。 で、もうひとつは、OfficeからPDFへの変換です。
Acrobatなどなくとも、PDF出力が可能です。
多くの方はなにかしらPDF変換ソフトとかがインストールされてて、印刷のプリンタドライバ選択から、PDF変換の何かを選択して、で名前をつけて保存 とかやるのが一般的かもしれませんが

PowerPoint PAGE-29


そんなソフトウェアがインストールされてなくとも、Officeソフトに初めから備わっている、エクスポート からPDF出力する事ができます。
最適化 の選択肢があったりと、意外と使えるものです。

PowerPoint PAGE-30


時間が有れば、実際に最適化とかやってみましょうか?もういい??