Archive for the 'PDFpen' Category

2014/07/02 PDFpenで任意のPDFをOCR処理(英単語だけ)

ドキュメントスキャナで紙から読み取ったPDFに対して、PDFpenの内蔵OCR機能を用いるAppleScriptです。

PDFpenにOCR機能が標準装備されていることは知っていたのですが、あくまで英語などの1バイト系(と書いてよいのか)の言語だけで、日本語は認識対象になっていません。

このため、PDFpenでOCR処理といわれてもさっぱり実用性を感じていなかったのですが、技術的な用語は英語でそのまま書いてあることもままあるため、完全な無駄……というわけでもない、という状態です。

たまたま海外のサイトを調べていたところ、PDFpenのOCR機能をAppleScriptから呼び出せることが分り、実際にプログラムを試し、実用性を持たせるために若干書き直してみました(海外のWebに掲載されているScriptは、ライターが書いた「実用性がいまいちなもの」も多々あります)。

ocr.png

スクリプト名:PDFpenで任意のPDFをOCR処理
–Webに掲載されていたサンプルを手直し
–■Automatically OCR Documents with Hazel and PDFpen
–By Katie Floyd
–http://katiefloyd.me/blog/automatically-ocr-documents-with-hazel-and-pdfpen

set theFile to choose file

tell application “PDFpen 6″
  close every document –安全のために記述。なくてもいい
  
  
open theFile as alias
  
  
tell document 1
    
    
ocr –PDFをOCR処理する(日本語は対象外)
    
    
repeat while performing ocr
      delay 0.2 –オリジナルはdelay 1だったが、長過ぎると判断
    end repeat
    
    
delay 1
    
    
close with saving
  end tell
  
end tell

▼新規書類に ▼カーソル位置に ▼ドキュメント末尾に

PDFpenのAppleScript用語辞書を「ocr」で検索してみたところ、

ocr2.png

ocrコマンド、アプリケーションのperforming ocr属性、documentのneeds oct属性が用意されていることを見つけました。すでにOCR処理が行われて文字埋め込みが行われているかどうか、チェックできるようになっているので(さすがSmileSoftware!)、さらに書き足してみました。

かえすがえすも、日本語OCR機能がついていたら……

スクリプト名:PDFpenで任意のPDFをOCR処理 v2
–Webに掲載されていたサンプルを手直し
–■Automatically OCR Documents with Hazel and PDFpen
–By Katie Floyd
–http://katiefloyd.me/blog/automatically-ocr-documents-with-hazel-and-pdfpen

set theFile to choose file

tell application “PDFpen 6″
  close every document –安全のために記述。なくてもいい
  
  
open theFile as alias
  
  
tell document 1
    
    
set ocrFlag to needs ocr –文字埋め込みがすでに行われているとfalse、埋め込まれていないとtrue
    
    
if ocrFlag = true then
      ocr –PDFをOCR処理する(日本語は対象外)
      
      
repeat while performing ocr
        delay 0.2 –オリジナルはdelay 1だったが、長過ぎると判断
      end repeat
      
      
delay 1
      
      
close with saving
    else
      close without saving
    end if
    
  end tell
  
end tell

▼新規書類に ▼カーソル位置に ▼ドキュメント末尾に

2008/12/28 PDFpenでマルチページTIFFをページごとに分解する

MVPenテクノロジーズのデジタルペン、「MVPen」のMac版を入手したところ、出力されるデータが「マルチページTIFF」などという、存在自体は知っていたものの直接見たことなどなかったシロモノで、(Preview.appでオープンできるものの)取扱いが少々めんどくさい形式でした。
(more…)