Menu

Skip to content
AppleScriptの穴
  • Home
  • Products
  • Books
  • Docs
  • Events
  • Forum
  • About This Blog
  • License
  • 仕事依頼

AppleScriptの穴

Useful & Practical AppleScript archive. Click '★Click Here to Open This Script' Link to download each AppleScript

簡易日本語形態素解析のじっけん

日本語のテキストのかんたんな形態素解析(Morphological Analysis)を行うAppleScriptです。

日本語の形態素解析は、欠くことのできない重要な要素技術であるため、さまざまなプログラム(道具)を評価していきたいところです。

OS X 10.6以降、AppleScript自体の「words of」の機能が日本語のテキストにもまともに対応し、OS内蔵のMecabを使ってparseするように変わったようです。確証はないのですが、どうもほぼ同時にspotlightのインデックス作成のためにOS Xに導入されたMecabの機能を利用するようになったもよう。

ただし、AppleScriptで日本語のテキストに対してwords ofを実行した場合、読点「、」や句読点「。」はなぜか読み飛ばすため、これが気に入らないケースも出てきます。

さらに、OS X内蔵の形態素解析エンジンも、AppleScriptからはいじくりにくい(Blocks構文の記述が必要なので呼べない)ため、他の道具をいろいろさがしてみたくなります。

Mecabの作者の工藤 拓氏が作られた、JavaScriptだけで書かれた分かち書きソフトウェア「TinySegmenter」を、さらにiOS向けにObjective-Cで書き直した「TinySegmenter.m」(By Tatsuya Tobioka)を、私がMac用にほんの少しだけ書き直して(ARC環境下でビルドおよび実行できるよう、deallocのハンドラの内容をすべてコメントアウトしただけ)、Framework化した「JparseKit.framework」をでっちあげました(開発とかいうレベルではなく、単なる作業。数分で終わった)。

この、JparseKitを呼び出してみたのがこのAppleScriptです。

AppleScriptのwords of(たぶんMecab)の結果と並べてみましたが、ほとんど一緒です。辞書を持たないタイプの分かち書きエンジンらしいのですが、かなり驚きの出力結果が得られます。ただし、口語体の文章には弱い(原理上、ひらがなだけで書かれた文章にも弱そう)とのことなので気を付ける必要があります。

# 逆に、ASのwords ofが使っているロジックがこのTinySegmenterっぽいものである、という可能性も否定できなくなってきました、、、

呼び出しているObjective-Cのファイルも1つだけなので、ASで書き直して手を入れて使ったほうが(AddressBookから姓名を抽出して、形態素解析のために併用するとか)よさそうな気もします。

例によって、OS X 10.10以降用にビルドしたバイナリを用意しておきましたので、興味のある方はアーカイブを展開したあとで、~/Library/Frameworksに入れておためしください。

–> Download jparseKit.framework binary<

AppleScript名:TinySegmenterのじっけん
— Created 2015-11-18 by Takaaki Naganoya
— 2015 Piyomaru Software
use AppleScript version “2.4”
use scripting additions
use framework “Foundation”
use framework “JparseKit” –tnantoka/TinySegmenter.m
–https://github.com/tnantoka/TinySegmenter.m

set aSegmenter to current application’s TinySegmenter’s alloc()’s init()
set a1SegList to (aSegmenter’s segment:“これはテストですよ”) as list
–>  {“これ”, “は”, “テスト”, “です”, “よ”}
set a2SegList to words of “これはテストですよ”
–>  {“これ”, “は”, “テスト”, “です”, “よ”}

set b1SegList to (aSegmenter’s segment:“私の名前は長野谷です。”) as list
–>  {“私”, “の”, “名前”, “は”, “長野”, “谷”, “です”, “。”}
set b2SegList to words of “私の名前は長野谷です。”
–>  {“私”, “の”, “名前”, “は”, “長野”, “谷”, “です”}

set c1SegList to (aSegmenter’s segment:“このプログラムは、AppleScriptで記述してあります。”) as list
–>  {“この”, “プログラム”, “は”, “AppleScript”, “で”, “記述”, “し”, “て”, “あり”, “ます”, “。”}
set c1SegList to words of “このプログラムは、AppleScriptで記述してあります。”
–>  {“この”, “プログラム”, “は”, “AppleScript”, “で”, “記述”, “し”, “て”, “あり”, “ます”}

★Click Here to Open This Script 

(Visited 126 times, 1 visits today)

電子書籍(PDF)をオンラインストアで販売中!

Google Search

Popular posts

  • 開発機としてM2 Mac miniが来たのでガチレビュー
  • macOS 15, Sequoia
  • 指定のWordファイルをPDFに書き出す
  • Pages本執筆中に、2つの書類モード切り替えに気がついた
  • Numbersで選択範囲のセルの前後の空白を削除
  • メキシカンハットの描画
  • Pixelmator Pro v3.6.4でAppleScriptからの操作時の挙動に違和感が
  • AdobeがInDesign v19.4からPOSIX pathを採用
  • AppleScriptによる並列処理
  • Safariで「プロファイル」機能を使うとAppleScriptの処理に影響
  • Cocoa Scripting Course 続刊計画
  • macOS 14.xでScript Menuの実行速度が大幅に下がるバグ
  • AppleScript入門③AppleScriptを使った「自動化」とは?
  • macOS 15でも変化したText to Speech環境
  • Keynote/Pagesで選択中の表カラムの幅を均等割
  • デフォルトインストールされたフォント名を取得するAppleScript
  • macOS 15 リモートApple Eventsにバグ?
  • AppleScript入門① AppleScriptってなんだろう?
  • macOS 14で変更になったOSバージョン取得APIの返り値
  • Keynoteで2階層のスライドのタイトルをまとめてテキスト化

Tags

10.11savvy (1101) 10.12savvy (1242) 10.13savvy (1391) 10.14savvy (587) 10.15savvy (438) 11.0savvy (283) 12.0savvy (212) 13.0savvy (194) 14.0savvy (147) 15.0savvy (132) CotEditor (66) Finder (51) iTunes (19) Keynote (117) NSAlert (61) NSArray (51) NSBitmapImageRep (20) NSBundle (20) NSButton (34) NSColor (53) NSDictionary (28) NSFileManager (23) NSFont (21) NSImage (41) NSJSONSerialization (21) NSMutableArray (63) NSMutableDictionary (22) NSPredicate (36) NSRunningApplication (56) NSScreen (30) NSScrollView (22) NSString (119) NSURL (98) NSURLRequest (23) NSUTF8StringEncoding (30) NSView (33) NSWorkspace (20) Numbers (76) Pages (55) Safari (44) Script Editor (27) WKUserContentController (21) WKUserScript (20) WKWebView (23) WKWebViewConfiguration (22)

カテゴリー

  • 2D Bin Packing
  • 3D
  • AirDrop
  • AirPlay
  • Animation
  • AppleScript Application on Xcode
  • Beginner
  • Benchmark
  • beta
  • Bluetooth
  • Books
  • boolean
  • bounds
  • Bug
  • Calendar
  • call by reference
  • check sum
  • Clipboard
  • Cocoa-AppleScript Applet
  • Code Sign
  • Color
  • Custom Class
  • date
  • dialog
  • diff
  • drive
  • Droplet
  • exif
  • file
  • File path
  • filter
  • folder
  • Font
  • Font
  • GAME
  • geolocation
  • GUI
  • GUI Scripting
  • Hex
  • History
  • How To
  • iCloud
  • Icon
  • Image
  • Input Method
  • Internet
  • iOS App
  • JavaScript
  • JSON
  • JXA
  • Keychain
  • Keychain
  • Language
  • Library
  • list
  • Locale
  • Localize
  • Machine Learning
  • Map
  • Markdown
  • Menu
  • Metadata
  • MIDI
  • MIME
  • Natural Language Processing
  • Network
  • news
  • Noification
  • Notarization
  • Number
  • Object control
  • OCR
  • OSA
  • parallel processing
  • PDF
  • Peripheral
  • PRODUCTS
  • QR Code
  • Raw AppleEvent Code
  • Record
  • rectangle
  • recursive call
  • regexp
  • Release
  • Remote Control
  • Require Control-Command-R to run
  • REST API
  • Review
  • RTF
  • Sandbox
  • Screen Saver
  • Script Libraries
  • sdef
  • search
  • Security
  • selection
  • shell script
  • Shortcuts Workflow
  • Sort
  • Sound
  • Spellchecker
  • Spotlight
  • SVG
  • System
  • Tag
  • Telephony
  • Text
  • Text to Speech
  • timezone
  • Tools
  • Update
  • URL
  • UTI
  • Web Contents Control
  • WiFi
  • XML
  • XML-RPC
  • イベント(Event)
  • 未分類

アーカイブ

  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2024年2月
  • 2024年1月
  • 2023年12月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年2月
  • 2023年1月
  • 2022年12月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年12月
  • 2019年11月
  • 2019年10月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年11月
  • 2018年10月
  • 2018年9月
  • 2018年8月
  • 2018年7月
  • 2018年6月
  • 2018年5月
  • 2018年4月
  • 2018年3月
  • 2018年2月

https://piyomarusoft.booth.pm/items/301502

メタ情報

  • ログイン
  • 投稿フィード
  • コメントフィード
  • WordPress.org

Forum Posts

  • 人気のトピック
  • 返信がないトピック

メタ情報

  • ログイン
  • 投稿フィード
  • コメントフィード
  • WordPress.org
Proudly powered by WordPress
Theme: Flint by Star Verte LLC