Menu

Skip to content
AppleScriptの穴
  • Home
  • Products
  • Books
  • Docs
  • Events
  • Forum
  • About This Blog
  • License
  • 仕事依頼

AppleScriptの穴

Useful & Practical AppleScript archive. Click '★Click Here to Open This Script' Link to download each AppleScript

簡易日本語形態素解析のじっけん

日本語のテキストのかんたんな形態素解析(Morphological Analysis)を行うAppleScriptです。

日本語の形態素解析は、欠くことのできない重要な要素技術であるため、さまざまなプログラム(道具)を評価していきたいところです。

OS X 10.6以降、AppleScript自体の「words of」の機能が日本語のテキストにもまともに対応し、OS内蔵のMecabを使ってparseするように変わったようです。確証はないのですが、どうもほぼ同時にspotlightのインデックス作成のためにOS Xに導入されたMecabの機能を利用するようになったもよう。

ただし、AppleScriptで日本語のテキストに対してwords ofを実行した場合、読点「、」や句読点「。」はなぜか読み飛ばすため、これが気に入らないケースも出てきます。

さらに、OS X内蔵の形態素解析エンジンも、AppleScriptからはいじくりにくい(Blocks構文の記述が必要なので呼べない)ため、他の道具をいろいろさがしてみたくなります。

Mecabの作者の工藤 拓氏が作られた、JavaScriptだけで書かれた分かち書きソフトウェア「TinySegmenter」を、さらにiOS向けにObjective-Cで書き直した「TinySegmenter.m」(By Tatsuya Tobioka)を、私がMac用にほんの少しだけ書き直して(ARC環境下でビルドおよび実行できるよう、deallocのハンドラの内容をすべてコメントアウトしただけ)、Framework化した「JparseKit.framework」をでっちあげました(開発とかいうレベルではなく、単なる作業。数分で終わった)。

この、JparseKitを呼び出してみたのがこのAppleScriptです。

AppleScriptのwords of(たぶんMecab)の結果と並べてみましたが、ほとんど一緒です。辞書を持たないタイプの分かち書きエンジンらしいのですが、かなり驚きの出力結果が得られます。ただし、口語体の文章には弱い(原理上、ひらがなだけで書かれた文章にも弱そう)とのことなので気を付ける必要があります。

# 逆に、ASのwords ofが使っているロジックがこのTinySegmenterっぽいものである、という可能性も否定できなくなってきました、、、

呼び出しているObjective-Cのファイルも1つだけなので、ASで書き直して手を入れて使ったほうが(AddressBookから姓名を抽出して、形態素解析のために併用するとか)よさそうな気もします。

例によって、OS X 10.10以降用にビルドしたバイナリを用意しておきましたので、興味のある方はアーカイブを展開したあとで、~/Library/Frameworksに入れておためしください。

–> Download jparseKit.framework binary<

AppleScript名:TinySegmenterのじっけん
— Created 2015-11-18 by Takaaki Naganoya
— 2015 Piyomaru Software
use AppleScript version “2.4”
use scripting additions
use framework “Foundation”
use framework “JparseKit” –tnantoka/TinySegmenter.m
–https://github.com/tnantoka/TinySegmenter.m

set aSegmenter to current application’s TinySegmenter’s alloc()’s init()
set a1SegList to (aSegmenter’s segment:“これはテストですよ”) as list
–>  {“これ”, “は”, “テスト”, “です”, “よ”}
set a2SegList to words of “これはテストですよ”
–>  {“これ”, “は”, “テスト”, “です”, “よ”}

set b1SegList to (aSegmenter’s segment:“私の名前は長野谷です。”) as list
–>  {“私”, “の”, “名前”, “は”, “長野”, “谷”, “です”, “。”}
set b2SegList to words of “私の名前は長野谷です。”
–>  {“私”, “の”, “名前”, “は”, “長野”, “谷”, “です”}

set c1SegList to (aSegmenter’s segment:“このプログラムは、AppleScriptで記述してあります。”) as list
–>  {“この”, “プログラム”, “は”, “AppleScript”, “で”, “記述”, “し”, “て”, “あり”, “ます”, “。”}
set c1SegList to words of “このプログラムは、AppleScriptで記述してあります。”
–>  {“この”, “プログラム”, “は”, “AppleScript”, “で”, “記述”, “し”, “て”, “あり”, “ます”}

★Click Here to Open This Script 

(Visited 148 times, 1 visits today)

電子書籍(PDF)をオンラインストアで販売中!

Google Search

Popular posts

  • macOS 26, Tahoe
  • KagiのWebブラウザ、Orion
  • Script Debuggerの開発と販売が2025年に終了
  • 【続報】macOS 15.5で特定ファイル名パターンのfileをaliasにcastすると100%クラッシュするバグ
  • NSObjectのクラス名を取得 v2.1
  • macOS 15:スクリプトエディタのAppleScript用語辞書を確認できない
  • 2024年に書いた価値あるAppleScript
  • (確認中)AppleScript Dropletのバグっぽい動作が解消?
  • Xcode上のAppleScriptObjCのプログラムから、Xcodeのログ欄へのメッセージ出力を実行
  • AppleScript Dropletのバグっぽい動作が「復活」(macOS 15.5β)
  • macOS 26, 15.5でShortcuts.app「AppleScriptを実行」アクションのバグが修正される
  • Script Debuggerがフリーダウンロードで提供されることに
  • 指定フォルダ以下の画像のMD5チェックサムを求めて、重複しているものをピックアップ
  • Apple、macOS標準搭載アプリ「写真」のバージョン表記を間違える
  • 執筆中:AppleScript最新リファレンスver2.8対応(macOS 15対応アップデート)
  • Keynoteで選択中のtext itemの冒頭のフォントを太くする v2
  • macOS 15.5beta5(24F74)でaliasのキャスティングバグが修正された???
  • 複数の重複検出ルーチンを順次速度計測
  • 余白トリミング実験 v3
  • Dock Menu

Tags

10.11savvy (1101) 10.12savvy (1242) 10.13savvy (1391) 10.14savvy (587) 10.15savvy (438) 11.0savvy (283) 12.0savvy (212) 13.0savvy (204) 14.0savvy (159) 15.0savvy (159) 26.0savvy (24) CotEditor (66) Finder (52) Keynote (120) NSAlert (61) NSArray (51) NSBitmapImageRep (20) NSBundle (20) NSButton (34) NSColor (53) NSDictionary (28) NSFileManager (23) NSFont (21) NSImage (41) NSJSONSerialization (21) NSMutableArray (63) NSMutableDictionary (22) NSPredicate (36) NSRunningApplication (56) NSScreen (30) NSScrollView (22) NSString (119) NSURL (98) NSURLRequest (23) NSUTF8StringEncoding (30) NSView (33) NSWorkspace (20) Numbers (76) Pages (56) Safari (44) Script Editor (27) WKUserContentController (21) WKUserScript (20) WKWebView (23) WKWebViewConfiguration (22)

カテゴリー

  • 2D Bin Packing
  • 3D
  • AirDrop
  • AirPlay
  • Animation
  • AppleScript Application on Xcode
  • Beginner
  • Benchmark
  • beta
  • Bluetooth
  • Books
  • boolean
  • bounds
  • Bug
  • Calendar
  • call by reference
  • check sum
  • Clipboard
  • Cocoa-AppleScript Applet
  • Code Sign
  • Color
  • Custom Class
  • date
  • dialog
  • diff
  • drive
  • Droplet
  • exif
  • file
  • File path
  • filter
  • folder
  • Font
  • Font
  • GAME
  • geolocation
  • GUI
  • GUI Scripting
  • Hex
  • History
  • How To
  • iCloud
  • Icon
  • Image
  • Input Method
  • Internet
  • iOS App
  • JavaScript
  • JSON
  • JXA
  • Keychain
  • Keychain
  • Language
  • Library
  • list
  • Locale
  • Localize
  • Machine Learning
  • Map
  • Markdown
  • Menu
  • Metadata
  • MIDI
  • MIME
  • Natural Language Processing
  • Network
  • news
  • Newt On Project
  • Noification
  • Notarization
  • Number
  • Object control
  • OCR
  • OSA
  • parallel processing
  • PDF
  • Peripheral
  • process
  • PRODUCTS
  • QR Code
  • Raw AppleEvent Code
  • Record
  • rectangle
  • recursive call
  • regexp
  • Release
  • Remote Control
  • Require Control-Command-R to run
  • REST API
  • Review
  • RTF
  • Sandbox
  • Screen Saver
  • Script Libraries
  • Scripting Additions
  • sdef
  • search
  • Security
  • selection
  • shell script
  • Shortcuts Workflow
  • Sort
  • Sound
  • Spellchecker
  • Spotlight
  • SVG
  • System
  • Tag
  • Telephony
  • Text
  • Text to Speech
  • timezone
  • Tools
  • Update
  • URL
  • UTI
  • Web Contents Control
  • WiFi
  • XML
  • XML-RPC
  • イベント(Event)
  • 未分類

アーカイブ

  • 2025年11月
  • 2025年10月
  • 2025年9月
  • 2025年8月
  • 2025年7月
  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2024年2月
  • 2024年1月
  • 2023年12月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年2月
  • 2023年1月
  • 2022年12月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年10月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年12月
  • 2019年11月
  • 2019年10月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年11月
  • 2018年10月
  • 2018年9月
  • 2018年8月
  • 2018年7月
  • 2018年6月
  • 2018年5月
  • 2018年4月
  • 2018年3月
  • 2018年2月

https://piyomarusoft.booth.pm/items/301502

メタ情報

  • ログイン
  • 投稿フィード
  • コメントフィード
  • WordPress.org

Forum Posts

  • 人気のトピック
  • 返信がないトピック

メタ情報

  • ログイン
  • 投稿フィード
  • コメントフィード
  • WordPress.org
Proudly powered by WordPress
Theme: Flint by Star Verte LLC