Archive for the 'japaneseTokenize' Category

2017/09/05 japaneseTokenizeのじっけん3

Objective-Cで記述した日本語形態素解析フレームワーク「japaneseTokenize」のアップデート版を呼び出し、テキストを文章単位にparseするAppleScriptです。

AppleScriptネイティブの予約語にも「paragraphs of」というものがあり、テキストを改行コード単位で分割してリスト(配列)にして返してくれます。ただ、これだと用途が限定されるので文章単位でparseするメソッドをFrameworkに追加してみました。

# 言葉の意味的に「paragraphs of」ではなく「sentences of」(そんなものはない)に該当する挙動なので、修正して後日掲載

本Scriptを試す場合には、最新版のjapaneseTokenize.framework(v1.1)をダウンロードして~/Library/Frameworksフォルダに入れてください。以前のバージョンのフレームワークがあったら削除してください。

–> Download Framework Binary

AppleScript名:japaneseTokenizeのじっけん3
– Created 2017-09-04 by Takaaki Naganoya
– 2017 Piyomaru Software
use AppleScript version “2.4″
use scripting additions
use framework “Foundation”
use framework “japaneseTokenize”
–https://github.com/murakami/workbook/tree/master/mac/Ruby
–http://d.hatena.ne.jp/shu223/20130318/1363566717

–http://piyocast.com/as/archives/4806

set targString to “これら2つの形態素解析機能のparseの結果が矛盾しているかどうかは未確認ですか? 「今日のばんごはんに何を作ろうか?」 短い文章では同じことを確認してありますが、長い文章でも同じかどうかは未確認。多分同じだとは思いますけれども。”

set aRes to current application’s jTokenize’s parseToParagraphs:targString
set bList to (aRes’s valueForKeyPath:“token”) as list
–> {”これら2つの形態素解析機能のparseの結果が矛盾しているかどうかは未確認ですか? “, “「今日のばんごはんに何を作ろうか?」 ”, “短い文章では同じことを確認してありますが、長い文章でも同じかどうかは未確認。”, “多分同じだとは思いますけれども。”}

★Click Here to Open This Script