macOS 10.14であらたに搭載されたNaturalLanguage.frameworkにアクセスして、自然言語テキストが「何語」かを推定するAppleScriptです。
以前にNSLinguisticTaggerで言語推定を試してみましたが、ネット上のラノベ文書(セリフが多く、人名がカタカナばっかり)を与えてみたら日本語を日本語として判定せず、「使えない機能」だと感じました。
ポンコツで与える文字列の長さや記号文字の登場頻度に極端に演算結果が左右されていたNSLinguisticTaggerとは異なり、このNLLanguageRecognizerは割と使えるようです。「日本語だよ。」という程度の文章で日本語と判定してくれたので、なかなか使えそうな気配がします。
ただし、実際に試してみたところ文中にアルファベットの単語が多く含まれると日本語として判定してくれなくなるという「弱点」があるので、そのあたりは注意を要します。
AppleScript名:NLLanguageRecognizerで自然言語の推定 v2.scptd |
— Created 2018-11-13 by Takaaki Naganoya use AppleScript version "2.7" — Mojave (10.14) or later use scripting additions use framework "Foundation" use framework "NaturalLanguage" –new framework set str01 to "Ilmatyynyalukseni on täynnä ankeriaita." set str02 to "Luftputebåten min er full av ål" set str03 to "私の名前は長野谷です。" set str04 to "أنشأ فوكوزاوا يوكيتشي (١٨٣٥–١٩٠١) في اكتوبر عام ١٨٥٨ مدرسة للدراسات الهولندية (تحولت بعد ذلك لمدرسة للغة الانكليزية) في ايدو (طوكيو حاليا). يعد فوكوزاوا يوكيتشي من أحد مؤسسي نهضة اليابان الحديثة، فونهتم بمدرستنا بنوع التعليم الذي ينمي القدرات الإبداعية والفنية التي يتطلب توافرها في طلاب الجامعة بحيث لا ينشغل الطلاب باختبار قبول الجامعات ونحترم استقلالية وتفرد كل طالب وذلك في جو دافئ في بيئة طبيعية مليئة بأشجار" set str05 to "게이오 기주쿠는 어디에나 있는 학교의 하나로 만족하지 않습니다. 게이오 기주쿠는 기주쿠(義塾, 의숙)에서 배우는 학생과 교원이 일본의 ’기품의 원천’ 및 ’지덕의 모범’이 되는 것을 목표로 하는 학숙(學塾)입니다. " set str06 to "庆应义塾不是仅仅满足于成为常常见到的一般性学校。" set str07 to "Je suis japonaise." set str08 to "Buon pomeriggio." set str09 to "Хороших выходных!" set str10 to "Möchten Sie Tee oder Kaffee?" set a1Res to guessLanguageCodeOf(str01) of me –> "fi" set a2Res to guessLanguageCodeOf(str02) of me –> "sv" set a3Res to guessLanguageCodeOf(str03) of me –> "ja" set a4Res to guessLanguageCodeOf(str04) of me –> "ar" set a5Res to guessLanguageCodeOf(str05) of me –> "ko" set a6Res to guessLanguageCodeOf(str06) of me –> "zh-Hans" set a7Res to guessLanguageCodeOf(str07) of me –> "fr" set a8Res to guessLanguageCodeOf(str08) of me –> "it" set a9Res to guessLanguageCodeOf(str09) of me –> "ru" set a10Res to guessLanguageCodeOf(str10) of me –> "de" return {a1Res, a2Res, a3Res, a4Res, a5Res, a6Res, a7Res, a8Res, a9Res, a10Res} –> {"fi", "nb", "ja", "ar", "ko", "zh-Hans", "fr", "it", "ru", "de"} on guessLanguageCodeOf(theString as string) set aNL to current application’s NLLanguageRecognizer’s alloc()’s init() aNL’s processString:theString set langRes to (aNL’s dominantLanguage()) as string return langRes end guessLanguageCodeOf |
More from my site
(Visited 54 times, 1 visits today)