GSO ISO 24614-1:2015
ISO 24614-1:2010
مواصفة قياسية خليجية
الإصدار الحالي
·
اعتمدت بتاريخ
٢١ ديسمبر ٢٠١٥
إدارة الموارد اللغوية -- تجزئة النصوص المكتوبة إلى كلمات -- الجزء1: المفاهيم الأساسية والمبادئ العامة
ملفات الوثيقة GSO ISO 24614-1:2015
الإنجليزية
15 صفحات
الإصدار الحالي
اللغة المرجعية
108.24 USD
مجال الوثيقة GSO ISO 24614-1:2015
يقدم هذا الجزء من المواصفة ISO 24614 المفاهيم الأساسية والمبادئ العامة لتجزئة الكلمات، كما يقدم إرشادات مستقلة عن اللغة لتمكين تجزئة النصوص المكتوبة إلى كلمات (WSU) بطريقة موثوق فيها وقابلة للنسخ.
ملاحظة1: في الأبحاث والصناعات المرتبطة باللغة، تعد الكلمة مفهومًا أساسيًا وضروريًا؛ ومن ثم، يجب أن يكون هناك تعريفًا شاملاً ليشمل الكلمة، وذلك لغرض تجزئة النص إلى كلمات. فلا يمكن للمرء استخدام القواعد المبنية على المسافات الفاصلة وعلامات الترقيم فقط بسهولة لتحديد الكلمات؛ فهذه القواعد لا تراعي بعض المواقف، مثل الأسماء المركبة والاختصارات والمصطلحات التي تحتوي على رموز أو أعداد. فتجزئة الكلمات تعد أمرًا أكثر صعوبة بالنسبة للغات التي لا تستخدم المسافات الفاصلة، مثل اللغتين الصينية واليابانية، وكذلك الأمر بالنسبة للغات الاشتقاقية، حيث تُدرك بعض فئات الكلمات الوظيفية على أنها مقاطع، مثل اللغة الكورية.
تشمل التطبيقات والمجالات المتعددة التي بحاجة إلى تجزئة النصوص إلى كلمات – والتي يمكن أن يطبق عليها هذا الجزء من المواصفة ISO 24514 – ما يلي:
الترجمة:
عدد الكلمات هو الطريقة الأساسية لحساب تكلفة الترجمة، لذا تأتي تجزئة الكلمات باعتبارها الوظيفة المعيارية في أنظمة ذاكرة الترجمة وأدوات الترجمة بمساعدة الحاسوب (CAT)؛ حيث يتم تجزئة الكلمات من خلال أدوات استخلاص المصطلحات التي أحيانًا ما يتم تقديمها في أنظمة إدارة المصطلحات وأدوات الترجمة بمساعدة الحاسوب.
إدارة المحتوى:
تُتيح أغلبية أنظمة إدارة وقواعد بيانات المحتوى البحث من خلال الكلمات الفردية، حيث يتم تجزئة المحتوى الذي يتم بحثه لكي يُتيح المقارنة بكلمات البحث؛ علاوة على ذلك تطلب وظائف البحث معرفة حدود الكلمات.
تقنيات النطق
تعمل أنظمة تحويل النصوص إلى كلام منطوق (text-to-speech) على إصدار النطق بناءً على الكلمات؛ ومن ثم، تتطلب هذه الأنظمة تجزئة الكلمات للبحث عنها في المعجم وتعيين المقاطع المشددة وتعيين النموذج العروضي، إلخ.
اللغويات الحسابية
يجب أن تقوم أنظمة معالجة اللغة الطبيعية (NLP) بتجزئة النص إلى كلمات تنفيذًا لوظائفها؛ حيث تشمل أنظمة NLP ما يلي:
- المعالجات النحوية الشكل.
- المعرب النحوي.
- برنامج الكشف عن الأخطاء الإملائية.
- أنظمة تصنيف النص.
- مفسر لسانيات المدونات اللغوية.
صناعة المعاجم
غالبًا يتم تقييم الموارد المعجمية بناءً على الحجم، وعادة يكون بالإشارة إلى عدد الكلمات.
ملاحظة 2:
يعد حجم الموارد اللغوية معيارًا أساسيًا على إدارة هذه الموارد، حيث يتم تعيين حجم الموارد اللغوية من خلال عدد الكلمات؛ إلا أنه بسبب استخدام تطبيقات NLP لطرق مختلفة التجزئة، فكل طريقة تعمل على حساب عدد الكلمات بشكلٍ مختلف، ومن ثم تصل إلى عدد مختلف من الكلمات لنفس النص. لذا، فوجود مقياس معياري موثوق به يسمح بالتوصل إلى نتائج قابلة للمقارنة، وهذا لا يعني ألا يستخدم كل تطبيق الطريقة الخاصة به لتجزئة الكلمات؛ على سبيل المثال، قد تقوم التطبيقات الخاص بالنطق الاصطناعي على تجزئة النص إلى وحدت أصغر أو وحدات أكبر حجمًا مقارنة بتطبيق آخر.
الأكثر مبيعاً في قطاع المعلومات
GSO ISO/TR 18492:2017
ISO/TR 18492:2005
مواصفة قياسية خليجية
حفظ المعلومات الإلكترونية للوثائق على المدى الطويل
GSO ISO/IEC 15773:2013
ISO/IEC 15773:1998
مواصفة قياسية خليجية
تقنية المعلومات- الاتصالات وتبادل المعلومات بين النظم- شبكة الخدمات المترابطة الخاصة الموسعة -- برتوكول تبادل الاشارة الداخلية-- ميزة عداد نقل الشبكة الاضافية
GSO ISO/TR 13028:2013
ISO/TR 13028:2010
مواصفة قياسية خليجية
المعلومات والتوثيق - المبادئ التوجيهية للتنفيذ لرقمنة السجلات
GSO ISO 16175-2:2013
ISO 16175-2:2011
مواصفة قياسية خليجية
المعلومات والتوثيق- المبادئ والمتطلبات الوظيفية للسجلات في بيئات المكاتب الإلكترونية- الجزء 2: المبادئ التوجيهية والمتطلبات الوظيفية للأنظمة الرقمية لإدارة السجلات
اعتمدت مؤخراً في قطاع المعلومات
GSO ISO/IEC 23859:2024
ISO/IEC 23859:2023
مواصفة قياسية خليجية
تقنية المعلومات – واجهات المستخدم – المتطلبات والتوصيات المتعلقة بجعل النص المكتوب سهل القراءة والفهم
GSO ISO 29585:2024
ISO 29585:2023
مواصفة قياسية خليجية
المعلوماتية الصحية - إطار العمل للرعاية الصحية وتقارير البيانات ذات الصلة
GSO ISO 16245:2024
ISO 16245:2023
مواصفة قياسية خليجية
المعلومات والتوثيق - الصناديق وأغلفة الملفات والحاويات الأخرى، المصنوعة من المواد السليلوزية ، لتخزين الوثائق الورقية والمخطوطات
GSO ISO/IEC 9075-15:2024
ISO/IEC 9075-15:2023
مواصفة قياسية خليجية
تقنية المعلومات - لغة قواعد البيانات SQL - الجزء 15: المصفوفات متعددة الأبعاد (SQL / MDA)