هل سمعت عن التعرف التلقائي على الكلام ASR؟
اليوم يصل معظم سكان العالم إلى الإنترنت عبر الهواتف الذكية والأجهزة المحمولة الأخرى، لذلك ، يعد التأكد من أن موقع الويب الخاص بك يبدو طبيعيًا على الشاشات الصغيرة أكثر أهمية من أي وقت مضى.، ويمكنك تنفيذ برنامج التعرف التلقائي على الكلام ASR لتحقيق ذلك.
ستمنحك هذه المقالة نظرة ثاقبة حول كيفية مساعدة ASR في تعزيز واجهة المحادثة على موقع الويب الخاص بك، استمر في القراءة للحصول على مزيد من المعلومات حول التعرف التلقائي على الكلام وفوائده لموقعك والاستراتيجيات التي يمكنك استخدامها لتحسينه.
التعرف التلقائي على الكلام ASR |
ما هو برنامج التعرف التلقائي على الكلام (ASR) ؟
التعرف التلقائي على الكلام ASR هو عملية تحويل التعرف على الكلام الصوتي إلى نص. للقيام بذلك ، يستخدم ASR نفس البرنامج الذي تستخدمه أمثال Google و Siri و Amazon لتشغيل واجهات الصوت الخاصة بهم. يأخذ ASR الصوت الذي يولده موقع الويب أو التطبيق الخاص بك ،
ويحوله إلى نص ، ثم يخزنه في قاعدة بيانات لاسترجاعه في المستقبل.من حيث التطور التكنولوجي ، نحن قريبون من وجود أنظمة ذكاء اصطناعي مستقلة وذكية حقا تتواصل معنا بطريقة "تشبه الإنسان".
من نواح كثيرة، نحن نتقدم بثبات نحو هذا السيناريو المستقبلي بوتيرة سريعة بشكل مدهش بفضل التطوير المستمر لما يعرف باسم تقنية التعرف الآلي على الكلام، وعلى الأقل وحتى الآن، تتطلع إلى الوعد ببعض الابتكارات المفيدة حقا في تجربة المستخدم لجميع أنواع التطبيقات.
التعرف التلقائي على الكلام أو ASR
كما هو معروف باختصار، هو التكنولوجيا التي تسمح للبشر باستخدام أصواتهم للتحدث مع واجهة الكمبيوتر بطريقة تشبه ، في أشكالها الأكثر تطورا ، المحادثة البشرية العادية.
تدور النسخة الأكثر تقدما من تقنيات ASR المطورة حاليا حول ما يسمى معالجة اللغات الطبيعية، أو البرمجة اللغوية العصبية باختصار. هذا البديل من ASR هو الأقرب إلى السماح بمحادثة حقيقية بين الأشخاص وذكاء الآلة.
وعلى الرغم من أنه لا يزال أمامه طريق طويل قبل الوصول إلى قمة التطوير، إلا أننا نشهد بالفعل بعض النتائج الرائعة في شكل واجهات ذكية للهواتف الذكية مثل برنامج Siri على iPhone والأنظمة الأخرى المستخدمة في سياقات الأعمال والتكنولوجيا المتقدمة.
ومع ذلك، حتى برامج البرمجة اللغوية العصبية هذه، على الرغم من "الدقة" التي تبلغ حوالي 96 إلى 99٪ لا يمكنها تحقيق هذه الأنواع من النتائج إلا في ظل ظروف مثالية تكون فيها الأسئلة الموجهة إليهم من قبل البشر من نوع نعم أو لا بسيطة أو لديها عدد محدود فقط من خيارات الاستجابة الممكنة بناء على كلمات رئيسية مختارة (المزيد عن هذا قريبا).
الآن بعد أن قمنا بتغطية الآفاق المستقبلية الرائعة لتقنية ASR، دعنا نلقي نظرة على كيفية عمل هذه الأنظمة اليوم، حيث نستخدمها بالفعل.
يتم شرح الكثير من المعلومات التي نحن على وشك تغطيتها أيضا بتفاصيل كبيرة ومرئية للغاية من خلال الرسم البياني التكميلي الذي أنشأه محترفو برامج ASR في InteractiveWest يجب عليك أيضا إلقاء نظرة على موقعهم.
إقرا كذلك:
تمهيد أساسي حول كيفية عمل التعرف التلقائي على الكلام
التسلسل الأساسي للأحداث التي تجعل أي برنامج التعرف التلقائي على الكلام ، بغض النظر عن تطوره ، يلتقط كلماتك ويقسمها للتحليل والاستجابة على النحو التالي:
يمكنك التحدث إلى البرنامج عبر موجز صوتي
- يقوم الجهاز الذي تتحدث إليه بإنشاء ملف موجة لكلماتك.
- يتم تنظيف ملف الموجة عن طريق إزالة ضوضاء الخلفية وتطبيع مستوى الصوت.
- ثم يتم تقسيم شكل الموجة المصفاة الناتج إلى ما يسمى الفونيمات. (الفونيمات هي أصوات اللبنة الأساسية للغة والكلمات، تحتوي اللغة الإنجليزية على 44 منها ، تتكون من كتل صوتية مثل "wh" و "th" و "ka" و "t".
فوائد استخدام ASR
واجهة محادثة محسنة
زيادة المشاركة
يمكن أن يساعد ASR في تعزيز مشاركة المحتوى على موقعك، هذا لأنه يمكّنك من إنشاء المزيد من المحتوى التفاعلي الذي يمكن للمستخدمين التفاعل معه، وسيؤدي هذا إلى زيادة الوقت الذي يقضيه المستخدمون على موقعك وعدد النقرات التي يقومون بها. بالإضافة إلى ذلك ، يمكن أن تخفض معدلات التخلي، هذا لأنه يسمح بمزيد من المحادثات المتعمقة بين المستخدمين وعلامتك التجارية.التحفيز البصري
يمكن استخدام ASR لإنشاء المزيد من المحتوى المرئي على موقعك بحيث يبرز المحتوى الخاص بك أكثر. يمكن أن يكون هذا مفيدًا ، مما يجعل المحتوى الخاص بك أكثر تشويقًا وجاذبية. يمكنك استخدام هذا لصالحك لتوليد المزيد من الحركة إلى موقعك وزيادة المشاركة.تحسين أمن البيانات
يمكن استخدام ASR لتشفير بيانات المستخدم الخاصة بك. هذا يحمي بياناتك من الهجمات الخبيثة والقرصنة المحتملة. نتيجة لذلك ، يمكنك أيضًا حماية بياناتك الحساسة والحفاظ على تكامل البيانات. علاوة على ذلك ، يمكنك مراقبة الوصول إلى بياناتك لمنع إساءة الاستخدام وسرقة البيانات. علاوة على ذلك ، يمكنك تدقيق بياناتك للتأكد من دقتها.المزيد من المحتوى التفاعلي
يمكن استخدام ASR لإنشاء المزيد من المحتوى التفاعلي على موقعك ، حيث يتيح لك تقديم مزيد من المعلومات. يتيح لك ASR أيضًا تخصيص المحتوى الخاص بك ، حيث يمكنك تقديم الإرشادات أو النصائح أو التوصيات والسماح للمستخدم باختيار كيفية التصرف بناءً عليها.بعض الأمثلة الرئيسية لمتغيرات التعرف التلقائي على الكلام
النوعان الرئيسيان من متغيرات برنامج التعرف التلقائي على الكلام هما محادثات الحوار الموجهة ومحادثات اللغة الطبيعية (نفس الشيء مثل معالجة اللغة الطبيعية التي ذكرناها أعلاه).
محادثات الحوار الموجه: هي النسخة الأبسط بكثير من ASR في العمل وتتكون من واجهات الآلة التي تخبرك شفهيا بالرد بكلمة محددة من قائمة محدودة من الخيارات ، وبالتالي تشكيل استجابتها لطلبك المحدد بدقة. عادة ما تستخدم الخدمات المصرفية الهاتفية الآلية وواجهات خدمة العملاء الأخرى برنامج ASR للحوار الموجه.
محادثات اللغة الطبيعية: (البرمجة اللغوية العصبية التي غطيناها في مقدمتنا) هي المتغيرات الأكثر تطورا من ASR وبدلا من قوائم محدودة للغاية من الكلمات التي قد تستخدمها ، فإنها تحاول محاكاة محادثة حقيقية من خلال السماح لك باستخدام تنسيق دردشة مفتوح معهم، تعد واجهة Siri على iPhone أمثلة متقدمة للغاية على هذه الأنظمة.
كيف تعمل معالجة اللغات الطبيعية؟
نظرا لأهميتها كاتجاه مستقبلي لتكنولوجيا ASR ، فإن البرمجة اللغوية العصبية أكثر أهمية بكثير من الحوار الموجه في تطوير أنظمة التعرف على الكلام.
تم تصميم الطريقة التي يعمل بها لمحاكاة فضفاضة لكيفية فهم البشر أنفسهم للكلام والاستجابة وفقا لذلك.
تتكون المفردات النموذجية لنظام NLP ASR من 60 ألف كلمة أو أكثر، والآن ما يعنيه هذا هو أكثر من 215 تريليون تركيبة كلمات ممكنة إذا قلت ثلاث كلمات فقط في تسلسل لها!
من الواضح إذن أنه سيكون من غير العملي بشكل كبير لنظام NLP ASR مسح مفرداته بالكامل لكل كلمة ومعالجتها بشكل فردي. بدلا من ذلك، ما تم تصميم نظام اللغة الطبيعية للقيام به هو التفاعل مع قائمة أصغر بكثير من الكلمات الرئيسية "المعلمة" المحددة التي تعطي سياقا للطلبات الأطول.
وبالتالي ، باستخدام هذه القرائن السياقية، يمكن للنظام تضييق نطاق ما تقوله له بسرعة أكبر ومعرفة الكلمات التي يتم استخدامها حتى يتمكن من الاستجابة بشكل كاف.
على سبيل المثال، إذا قلت عبارات مثل "توقعات الطقس" و "تحقق من رصيدي" و "أرغب في دفع فواتيري"، فقد تكون الكلمات الرئيسية الموسومة التي يركز عليها نظام البرمجة اللغوية العصبية هي "التوقعات" و "التوازن" و "الفواتير"، ثم يستخدم هذه الكلمات للعثور على سياق الكلمات الأخرى التي استخدمتها وعدم ارتكاب أخطاء مثل الخلط بين "الطقس" و "سواء".
استراتيجيات لتعزيز التفاعل التحادثي مع ASR
يمكنك تنفيذ عدة استراتيجيات
على موقعك باستخدام التعرف التلقائي على الكلام، وفيما يلي بعض الأمثلة حول كيفية استخدام ASR لواجهة المحادثة الخاصة بك. استخدم الأوامر الحساسة للسياق: الأوامر الحساسة للسياق خاصة بسياق المحادثة. على سبيل المثال ، قد يكون لديك أوامر ذات صلة بالمحتوى الذي يقرأه المستخدمون.
تقديم الاستعلامات التنبؤية: تم تصميم الاستعلامات التنبؤية للتنبؤ بما يريد المستخدمون معرفته أو سؤاله. على سبيل المثال ، إذا كان المستخدم يقرأ منشور مدونة حول مراجعات المنتج ، فقد يقترح الاستعلام التنبئي تلقائيًا أنه يسأل ما يعتقده الآخرون عن المنتج.
إنشاء واجهات محادثة، حيث تم تصميم واجهات المحادثة لتكون أكثر طبيعية وشخصية ومحادثة. يمكن استخدام ASR لتشغيل واجهات محادثة أكثر طبيعية، مثل تحويل الصوت إلى نص والعناصر المرئية.
طرق اختبار واجهات المحادثة باستخدام ASR
هناك عدة طرق مختلفة يمكنك من
خلالها تجربة ASR على موقعك لمعرفة تأثيرها. فيما يلي بعض الأمثلة على الطرق
التي يمكنك من خلالها اختبار ASR على موقعك. الأوامر الصوتية: الأوامر الصوتية هي طريقة رائعة لاختبار ASR على موقعك. هذا لأنها تتيح لك تجربة ميزات ASR المختلفة.
المساعدون المرئيون: المساعدون المرئيون عبارة عن برنامج ASR قائم على الصور يمكن استخدامه على موقعك ،هذه طريقة رائعة لتجربة ميزات مختلفة ، حيث يمكنك استخدامها في سياق مرئي.
تركيب الكلام: تركيب الكلام هو نوع من ASR حيث يقوم البرنامج بإنشاء نص مسموع، هذا هو الأنسب للمحتوى الطويل ، والذي يفضل استخدامه لقراءة المنشورات أو المقالات الطويلة.
اختبار الضبط: كيف يتم إجراء ASR "للتعلم" من البشر
يعمل تدريب أنظمة ASR ، سواء كانت البرمجة اللغوية العصبية أو أنظمة الحوار الموجهة ، على آليتين رئيسيتين. الأول والأبسط من هذه تسمى "ضبط" الإنسان والبديل الثاني الأكثر تقدما يسمى "التعلم النشط".
الضبط البشري: هذه وسيلة بسيطة نسبيا لأداء تدريب ASR. وهو ينطوي على مبرمجين بشريين يمرون عبر سجلات المحادثات الخاصة بواجهة برنامج ASR معينة وينظرون إلى الكلمات الشائعة الاستخدام التي كان عليها سماعها ولكن ليس لديها في مفرداتها المبرمجة مسبقا ،ثم تضاف هذه الكلمات إلى البرنامج حتى يتمكن من توسيع فهمه للكلام.
التعلم النشط: التعلم النشط هو البديل الأكثر تطورا من ASR ويتم تجربته بشكل خاص مع إصدارات البرمجة اللغوية العصبية من تقنية التعرف على الكلام. مع التعلم النشط ، يتم برمجة البرنامج نفسه للتعلم بشكل مستقل والاحتفاظ بكلمات جديدة واعتمادها ، وبالتالي توسيع مفرداته باستمرار أثناء تعرضه لطرق جديدة للتحدث وقول الأشياء
هذا ، على الأقل من الناحية النظرية ، يسمح للبرنامج بالتقاط عادات الكلام الأكثر تحديدا لمستخدمين معينين حتى يتمكن من التواصل معهم بشكل أفضل.
على سبيل المثال، إذا استمر مستخدم بشري معين في نفي التصحيح التلقائي لكلمة معينة ، فإن برنامج البرمجة اللغوية العصبية يتعلم في النهاية التعرف على الاستخدام المختلف لهذا الشخص المعين لتلك الكلمة كإصدار "صحيح".
الخلاصة
مع استمرار تطور تقنية الذكاء الاصطناعي، سنرى المزيد والمزيد من الأتمتة في حياتنا، الأتمتة لديها القدرة على توفير الوقت وتسهيل حياتنا. يجب علينا أولاً تحديد ما يمكننا أتمتة وكيفية الاستفادة من أدوات الأتمتة هذه.
واحدة من أهم الأشياء التي يمكن للشركات أتمتها هي واجهة المحادثة الخاصة بها، إذا كان موقعك يستجيب بشكل طبيعي للمستخدمين البشريين، فسوف يشعر بأنه أقل رقميًا وأكثر إنسانية، سيؤدي ذلك إلى زيادة رضا العملاء عبر الإنترنت والاحتفاظ بهم.
تعليقات