प्राकृतिक भाषा संसाधन
(भाषा कम्प्यूटरी से अनुप्रेषित)
प्राकृतिक भाषा संसाधन (एनएलपी) कम्प्यूटर विज्ञान, कृत्रिम बुद्धि तथा भाषा विज्ञान का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और कंप्यूटर के अन्तःक्रियाओं से सम्बन्धित है।[1] प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।
चुनौती
संपादित करेंकम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-
- संदिग्धता : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
- शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या - बोली गयी भाषा में प्रायः शब्दों की सीमा का ठीक -ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे मन्दारिन) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
- गलत आंकड़े - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, ओसीआर से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।
प्रक्रिया
संपादित करें- मार्फोलोजिक विश्लेषण
- सिन्टैक्टिकल विश्लेषण
- सिमैन्टिक विश्लेषण
- प्रैग्मटिक विश्लेषण - सन्दर्भ आदि का ध्यान रखना
- वाक्य की योजना बनाना
- वाक्यनिर्माण
प्रमुख अनुप्रयोग
संपादित करेंकुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-
- मशीनी अनुवाद
- पाठ सरलीकरण
- सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
- सारांशीकरण (summerization)
- प्रश्नों के उत्तर देना
- संगणकीय भाषाविज्ञान
- डाटा खनन (डेटा माइनिंग)
- प्राकृतिक भाषा को समझना
- अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष
इन्हें भी देखें
संपादित करेंबाहरी कड़ियाँ
संपादित करेंसन्दर्भ
संपादित करें- ↑ Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.