Home Technology ChatGPT के बाद, Microsoft ने Kosmos-1 का अनावरण किया, एक नया AI मॉडल जो छवियों को संकेतों के रूप में लेता है

ChatGPT के बाद, Microsoft ने Kosmos-1 का अनावरण किया, एक नया AI मॉडल जो छवियों को संकेतों के रूप में लेता है

0
ChatGPT के बाद, Microsoft ने Kosmos-1 का अनावरण किया, एक नया AI मॉडल जो छवियों को संकेतों के रूप में लेता है

[ad_1]

प्रायोगिक परिणामों से पता चला है कि कोस्मोस-1 भाषा की समझ, पीढ़ी, और यहां तक ​​कि सीधे दस्तावेज़ छवियों के साथ खिलाए जाने पर प्रभावशाली प्रदर्शन प्राप्त करता है।



प्रकाशित: 3 मार्च, 2023 7:14 अपराह्न IST


आईएएनएस द्वारा

Cosmos-1, ChatGPT के टेक्स्ट प्रॉम्प्ट से परे अगले चरण के लिए मार्ग प्रशस्त कर सकता है।
Cosmos-1, ChatGPT के टेक्स्ट प्रॉम्प्ट से परे अगले चरण के लिए मार्ग प्रशस्त कर सकता है।

नयी दिल्ली: आर्टिफिशियल इंटेलिजेंस (एआई) चैटबॉट्स पर युद्ध गर्म होने के कारण, माइक्रोसॉफ्ट ने कॉसमॉस -1 का अनावरण किया है, जो एक नया एआई मॉडल है जो पाठ संकेतों या संदेशों के अलावा दृश्य संकेतों या छवियों का भी जवाब दे सकता है।

मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) नए कार्यों की एक श्रृंखला में मदद कर सकता है, जिसमें इमेज कैप्शनिंग, विज़ुअल क्वेश्चन आंसरिंग और बहुत कुछ शामिल हैं।

Cosmos-1, ChatGPT के टेक्स्ट प्रॉम्प्ट से परे अगले चरण के लिए मार्ग प्रशस्त कर सकता है।

“भाषा, बहुआयामी धारणा, क्रिया और विश्व मॉडलिंग का एक बड़ा अभिसरण कृत्रिम सामान्य बुद्धि की दिशा में एक महत्वपूर्ण कदम है। इस काम में, हम कॉसमॉस -1, एक मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) पेश करते हैं, जो सामान्य तौर-तरीकों को समझ सकता है, संदर्भ में सीख सकता है और निर्देशों का पालन कर सकता है, ”माइक्रोसॉफ्ट के एआई शोधकर्ताओं ने एक पेपर में कहा।

ZDNet की रिपोर्ट के अनुसार, पेपर बताता है कि चैटजीपीटी जैसी क्षमताओं से परे आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) में जाने के लिए मल्टीमॉडल धारणा, या ज्ञान अधिग्रहण और वास्तविक दुनिया में “ग्राउंडिंग” की आवश्यकता है।

“इससे भी महत्वपूर्ण बात यह है कि मल्टीमॉडल इनपुट को अनलॉक करने से मल्टीमॉडल मशीन लर्निंग, डॉक्यूमेंट इंटेलिजेंस और रोबोटिक्स जैसे अधिक उच्च मूल्य वाले क्षेत्रों में भाषा मॉडल के अनुप्रयोगों का विस्तार होता है,” पेपर पढ़ा।

लक्ष्य एलएलएम के साथ धारणा को संरेखित करना है, ताकि मॉडल देखने और बात करने में सक्षम हों।

प्रायोगिक परिणामों से पता चला है कि कोस्मोस-1 भाषा की समझ, पीढ़ी, और यहां तक ​​कि सीधे दस्तावेज़ छवियों के साथ खिलाए जाने पर प्रभावशाली प्रदर्शन प्राप्त करता है।

इसने धारणा-भाषा कार्यों में भी अच्छे परिणाम दिखाए, जिसमें मल्टीमॉडल डायलॉग, इमेज कैप्शनिंग, विज़ुअल क्वेश्चन आंसरिंग और विज़न टास्क शामिल हैं, जैसे विवरण के साथ इमेज रिकग्निशन (टेक्स्ट निर्देशों के माध्यम से वर्गीकरण निर्दिष्ट करना)।

“हम यह भी दिखाते हैं कि एमएलएलएम क्रॉस-मोडल ट्रांसफर से लाभान्वित हो सकते हैं, यानी ज्ञान को भाषा से मल्टीमॉडल और मल्टीमॉडल से भाषा में स्थानांतरित कर सकते हैं। इसके अलावा, हम रेवेन आईक्यू टेस्ट का एक डेटासेट पेश करते हैं, जो एमएलएलएम की अशाब्दिक तर्क क्षमता का निदान करता है, ”टीम ने कहा।




प्रकाशित तिथि: 3 मार्च, 2023 7:14 अपराह्न IST





[ad_2]

LEAVE A REPLY

Please enter your comment!
Please enter your name here