Category Data science
Post Date Aug-2023-03

शुरुआती लोगों के लिए डेटा विज्ञान प्रोजेक्ट

Tags शुरुआती लोगों के लिए डेटा विज्ञान प्रोजेक्ट,data science projects for beginners,डेटा विज़ुअलाइज़ेशन,Data visualization,यह डेटा वैज्ञानिक के काम,Data Scientist Job,Data Science Courses,डेटा विज्ञान पाठ्यक्रमों

एक भावी डेटा वैज्ञानिक के रूप में आपने डेटा विज्ञान प्रोजेक्ट करने का सुझाव बार-बार सुना होगा।डेटा विज्ञान परियोजनाएं आपको इस पेशे में आने की कोशिश कर रहे उत्साही लोगों से अलग दिखने में मदद करती हैं और न केवल एक शानदार सीखने का अनुभव है।हालाँकि, सभी डेटा विज्ञान पहल आपके बायोडाटा को अलग नहीं बनाएंगी। वास्तव में, अपने पोर्टफोलियो में शामिल करने के लिए गलत परियोजनाओं को चुनना आपके विरुद्ध काम कर सकता है।


पहला कौशल: डेटा एकत्र करना

एक डेटा वैज्ञानिक के लिए सबसे महत्वपूर्ण क्षमताओं में से एक डेटा इकट्ठा करने और पूर्व-प्रक्रिया करने की क्षमता है पायथन का उपयोग मुख्य रूप से डेटा विज्ञान कार्य में डेटा एकत्र करने और साफ़ करने के लिए किया जाता है। एक बार व्यावसायिक आवश्यकता की अच्छी समझ हो जाने पर हमें इंटरनेट पर प्रासंगिक जानकारी प्राप्त करनी चाहिए। ऐसा करने के लिए एपीआई या वेब स्क्रेपर्स का उपयोग किया जा सकता है। इसके बाद, डेटा को साफ़ किया जाना चाहिए और डेटा फ़्रेम में संग्रहीत किया जाना चाहिए ताकि उन्हें मशीन लर्निंग मॉडल में इनपुट के रूप में उपयोग किया जा सके। यह डेटा वैज्ञानिक के काम (Data Scientist Job)का वह हिस्सा है जिसमें सबसे अधिक समय लगता है।

मैडेटा एकत्रण और पूर्व-प्रसंस्करण में आपकी दक्षता प्रदर्शित करने के लिए निम्नलिखित कार्यों को पूरा किया जाना चाहिए

वेब स्क्रैपिंग - खाद्य समीक्षा साइट ट्यूटोरियल

आपके बायोडाटा में शामिल करने के लिए एक मज़ेदार और उपयोगी प्रोजेक्ट भोजन वितरण वेबसाइटों से समीक्षाएँ निकालना है। इस साइट के वेब पेजों से सभी समीक्षा डेटा आसानी से प्राप्त करने और इसे डेटा फ़्रेम में रखने के लिए एक वेब स्क्रैपर बनाएं।

एकत्र किए गए डेटा का उपयोग एक भावना विश्लेषण मॉडल बनाने और वर्गीकृत करने के लिए किया जा सकता है कि कौन सी समीक्षाएँ सकारात्मक हैं और कौन सी प्रतिकूल हैं यदि आप इस परियोजना को एक कदम आगे ले जाना चाहते हैं। अगली बार जब आप खाने के लिए कुछ ढूँढ़ रहे हों तो सर्वोत्तम समग्र रेटिंग वाला रेस्तरां चुनें।

वेब स्क्रैपिंग के लिए ऑनलाइन पाठ्यक्रम: 

क्या आप 2021 में नामांकन के लिए शीर्ष ऑनलाइन पाठ्यक्रम की तलाश कर रहे हैं? सैकड़ों डेटा विज्ञान पाठ्यक्रमों(Data Science Course) में से एक सस्ता, उच्च श्रेणी का पाठ्यक्रम ढूंढना चुनौतीपूर्ण है। यह एक ऑनलाइन पाठ्यक्रम के लिए एक वेबसाइट को स्क्रैप करके और सभी परिणामों को डेटा फ्रेम में संग्रहीत करके पूरा किया जा सकता है।

यदि आप इस परियोजना को एक कदम आगे ले जाना चाहते हैं, तो आप उचित और उच्च गुणवत्ता वाले पाठ्यक्रम का पता लगाने के लिए लागत और रेटिंग जैसे मानदंडों के आधार पर विज़ुअलाइज़ेशन डिज़ाइन कर सकते हैं। इसके अतिरिक्त, आप प्रत्येक ऑनलाइन पाठ्यक्रम के प्रति सामान्य दृष्टिकोण निर्धारित करने के लिए एक भावना विश्लेषण मॉडल विकसित कर सकते हैं। इसके बाद, आप उच्चतम सामान्य भावना के साथ पाठ्यक्रम में नामांकन करने का निर्णय ले सकते हैं।

बोनस

कुछ प्रोजेक्ट बनाएं जहां आप एपीआई या किसी अन्य तृतीय-पक्ष तकनीक का उपयोग करके डेटा एकत्र करें। आमतौर पर, जब आप काम करना शुरू करेंगे तो ये क्षमताएं आपके काम आएंगी। आपको इन बाहरी तकनीकों की सहायता से डेटा प्राप्त करने की आवश्यकता होगी क्योंकि अधिकांश व्यवसाय जो तृतीय-पक्ष डेटा पर निर्भर हैं, वे अक्सर एपीआई एक्सेस खरीदते हैं। एक संभावित प्रोजेक्ट उदाहरण है: एक निश्चित हैशटैग के बारे में जानकारी इकट्ठा करने और इसे डेटा फ्रेम में सहेजने के लिए ट्विटर एपीआई का उपयोग करें।

 

दूसरा कौशल : खोजपूर्ण डेटा विश्लेषण

डेटा एकत्र करने और सहेजने के बाद आपको अपने डेटा फ़्रेम में सभी चर का विश्लेषण करने की आवश्यकता होगी। आपको प्रत्येक चर के वितरण पर ध्यान देना चाहिए और समझना चाहिए कि प्रत्येक चर दूसरे से कैसे संबंधित है। इसके अतिरिक्त, आपको उपलब्ध जानकारी का उपयोग करके पूछताछ का उत्तर देने में सक्षम होना चाहिए। एक डेटा वैज्ञानिक के रूप में, आप संभवतः इस कार्य को पूर्वानुमानित मॉडलिंग की तुलना में अधिक बार निष्पादित करेंगे। ईडीए परियोजनाओं के लिए यहां कुछ सुझाव दिए गए हैं:

हार्ट स्टडी का उपयोग हृदय रोग के जोखिम कारकों की पहचान करना 

इस डेटासेट में वे कारक शामिल हैं जिनका उपयोग हृदय रोग की शुरुआत का पूर्वानुमान लगाने के लिए किया जाता है, जैसे कोलेस्ट्रॉल, आयु, मधुमेह और पारिवारिक इतिहास। पीड़ित में बीमारी. इस डेटासेट में ऐसे एसोसिएशन शामिल हैं जिनका विश्लेषण निम्न समस्याओं के उत्तर प्रदान करने के लिए पायथन या आर का उपयोग करके किया जा सकता है:

  • क्या मधुमेह से पीड़ित लोगों को जल्दी हृदय रोग का अनुभव होने की अधिक संभावना है?
  • क्या एक निश्चित जनसांख्यिकी मौजूद है जो दूसरों की तुलना में हृदय रोग के प्रति अधिक संवेदनशील है?
  • क्या लगातार व्यायाम करने से हृदय रोग का खतरा कम हो जाता है?
  • क्या धूम्रपान करने वालों को धूम्रपान न करने वालों की तुलना में हृदय रोग का खतरा अधिक होता है?
  • एक डेटा वैज्ञानिक के लिए उपलब्ध डेटा की सहायता से इन प्रश्नों का उत्तर देने की क्षमता आवश्यक है।

यह परियोजना न केवल आपकी विश्लेषणात्मक क्षमताओं में सुधार करेगी बल्कि विशाल डेटाबेस से ज्ञान प्राप्त करने की आपकी क्षमता को भी प्रदर्शित करेगी।

विश्व संतोष रिपोर्ट

विश्व खुशहाली रिपोर्ट द्वारा ट्रैक की गई खुशी के छह निर्धारक हैं जीवन प्रत्याशा, आर्थिक विकास, सामाजिक समर्थन, भ्रष्टाचार की कमी, स्वतंत्रता और उदारता। इस डेटासेट पर विश्लेषण करते समय, आप निम्नलिखित प्रश्नों का उत्तर दे सकते हैं

  • किस देश में खुशहाली का स्तर उच्चतम है?
  • वे कौन से मुख्य तत्व हैं जो प्रभावित करते हैं कि कोई देश कितना खुशहाल है?
  • क्या समग्र सुख में वृद्धि या गिरावट हुई है?

एक बार फिर, यह एक परियोजना है जो आपके विश्लेषक कौशल सेट को विकसित करने में मदद करेगी। जिज्ञासा एक ऐसा गुण है जो अधिकांश सफल डेटा विश्लेषकों में देखा है। विश्लेषक और डेटा वैज्ञानिक लगातार प्रभावित करने वाले तत्वों की तलाश में रहते हैं। वे हर समय प्रश्न पूछते हैं और विभिन्न चरों के बीच संबंध स्थापित करने का लगातार प्रयास करते रहते हैं। आपको इस तरह की परियोजनाओं से भावी डेटा वैज्ञानिकों को उनके विश्लेषणात्मक कौशल को निखारने में मदद मिलेगी।

 

तीसरा कौशल:डेटा विज़ुअलाइज़ेशन 

जब आप पहली बार डेटा वैज्ञानिक के रूप में काम करना शुरू करेंगे तो आपके ग्राहक और हितधारक आम तौर पर गैर-तकनीकी लोग होंगे। गैर-तकनीकी दर्शकों तक, आपको अपनी अंतर्दृष्टि को विखंडित करने और अपने निष्कर्षों से अवगत कराने की आवश्यकता होगी। इसे पूरा करने के लिए विज़ुअलाइज़ेशन सबसे प्रभावी तरीका है। यदि आप एक इंटरैक्टिव डैशबोर्ड प्रस्तुत करते हैं तो आप अपनी टिप्पणियों को अधिक प्रभावी ढंग से संप्रेषित करने में सक्षम होंगे, क्योंकि ग्राफ़ को एक नज़र में समझना आसान होता है। इसके कारण, बहुत से व्यवसाय डेटा विज़ुअलाइज़ेशन(Data visualization ) को डेटा विज्ञान से संबंधित भूमिकाओं के लिए एक आवश्यक क्षमता के रूप में पहचानते हैं। आप अपनी डेटा विज़ुअलाइज़ेशन क्षमताओं को दिखाने के लिए अपने पोर्टफोलियो में निम्नलिखित परियोजनाओं को प्रदर्शित कर सकते हैं

एक कोविड-19 डैशबोर्ड का निर्माण

उपरोक्त डेटासेट को प्री-प्रोसेस करने के लिए आपको पहले पायथन का उपयोग करना होगा। फिर, टेबल्यू का उपयोग करके, आप एक इंटरैक्टिव कोविड-19 डैशबोर्ड बना सकते हैं। सबसे लोकप्रिय डेटा विज़ुअलाइज़ेशन टूल में से एक, टेबल्यू अधिकांश प्रवेश-स्तर डेटा विज्ञान भूमिकाओं के लिए एक आवश्यकता है। झांकी में एक डैशबोर्ड बनाना और इसे अपने पोर्टफोलियो में प्रदर्शित करना आपको अलग दिखाएगा क्योंकि इससे पता चलता है कि आप कार्यक्रम के साथ कितने सक्षम हैं।

IMDB-मूवी डेटासेट डैशबोर्ड का निर्माण

टेबल्यू का उपयोग आईएमडीबी डेटासेट के साथ खेलने और एक इंटरैक्टिव मूवी डैशबोर्ड बनाने के लिए किया जा सकता है। कस्टम टेबलू डैशबोर्ड प्रदर्शित करने से आपका पोर्टफोलियो अलग दिख सकता है। Tableau का यह भी लाभ है कि जो कोई भी आपके डैशबोर्ड का उपयोग करना चाहता है, वह आपके द्वारा Tableau Public पर अपने विज़ुअलाइज़ेशन अपलोड करते समय साझा किए गए लिंक पर क्लिक करके उस तक पहुंच सकता है। इससे संभावित नियोक्ताओं की रुचि बढ़ती है क्योंकि वे आपके डैशबोर्ड से जुड़ सकते हैं। एक बार जब वे आपके विचार में रुचि दिखाते हैं और तैयार उत्पाद के साथ बातचीत करने में सक्षम हो जाते हैं तो आप नौकरी जीतने के एक कदम और करीब पहुंच जाते हैं।


चौथा कौशल : मशीन लर्निंग

अंत में, आपको ऐसे प्रोजेक्ट प्रस्तुत करने होंगे जो मशीन लर्निंग में आपकी महारत को दर्शाते हों। पर्यवेक्षित और पर्यवेक्षित दोनों प्रकार की मशीन लर्निंग अध्ययन किए जाने चाहिए।

खाद्य समीक्षा का भावना विश्लेषण

मशीन लर्निंग (Machine Learning)के सबसे महत्वपूर्ण पहलुओं में से एक भावना विश्लेषण है। व्यवसाय अक्सर इसका उपयोग यह निर्धारित करने के लिए करते हैं कि ग्राहक आम तौर पर उनकी पेशकशों पर कैसी प्रतिक्रिया दे रहे हैं। सोशल मीडिया और उपभोक्ता प्रतिक्रिया मंच आमतौर पर ऐसे मंच होते हैं जहां ग्राहक उत्पादों पर चर्चा करते हैं। यह जानने के लिए कि विभिन्न लोग विभिन्न विपणन विधियों पर कैसे प्रतिक्रिया करते हैं, इस डेटा को इकट्ठा और विश्लेषण किया जा सकता है। भावना अध्ययन के परिणामों के आधार पर कंपनियां अपने उत्पादों की स्थिति बदल सकती हैं या अपने लक्षित बाजार में बदलाव कर सकती हैं। चूँकि लगभग सभी कंपनियों की सोशल मीडिया पर उपस्थिति है और उन्हें ग्राहकों की प्रतिक्रिया एकत्र करने की आवश्यकता होती है, आपके पोर्टफोलियो में एक भावना विश्लेषण परियोजना को शामिल होना चाहिए

जीवन प्रत्याशा की भविष्यवाणी

आप इस परियोजना में किसी व्यक्ति की स्कूली शिक्षा, शिशु मृत्यु की संख्या, शराब के उपयोग और वयस्क मृत्यु दर की जानकारी का उपयोग करके उसकी जीवन प्रत्याशा का अनुमान लगाएंगे। भावना विश्लेषण परियोजना की वर्गीकरण चुनौती का उल्लेख किया है,विभिन्न विषयों में अपनी दक्षता प्रदर्शित करने के लिए, अपने बायोडाटा में कई परियोजनाओं को उजागर करना महत्वपूर्ण है।

स्तन कैंसर विश्लेषण

लक्ष्य विशेषताओं के आधार पर, आप स्तन कैंसर के अस्तित्व का पता लगाने के लिए के-मीन्स क्लस्टरिंग तकनीक का उपयोग करेंगे। बिना पर्यवेक्षित शिक्षण की एक विधि K-मीन्स क्लस्टरिंग है। वास्तविक दुनिया का अधिकांश डेटा लेबल रहित है, इसलिए आपके पोर्टफोलियो में क्लस्टरिंग प्रोजेक्ट होना महत्वपूर्ण है। प्रशिक्षण लेबल आमतौर पर व्यवसायों द्वारा एकत्र किए गए बड़े डेटासेट से भी अनुपस्थित होते हैं। डेटा वैज्ञानिकों को स्वयं लेबलिंग करने के लिए बिना पर्यवेक्षित शिक्षण तकनीकों का उपयोग करने की आवश्यकता हो सकती है।

 

निष्कर्ष

आपको ऐसा कार्य प्रस्तुत करना होगा जो डेटा संग्रह, विश्लेषण, विज़ुअलाइज़ेशन और मशीन लर्निंग जैसी कई क्षमताओं को प्रदर्शित करता हो। आप ऑनलाइन पाठ्यक्रमों से इन सभी क्षेत्रों में आवश्यक योग्यताएँ नहीं सीख पाएंगे। फिर भी, आप व्यावहारिक रूप से आपके द्वारा चुने गए किसी भी कार्य के लिए पाठ पा सकते हैं। यदि आपको पायथन की बुनियादी समझ है तो आप इन पाठों का अनुसरण कर सकते हैं। एक बार जब आप समझ जाते हैं कि सब कुछ कैसे काम करता है और उत्तर दोहरा सकते हैं, तो आप विभिन्न कार्यों पर स्वतंत्र रूप से काम कर सकते हैं। यदि आप डेटा विज्ञान के क्षेत्र में नए हैं और आपके पास अभी तक कोई पोर्टफोलियो नहीं है, तो ध्यान रखें कि आपके पेज पर परियोजनाओं को उजागर करना महत्वपूर्ण है। या क्षेत्र में मास्टर डिग्री। संभावित नियोक्ता के सामने अपनी प्रतिभा प्रदर्शित करने का सबसे अच्छा तरीका परियोजनाओं का एक पोर्टफोलियो है, खासकर यदि आप उद्योग में अपनी पहली प्रवेश स्तर की नौकरी पाने की कोशिश कर रहे हैं।