Select Page

রিগ্রেশন মেশিন লার্নিং এবং ডাটা সায়েন্স এর জন্য অনেক দরকারি অ্যালগরিদম।

রিগ্রেশন বিশ্লেষণ কি?

রিগ্রেশন বিশ্লেষণ হল একটি ফর্ম প্রেডিক্টিভ মডেলিং কৌশলের যা একটি নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যের সম্পর্কগুলির তদন্ত করে। এই কৌশল পূর্বাভাসের জন্য ব্যবহৃত হয়, সময় সিরিজ মডেলিং এর জন্য এবং ভেরিয়েবলের মধ্যে কার্যকারিতা প্রভাব সম্পর্ক(causal effect relationship) খুঁজে বের করা। উদাহরণস্বরূপ, রাশ ড্রাইভিং এবং একটি ড্রাইভার দ্বারা সড়ক দুর্ঘটনা সংখ্যা মধ্যে সম্পর্ক ভাল রিগ্রেশনের মাধ্যমে অধ্যয়ন করা হয়।

রিগ্রেশন বিশ্লেষণ ডেটার মডেলিং এবং বিশ্লেষণের এর জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম।এখানে, আমরা তথ্য বিন্দুতে একটি বক্ররেখা / লাইন ফিট করি এমনভাবে, যে বক্ররেখা বা লাইন থেকে ডাটা পয়েন্টের দূরত্বের মধ্যে পার্থক্য কমিয়ে আনা হয়।

regression line picture
রিগ্রেশন লাইন

আমরা রিগ্রেশন বিশ্লেষণ কেন ব্যবহার করি?

উপরে উল্লিখিত হিসাবে, রিগ্রেশন বিশ্লেষণ দুই বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্কের হিসাব করে। চলুন এর একটি সহজ উদাহরণ দিয়ে ফেলি:

আপনি বর্তমান অর্থনৈতিক অবস্থার উপর ভিত্তি করে একটি কোম্পানির বিক্রয় বৃদ্ধি করতে চান। আপনার সাম্প্রতিক কোম্পানির যা ডেটা আছে তা ইঙ্গিত দেয় যে বিক্রয় বৃদ্ধির প্রায় অর্ধেক অর্থনীতির প্রবৃদ্ধি হয়।এই অন্তর্দৃষ্টি ব্যবহার করে, আমরা বর্তমান এবং অতীতের তথ্যের উপর ভিত্তি করে কোম্পানির ভবিষ্যতের বিক্রয়ের গণনা করতে পারি ।

রিগ্রেশন বিশ্লেষণ ব্যবহার করে একাধিক সুবিধা আছে।সেগুলো হলঃ

১. এটি নির্ভরশীল ভেরিয়েবল এবং স্বাধীন ভেরিয়েবলের মধ্যে গুরুত্বপূর্ণ সম্পর্ক নির্দেশ করে।

২. এটি একটি নির্ভরশীল ভেরিয়েবলের উপর একাধিক স্বাধীন ভেরিয়েবলের প্রভাবের শক্তি নির্দেশ করে।

রিগ্রেশন বিশ্লেষণ এছাড়াও আমাদের বিভিন্ন দাঁড়িপাল্লায় মাপের ভেরিয়েবলের প্রভাবগুলি তুলনা করতে সহায়তা করে, যেমন মূল্য পরিবর্তনের প্রভাব এবং প্রচারমূলক ক্রিয়াকলাপের সংখ্যা। এই সুবিধা বাজার গবেষকরা / ডেটা বিশ্লেষক / ডেটা বিজ্ঞানীদেরকে ভবিষ্যতের মডেল নির্মাণের জন্য ব্যবহারযোগ্য ভেরিয়েবলগুলির সর্বোত্তম সেটকে বাদ এবং মূল্যায়ন করতে সহায়তা করে।

আমাদের কত ধরনের রিগ্রেশন কৌশল আছে?

পূর্বাভাস করতে বিভিন্ন ধরনের রিগ্রেশন কৌশল উপলব্ধ আছে। এই কৌশলগুলি বেশিরভাগ তিনটি মেট্রিক (স্বাধীন ভেরিয়েবলের সংখ্যা, নির্ভরশীল ভেরিয়েবলের ধরন এবং রিগ্রেশন লাইনের আকার) দ্বারা পরিচালিত হয়। আমরা নিম্নলিখিত বিভাগে বিস্তারিত তাদের আলোচনা করবঃ 

regression type picture
রিগ্রেশন টাইপ

সৃজনশীলদের জন্য, আপনি উপরের নতুন প্যাটার্নগুলি তৈরি করতে পারেন, যদি আপনি উপরের প্যারামিটারগুলির সংমিশ্রণকে ব্যবহার করার প্রয়োজন মনে করেন, তবে এই কাজ শুরুর আগে আসুন আমরা সবচেয়ে বেশি ব্যবহৃত রিগ্রেশনগুলি বুঝি:

১.লিনিয়ার রিগ্রেশনঃ

এটা সবচেয়ে বিখ্যাত পরিচিত মডেলিং টেকনিকের একটি । লিনিয়ার রিগ্রেশন সাধারণত প্রথম কয়েকটি বিষয়ের মধ্যে থাকে যা লোকেদের পূর্বাভাসের মডেলিং শেখার সময় বেছে নেয়। এই পদ্ধতিতে, নির্ভরশীল ভেরিয়েবলগুলি একটানা, স্বাধীন ভেরিয়েবলগুলি ক্রমাগত বা আলাদা হতে পারে, এবং রিগ্রেশন লাইনের প্রকৃতি রৈখিক।

লিনিয়ার রিগ্রেশন নির্ভরশীল ভেরিয়েবল (Y) এবং এক বা একাধিক স্বতন্ত্র ভেরিয়েবলগুলির (X) এর মধ্যে একটি সম্পর্ক স্থাপন করে একটি সেরা মাপসই সোজা লাইন ব্যবহার করে (রিগ্রেশন লাইন হিসাবেও পরিচিত)।

এটি একটি সমীকরণ দ্বারা প্রতিনিধিত্ব করা হয় y = a + b * x + e, যেখানে a হল পথিমধ্যে রোধ , b হল লাইন ঢাল এবং e হল এরর টার্ম (error term)। এই সমীকরণটি ব্যবহার করা যেতে পারে প্রদত্ত পূর্বাভাসকারী ভেরিয়েবলগুলির উপর ভিত্তি করে লক্ষ্য ভেরিয়েবলের মানের পূর্বাভাস দিতে।

linear regression picture
লিনিয়ার রিগ্রেশন

সরল রৈখিক রিগ্রেশন এবং একাধিক রৈখিক রিগ্রেশনের মধ্যে পার্থক্য হচ্ছে, একাধিক রৈখিক রিগ্রেশনের (> 1) স্বতন্ত্র ভেরিয়েবল আছে, তবু সহজ রৈখিক রিগ্রেশনের শুধুমাত্র ১ স্বাধীন পরিবর্তনশীল। এখন প্রশ্ন হচ্ছে “আমরা কীভাবে সেরা ফিট লাইন অর্জন করতে পারি?”।

কিভাবে সেরা মাপসই লাইন প্রাপ্তি (a এবং b এর মান)?

এই টাস্কটি সহজেই লঘিষ্ট (Least)স্কয়ার মেথড দ্বারা সম্পন্ন করা যায়। এটি একটি রিগ্রেশন লাইনের জন্য ব্যবহৃত সবচেয়ে সাধারণ পদ্ধতি। প্রতিটি ডেটা বিন্দু থেকে লাইন পর্যন্ত উল্লম্ব বিচ্যুতির স্কয়ারগুলির সমষ্টিকে ছোট করে তোলার মাধ্যমে এটি পর্যবেক্ষণযোগ্য তথ্যের জন্য সবচেয়ে উপযুক্ত লাইন গণনা করে। কারণ বিচ্যুতিগুলি প্রথম শ্রেণিভুক্ত, যখন যোগ করা হয়, নেগেটিভ এবং পজিটিভ মানের মধ্যে কোনো কিছু বাদ হয় না।

regression formula

getting regression line
কিভাবে সেরা মাপসই লাইন প্রাপ্তি (a এবং b এর মান)

আমরা মেট্রিক R-square ব্যবহার করে মডেলটির কর্মক্ষমতা মূল্যায়ন করতে পারবো ।

লিনিয়ার রিগ্রেশন সম্পর্কে কিছু কী পয়েন্ট:

১. মডেলটি দ্রুত এবং সহজ এবং বিশেষভাবে উপযোগী যখন মডেলটিকে সম্পর্কযুক্ত করা অত্যন্ত জটিল নয় এবং যদি আপনার কাছে প্রচুর তথ্য না থাকে ।

২. বুঝতে এবং ব্যাখ্যা করতে এটি খুব স্বজ্ঞামূলক।

৩. লিনিয়ার রিগ্রেশনের( রৈখিক রিগ্রেশন) আউটলেইয়ারগুলি খুবই সংবেদনশীল।

২. লজিস্টিক রিগ্রেশন

লজিস্টিক (অবজেক্টর) রিগ্রেশন একটি শ্রেণীবিভাগ অ্যালগরিদম। লজিস্টিক রিগ্রেশন ব্যবহার হয় ঘটনা = সম্ভাবনা এবং ঘটনা = ব্যর্থতা এগুলোর এর সম্ভাব্যতা খোঁজার জন্য ব্যবহৃত। প্রকৃতপক্ষে লজিস্টিক রিগ্রেশন ব্যবহার হয় নির্ভরশীল ভ্যারিয়েবলটি যখন বাইনারিতে (0/1, সত্য / মিথ্যা, হ্যাঁ / না) থাকে।এখানে 0 থেকে 1 পর্যন্ত Y- এর মান এবং এটি সমীকরণ অনুসরণ করে প্রতিনিধিত্ব করতে পারে।

উপরে, p হল সুদ এর চরিত্রগত উপস্থিতির সম্ভাবনা। আপনার এখানে একটি প্রশ্ন জিজ্ঞাসা করা উচিত তা হল“কেন আমরা সমীকরণ মধ্যে লগ ব্যবহার করেছেন?”।

যেহেতু আমরা এখানে একটি দ্বিমাত্রিক বিতরণের (নির্ভরশীল ভেরিয়েবল) সঙ্গে কাজ করছি, আমাদের একটি লিঙ্ক ফাংশন নির্বাচন করা প্রয়োজন যা এই বিভাজনের জন্য উপযুক্ত। এবং, এটি লজিট (logit) ফাংশন। উপরোক্ত সমীকরণে, সমমানের ত্রুটিগুলির সমষ্টি (সাধারণ রিগ্রেশন মত) হ্রাস করার পরিবর্তে নমুনা মানগুলি দেখার সম্ভাবনাকে সর্বাধিক করার জন্য প্যারামিটারগুলি নির্বাচন করা হয়।

logistic regression picture
লজিস্টিক রিগ্রেশন

লজিস্টিক রিগ্রেশন সম্পর্কে কিছু কী পয়েন্ট:

১. এটি শ্রেণীবদ্ধকরণ সমস্যার জন্য ব্যাপকভাবে ব্যবহৃত হয়।

২. লজিস্টিক রিগ্রেশনের নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যে লিনিয়ার রিগ্রেশনের (রৈখিক সম্পর্কের) প্রয়োজন হয় না।

৩. ওভারফিটিং এবং আন্ডারফিটিং এড়াতে আমাদের সমস্ত গুরুত্বপূর্ণ ভেরিয়েবল অন্তর্ভুক্ত করা উচিত।এই অনুশীলনটি নিশ্চিত করার জন্য একটি ভাল পদ্ধতি লজিস্টিক রিগ্রেশন। এই পদ্ধতিটি একটি ধাপ অনুযায়ী ব্যবহার করা হয়।

৪. যদি নির্ভরশীল ভেরিয়েবলের মানগুলি ক্রমানুসারে হয়, তবে এটি অস্থায়ী লজিস্টিক রিগ্রেশন হিসাবে বলা হয়।

৫. নির্ভরশীল ভেরিয়েবলটি যদি মাল্টি ক্লাস হয় তবে এটি মাল্টিনোমিয়াল(বহুমুখী ) লজিস্টিক রিগ্রেশন নামে পরিচিত।

৩.পলিনমিয়াল রিগ্রেশন (Polynomial Regression)ঃ

যখন আমরা একটি মডেল তৈরি করতে চাই যা নন-লিনিয়ার বিভেদমূলক তথ্য পরিচালনা করার জন্য উপযুক্ত, আমাদের ব্যবহার করতে হবে পলিনমিয়াল রিগ্রেশন । একটি পলিনমিয়াল রিগ্রেশনের জন্য, কিছু স্বাধীন ভেরিয়েবলের শক্তি 1 এর চেয়েও বেশি। নীচের সমীকরণটি একটি পলিনমিয়াল সমীকরণ প্রতিনিধিত্ব করে:

এই রিগ্রেশন টেকনিকে, সেরা মাপসই রেখাটি একটি সরল রেখা নয়। বরং এটি একটি বক্ররেখা যা তথ্য পয়েন্টে ফিট করে।

polynomial regression picture
পলিনমিয়াল রিগ্রেশন

পলিনমিয়াল রিগ্রেশন সম্পর্কে কিছু কী পয়েন্ট:

১. নন-লিনিয়ার বিভেদমূলক তথ্যের মডেল তৈরি করতে সক্ষম; লিনিয়ার রিগ্রেশন (রৈখিক রিগ্রেশন) এটি করতে পারে না। এটি সাধারণভাবে অনেক বেশি নমনীয় এবং বেশ কিছু জটিল সম্পর্ক গড়ে তুলতে পারে।

২. ফিচার ভেরিয়েবলের মডেলিং এর উপর পূর্ণ নিয়ন্ত্রণ।

৩. যত্নশীল নকশা প্রয়োজন। সেরা প্রতিচ্ছবি নির্বাচন করার জন্য তথ্যের কিছু জ্ঞান প্রয়োজন।

৪. স্টেপওয়িস রিগ্রেশন(Stepwise Regression)ঃ

এই রিগ্রেশন ফর্ম ব্যবহার করা হয় যখন আমরা একাধিক স্বাধীন ভেরিয়েবলের সঙ্গে মোকাবিলা করি । এই পদ্ধতিতে, স্বতন্ত্র প্রক্রিয়ার সাহায্যে স্বতন্ত্র ভেরিয়েবলগুলো নির্বাচন করা হয়, যা কোনও মানবীয় হস্তক্ষেপের সাথে জড়িত নয়।

এই কৃতিত্বটি গুরুত্বপূর্ণ ভেরিয়েবলগুলি চিহ্নিত করতে R- বর্গক্ষেত্র, টি-স্ট্যাটাস এবং AIC মেট্রিকের মত পরিসংখ্যানগত মানের পর্যবেক্ষণ করে অর্জন করা হয়। স্টেপওয়িস রিগ্রেশন মূলত একটি নির্দিষ্ট পরিমাপের উপর ভিত্তি করে এক সময়ে সহ-ভেরিয়েবল যুক্ত করে / ড্রপ করার মাধ্যমে রিগ্রেশন মডেলটিকে ফিট করে।

বেশিরভাগ ব্যবহৃত স্টেপওয়িস রিগ্রেশন পদ্ধতি নীচে তালিকাভুক্ত করা হয়েছে:

১. স্ট্যান্ডার্ড স্টেপওয়িস রিগ্রেশন(প্রান্তিককরণ রিগ্রেশন) দুটি জিনিস দেয়। এটি প্রতিটি পদক্ষেপের জন্য প্রয়োজনীয় পূর্বাভাস যোগ করে এবং সরিয়ে দেয়।

২. অগ্রসর নির্বাচন মডেলের মধ্যে সবচেয়ে উল্লেখযোগ্য অগ্রগতির সাথে শুরু হয় এবং প্রতিটি পদক্ষেপের জন্য পরিবর্তনশীল যোগ করে।

এই মডেলিং টেকনিকের উদ্দেশ্য পূর্বসূরী ভেরিয়েবলের সর্বনিম্ন সংখ্যার সঙ্গে ভবিষ্যদ্বাণী ক্ষমতা সর্বাধিক হয়। এটি ডাটা সেটের উচ্চ মাত্রিকতা নিয়ন্ত্রণ করার একটি পদ্ধতি।

রিজ রিগ্রেশন(Ridge Regression)ঃ

রিজ রিগ্রেশন টেকনিকটি ব্যবহৃত হয় যখন ডেটাটি multicollinearity (স্বাধীন ভেরিয়েবলগুলি অত্যন্ত সম্পৃক্ত) থেকে উপভোগ করে। Multicollinearity এর মধ্যে, যদিও অন্তত স্কোয়ার অনুমান (OLS) নিখুঁত হয়, তাদের ভেরিয়ানস বড় যা সত্য মানের থেকে দূরে পরিলক্ষিত মূল্য বিচ্যুত । রিগ্রেশন অনুমানের পক্ষপাত একটি ডিগ্রী যোগ করে, রিজ রিগ্রেশন মানসম্মত ত্রুটি(error) হ্রাস করে।

উপরে, আমরা লিনিয়ার রিগ্রেশনের (রৈখিক রিগ্রেশন) জন্য সমীকরণ দেখেছি। মনে আছে?

y = a + b * x

এই সমীকরণে একটি ত্রুটি(error) রয়েছে। সম্পূর্ণ সমীকরণটি হয়:

y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.

একটি রৈখিক সমীকরণে, পূর্বাভাস ত্রুটিগুলি(errors) দুটি উপ উপাদানগুলির মধ্যে বিভাজিত হতে পারে। প্রথমটি পক্ষপাতিত্বের কারণে এবং দ্বিতীয়টি বিবর্তনের কারণে। এই দুই বা উভয় উপাদানের মধ্যে যে কোনো একটি কারণে ভবিষ্যদ্বাণী ত্রুটি(error) ঘটতে পারে। এখানে, আমরা ত্রুটির(error) কারণ সম্পর্কে আলোচনা করব।

রিজ রিগ্রেশন সংকোচন পরামিতি λ (ল্যাম্বডা) এর মাধ্যমে multicollinearity সমস্যার সমাধান করে। নীচের সমীকরণ দেখুন।

Rij regression picture
রিজ রিগ্রেশন

এই সমীকরণে, আমাদের দুটি উপাদান রয়েছে। প্রথমটি হল সর্বনিম্ন বর্গক্ষেত্র এবং অন্যটি β2 (বিটা-বর্গক্ষেত্র) -এর সমষ্টিটির লম্বডা যেখানে β কোফেরী হয়। এই প্যারামিটারটির খুব কম বিভাজক হ্রাস করার জন্য কমপক্ষে বর্গক্ষেত্রের যোগ করা হয়েছে।

রিজ রিগ্রেশন সম্পর্কে কিছু কী পয়েন্ট:

১. এটি কো-অপারেশনের মানকে সঙ্কুচিত করে কিন্তু শূন্যে পৌঁছায় না, যা কোন বৈশিষ্ট্য নির্বাচনে প্রস্তাব করে না।

২. এই রিগ্রেশন অনুমান কমপক্ষে স্কোয়ারের মতই,স্বাভাবিকতা ছাড়া রিগ্রেশন অনুমান করা হয় না।

৩. এটি একটি নিয়মিতকরণ পদ্ধতি এবং l2 নিয়মিতকরণ ব্যবহার করে।

৬. লাসো রিগ্রেশন(Lasso Regression)ঃ

এই রিগ্রেশন রিজ রিগ্রেশন এর মতো ।তাই এর ব্যাপারে কিছু বলার নেই।

৭. ইলাস্টিকনেট রিগ্রেশন( ElasticNet Regression)ঃ

ইলাস্টিকনেট একটি হাইব্রিড কৌশল লাসো এবং রিজ রিগ্রেশন কৌশলগুলির । উভয় পদ্ধতির প্রভাব গ্রহণ করে এটি L1 এবং L2 উভয়ই নিয়মিতকরণ ব্যবহার করে:

min || Xw — y ||² + z_1|| w || + z_2|| w ||²

লাসো এবং রিজের মধ্যে ট্রেডিং বন্ধের একটি কার্যকর সুবিধা হচ্ছে, এই ইলাস্টিক-নেটের ঘূর্ণন অধীনে কিছু রিজ এর স্থিতিশীলতা আওতায় আনতে সহায়তা করে।

ইলাস্টিক নেট রিগ্রেশন সম্পর্কে কিছু কী পয়েন্ট:

১. নির্বাচিত ভেরিয়েবলের সংখ্যার কোন সীমাবদ্ধতা নেই।

২. এটি ডবল সঙ্কুচিত সঙ্গে ভোগ করতে পারেন।

কিভাবে সঠিক রিগ্রেশন মডেল নির্বাচন করুন?

জীবন সাধারণত সহজ হয়, যখন আপনি শুধুমাত্র এক বা দুটি কৌশল জানেন। আমি জানি যে প্রশিক্ষণ ইনস্টিটিউটগুলির মধ্যে একটি তাদের ছাত্রদের — যদি ফলাফল ক্রমাগত হয় — লিনিয়ার রিগ্রেশন প্রয়োগ করুন।যদি বাইনারি হয় — লজিস্টিক রিগ্রেশন ব্যবহার করুন! যাইহোক, আমাদের উপলব্ধির বিকল্প সংখ্যা বেশী, যেটি সঠিক মনে হবে ওইটি নির্বাচন করুন।

রিগ্রেশন মডেলের একাধিক প্রকারের মধ্যে, স্বাধীন এবং নির্ভরশীল ভেরিয়েবলগুলির উপর ভিত্তি করে সেরা উপযুক্ত কৌশল নির্বাচন করা হয়।

উপরে যে ৭ টি রিগ্রেশন নিয়ে কথা বলা হলও এগুলো মেশিন লার্নিং এবং ডাটা সায়েন্স এর জন্য অনেক হেল্পফুল অ্যালগরিদম। এর কিছু ইমপ্লিমেন্টেশন কোড গিটহাব করে রেখেছি। যদি আপনাদের দরকার পরে তাহলে আমি ইমপ্লিমেন্টেশন দেখিয়ে দিবো ধাপে ধাপে। পাশে থাকুন এবং সুস্থ থাকুন। ভুল হলে বলবেন এবং ক্ষমার দৃষ্টিতে দেখবেন।

error: