ڊيٽا مائننگ ۾ درجه بندي

درجه بندي هڪ ڊيٽا کان کني ٽيڪنڪ آهي جيڪا ڊيٽا کي گڏ ڪرڻ لاء گڏوگڏ وڌيڪ صحيح پيش رفت ۽ تجزيو ۾ مدد ڏيڻ لاء زمرے کي ڏني وئي آهي. ڪڏهن ڪڏهن ڪڏهن به فيصلي جو وڻ سڏيو ويندو آهي، انهن کي وڏي وڏي ڊيٽابيس کي مؤثر انداز جي تجزيه ڪرڻ لاء مقصد ڪيترن ئي طريقن مان هڪ آهي.

ڇو ته درجه بندي؟

تمام وڏا ڊيٽابيس جي اڄ دنيا جي "وڏي انگ" ۾ عام ٿي رهيا آهن. هڪ ٽيٽابيس جي ڊيٽا سان گڏ ڊيٽابيس تصور ڪريو -اٿيڪاٽ ڊيٽا جي هڪ ٽرئفڪ بٽس آهي.

هر هڪ ڏينهن اڪيلو فائونڊيشن هر هڪ ڏينهن جي 600 ٽربيونٽي کي خراب ڪري ٿو (2014 ع تائين، اهو آخري وقت هن چشمي کي ٻڌايو ويو). وڏي ڊيٽا جو بنيادي چئلينج اهو آهي ته ان جو احساس ڪيئن ڪجي.

۽ سراسر حجم واحد مسئلا نه آهي: وڏو انگ پڻ مختلف قسم جي، اڻ ترتيب ۽ تيز بدلجڻ ۾ شامل آهي. آڊيو ۽ وڊيوز ڊيٽا، سماجي ميڊيا پوسٽون، 3D ڊيٽا يا جيوپوٽوٽيڪل ڊيٽا کي ڏسو. هن قسم جي ڊيٽا آساني سان ٺهڪندڙ يا منظم ناهي.

هن چيلنج کي ملڻ لاء، ڪارائتي معلومات کي ڪڍڻ لاء خودڪار طريقن جو هڪ رينج ترقي ڪئي وئي آهي، انهن جي وچ ۾ درجه بندي .

ڪيتري ڪلاس بندي جو ڪم

گهڻي عرصي ۾ ٽيڪچ ڳالهائڻ جي خطري ۾، اچو ته بحث ڪئين ڪلاس بندي ڪجي. مقصد هڪ قسم جي वर्गीاتي قاعدن جو هڪ ٺاهيو آهي جيڪو هڪ سوال جو جواب ڏيندو، فيصلو ڪرڻ يا رويي جي پيروي ڪندي. شروع ڪرڻ لاء، تربيتي انگن اکرن جو هڪ روپ ترقي يافته آهي جنهن ۾ ڪجهه مخصوص صفات ۽ ممڪن آهي.

اشتعالتي الورتورٿم جي نوڪري اهو معلوم ڪرڻ آهي ته صفتن جي سيٽ جي نتيجن کي ڪيئن پهچندي آهي.

مناظر : شايد ايڏو ڪريڊٽ ڪارڊ ڪمپني کي اهو طئي ڪرڻ جي ڪوشش ڪري رهيو آهي ته ڪهڙو امڪان هڪ ڪريڊٽ ڪارڊ جي آڇ حاصل ڪرڻ گهرجي.

اهو شايد ٽريننگ جي ڊيٽا جو سيٽ ڪيو وڃي ٿو.

سکيا جو ڊيٽا
نالو عمر صنف سالياني آمد ڪريڊٽ ڪارڊ جي آڇ
جان آسو 25 ميم $ 39،500 نه
جين ڪرا 56 F $ 125،000 ها

"پريشر" جي شاخن عمر ، جينج ، ۽ سالياني آمدني "پيچراڪٽر وصف" جي ڪريڊٽ ڪارڊ آڇ جو اندازو لڳايو. هڪ تربيت واري سيٽ ۾، پيش ڪندڙ اشارو ڄاڻايل آهي. درجه بندي واري الورورٿيم انهي کان پوء اهو اندازو ڪرڻ جي ڪوشش ڪري ٿو ته اڳوڻيٽر خاصيت جي قيمت پهچي وئي هئي: پيش رفت ۽ فيصلي جي وچ ۾ ڪهڙو تعلق موجود آهي؟ اهو پيچيدگي قاعدن جو عام طور تي مقرر ڪندو، عام طور تي هڪ IF / THEN بيان آهي، مثال طور:

IF (عمر> 18 يا عمر <75) ۽ سالياني آمد> 40،000 THEN ڪريڊٽ ڪارڊ آفيسر = ها

ظاهر آهي، اهو هڪ سادي نموني آهي، ۽ الگورتھم کي تمام وڏي انگ اکر نموني جي ضرورت هوندي آهي. وڌيڪ، پيش ڪيل قاعدن جي لحاظ کان تمام وڌيڪ پيچيده هوندا آهن، خاصيت جي تفصيلن تي قبضو ڪرڻ جي ذيلي قاعدن سميت.

اڳيون، الگورتھم کي تجزيو ڪرڻ لاء ڊيٽا جي "پيچيدگي سيٽ" ڏنو ويو آهي، پر اهو سيٽ اڳڪٿي خاصيت (يا فيصلو) ناهي:

اڳوڻي ڄاڻ واري ڊيٽا
نالو عمر صنف سالياني آمد ڪريڊٽ ڪارڊ جي آڇ
بيڪ فراخ 42 ميم $ 88،000
مريم موري 16 F $ 0

اهو پيش ڪيل معلومات ڊيٽا جي قاعدي جي ضابطن جي درستگي جي اندازي ۾ مدد ڪري ٿي، ۽ ضابطن کان پوء انهي تي قائداعظم ڪري رهيا آهن ته ترقي ڪندڙ اهو پيش رفت ۽ مفيد آهي.

ڏينهن جي ڏينهن جي درجه بندي جا مثال

درجه بندي، ۽ ٻين ڊيٽا کان کنيڪل ٽيڪنالاجي، صارفن جي ڏينهن ۾ اسان جي ڏينهن جو گهڻو حصو آهي.

موسم جي پيش رفت شايد درجه بندي جي استعمال ڪري سگهي ٿي ته ڇا ڏينهن جو مينهن، ٿڌ يا اڀرندڙ مينهن هوندو. طبي پيشو پيش ڪيل صحت جي نتيجن کي پيش ڪندي صحت جي حالتن جو تجزيو ڪري سگھي ٿو. هڪ قسم جي درجي جو طريقو، نويو بيزينان، اسپام اي ميلز کي بندي ڪرڻ لاء مشروط احتساب استعمال ڪندو آهي. درٻار جي پيداوار جي آڇن کي ڳولڻ کان، درجي بندي هر مناظر جي پويان ڏيکاريون ۽ پروپيگنڊا پيدا ڪندو آهي.