ডেটা মাইনিং - জ্ঞান ব্যবস্থাপনা

মৌলিক ধারণা

OLAP সিস্টেমগুলি ডেটা বিশ্লেষণ করার সময় অনুমানের জন্য বিশ্লেষণ সরঞ্জামগুলি সরবরাহ করে, অর্থাৎ, বিশ্লেষকের মূল কাজটি হ'ল হাইপোথিসেসের প্রজন্ম, যা তিনি তার জ্ঞান এবং অভিজ্ঞতার উপর ভিত্তি করে তা সমাধান করেন। তবে, জ্ঞান শুধুমাত্র মানুষের মধ্যে নয়, কিন্তু এছাড়াও বিশ্লেষণ করা হচ্ছে যে জমা তথ্য। এই ধরনের জ্ঞান একটি বিশাল পরিমাণে তথ্য রয়েছে যা একজন ব্যক্তি স্বাধীনভাবে অন্বেষণ করতে পারে না। এই ক্ষেত্রে, উল্লেখযোগ্য সুবিধা আনতে পারে এমন অনুমানগুলি বাদ দেওয়ার সুযোগ রয়েছে।

"লুকানো" জ্ঞান সনাক্তকরণের জন্য, স্বয়ংক্রিয় বিশ্লেষণের বিশেষ পদ্ধতি ব্যবহার করা হয়, যার সাথে তাদের "ডন" তথ্যের মাধ্যমে জ্ঞান নির্ণয় করতে হবে। এর জন্য, "ডেটামাইনিং) শব্দটি" বা "বুদ্ধিমান ডেটা বিশ্লেষণ" উল্লেখ করা হয়েছিল।

অনেক সংজ্ঞা আছে ডেটামিনিং যারা একে অপরের পরিপূরক। এখানে তাদের কিছু।

Datamining ডেটাবেসে একটি অ-তুচ্ছ এবং কার্যত দরকারী প্যাটার্নস। (বেসগ্রুপ)

ব্যবসাটির সুবিধা অর্জনের জন্য এই কাঠামোর (প্যাটার্স) এর অজানা সনাক্ত করার জন্য এই কাঠামোর (প্যাটার্স) এর অজানা সনাক্ত করার জন্য নির্বাচন, গবেষণা ও মডেলিংয়ের প্রক্রিয়া, গবেষণা ও মডেলিং।

ডেটামিনিং একটি প্রক্রিয়া যার লক্ষ্যটি নতুন উল্লেখযোগ্য সম্পর্কগুলি সনাক্ত করা, মডেল স্বীকৃতি পদ্ধতির ব্যবহারের সাথে একটি বড় পরিমাণে সংরক্ষিত ডেটা সাইডিংয়ের ফলে আদর্শ এবং গাণিতিক পদ্ধতিগুলির ব্যবহার (GartNerroup) ব্যবহারের সাথে

Datamining একটি গবেষণা এবং "মেশিন" ডিটেকশন (অ্যালগরিদম, কৃত্রিম বুদ্ধিমত্তা) কাঁচা লুকানো জ্ঞান তথ্য তারা পূর্বে পরিচিত, nontrivial, প্রায় দরকারী, ব্যাখ্যা জন্য উপলব্ধ ছিল না মানুষের দ্বারা। (A. Bargeses "ডেটা বিশ্লেষণ প্রযুক্তি")

Datamining ব্যবসা সম্পর্কে দরকারী জ্ঞান সনাক্ত করার একটি প্রক্রিয়া। (এনএম। আব্দিকেভ "কেবা")

সনাক্তযোগ্য জ্ঞান বৈশিষ্ট্য

সনাক্তযোগ্য জ্ঞান বৈশিষ্ট্য বিবেচনা করুন।

  • জ্ঞান নতুন, পূর্বে অজানা হতে হবে। জানার জন্য আনুমানিক প্রচেষ্টাগুলি ব্যবহারকারীকে জানাতে হবে যা ব্যবহারকারীকে জানা যায় না। অতএব, নতুন, পূর্বে অজানা জ্ঞান মূল্যবান।
  • জ্ঞান nontrivial হতে হবে। বিশ্লেষণ ফলাফল অ সুস্পষ্ট, অপ্রত্যাশিত প্রতিফলিত করা উচিত তথাকথিত লুকানো জ্ঞান গঠন তথ্য মধ্যে নিদর্শন। ফলাফলগুলি সহজ উপায়ে পাওয়া যেতে পারে (উদাহরণস্বরূপ, ভিজ্যুয়াল দেখার জন্য), শক্তিশালী ডেটামিনিং পদ্ধতির আকর্ষণকে ন্যায্যতা দিও না।
  • জ্ঞান কার্যত দরকারী হতে হবে। একটি মোটামুটি উচ্চ ডিগ্রী নির্ভরযোগ্যতা সঙ্গে, নতুন তথ্য সহ, নতুন তথ্য সহ প্রযোজ্য হতে হবে। দরকারীতা হল যে এই জ্ঞানটি প্রয়োগ করার সময় একটি নির্দিষ্ট সুবিধা আনতে পারে।
  • জ্ঞান ব্যক্তি বুঝতে উপলব্ধ করা আবশ্যক। পাওয়া নিদর্শন যুক্তিযুক্তভাবে ব্যাখ্যা করা উচিত, অন্যথায় তারা র্যান্ডম হয় যে একটি সম্ভাবনা আছে। উপরন্তু, আবিষ্কৃত জ্ঞান বোধগম্য একটি ব্যক্তির মধ্যে উপস্থাপন করা উচিত।

প্রাপ্ত জ্ঞান উপস্থাপন datamining মধ্যে, মডেল কাজ করে। মডেলের ধরন তাদের সৃষ্টি পদ্ধতিতে নির্ভর করে। সর্বাধিক সাধারণ: নিয়ম, সমাধান, ক্লাস্টার এবং গাণিতিক ফাংশন।

Datamining কাজ

ডেটামিনিং প্রযুক্তির প্রযুক্তির প্রযুক্তিটি টেমপ্লেটগুলির ধারণার উপর ভিত্তি করে রয়েছে যা নিদর্শন। এই সনাক্তকরণের ফলে, নগ্ন চোখ থেকে লুকানো নিদর্শনগুলি, ডেটামিনিং কাজগুলি সমাধান করা হয়। একটি পরিষ্কার ব্যক্তির আকারে প্রকাশ করা যেতে পারে এমন বিভিন্ন ধরণের নিদর্শন নির্দিষ্ট ডেটামিনিং কাজগুলির সাথে সম্পর্কিত।

ডেটামিনিংয়ের জন্য কী কাজ করা উচিত তা সম্পর্কে কোন একক মতামত নেই। সর্বাধিক সম্মানিত উত্স নিম্নলিখিত তালিকাভুক্ত করুন: শ্রেণীবিভাগ,

ক্লাস্টারাইজেশন, পূর্বাভাস, সমিতি, কল্পনা, বিশ্লেষণ এবং সনাক্তকরণ

বিচ্যুতি, আনুমানিক, সংযোগ বিশ্লেষণ, summing আপ।

বর্ণনাটির উদ্দেশ্য, যা অনুসরণ করে তা ডেটামিনিং কাজগুলির একটি সাধারণ ধারণা দিতে হয়, তাদের মধ্যে কয়েকটি তুলনা করে এবং এমন কিছু পদ্ধতি জমা দেয় যার সাথে এই কাজগুলি সমাধান করা হয়। সবচেয়ে সাধারণ datamining কাজ শ্রেণীবিভাগ, ক্লাস্টারিং, এসোসিয়েশন, ভবিষ্যদ্বাণী এবং কল্পনা করা হয়। সুতরাং, কাজগুলি উত্পন্ন তথ্যগুলির মধ্যে বিভক্ত করা হয়, এটি ডেটামিনিং কাজগুলির সবচেয়ে সাধারণ শ্রেণীবিভাগ।

শ্রেণীবিভাগ (শ্রেণীবিভাগ)

একটি পূর্বনির্ধারিত গোষ্ঠীতে বিভিন্ন বস্তু বা পর্যবেক্ষণের বিভিন্ন বস্তু বা পর্যবেক্ষণকে বিভক্ত করার কাজ, যার মধ্যে প্রতিটিটি একই বৈশিষ্ট্য এবং লক্ষণগুলির সাথে একে অপরের অনুরূপ বলে মনে করা হয়। এই ক্ষেত্রে, সমাধান উপর ভিত্তি করে বিশ্লেষণ বৈশিষ্ট্য মান (লক্ষণ)।

শ্রেণীবিভাগ সবচেয়ে গুরুত্বপূর্ণ কাজ এক। ডেটামিনিং । এটা ব্যবহার করা হয় বিপণন ঋণদাতাদের ক্রেডিট যোগ্যতা মূল্যায়ন, নির্ধারণ আনুগত্য গ্রাহক ইমেজ স্বীকৃতি , মেডিকেল ডায়াগনস্টিকস এবং অন্যান্য অনেক অ্যাপ্লিকেশন। বিশ্লেষক যদি প্রতিটি শ্রেণীর বস্তুর বৈশিষ্ট্যগুলি জানেন তবে একটি নতুন পর্যবেক্ষণ একটি নির্দিষ্ট ক্লাসে বোঝায়, এই বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে এটিতে প্রযোজ্য হয়।

ক্লাস সংখ্যা দুই সীমাবদ্ধ হলে, তারপর সঞ্চালিত হয় বাইনারি শ্রেণীবিভাগ যা আরো অনেক জটিল কাজ হ্রাস করা যেতে পারে। উদাহরণস্বরূপ, ক্রেডিট ঝুঁকি যেমন ডিগ্রী নির্ধারণ করার পরিবর্তে, "উচ্চ", "মাঝারি" বা "কম" হিসাবে আপনি কেবল দুটি - "ইস্যু" বা "প্রত্যাখ্যান" ব্যবহার করতে পারেন।

Datamining মধ্যে শ্রেণীবিভাগ জন্য, বিভিন্ন মডেল ব্যবহার করা হয়: নিউরাল নেটওয়ার্ক , গাছ সমাধান , যন্ত্রপাতি ভেক্টর, কে-নিকটতম প্রতিবেশীদের পদ্ধতি, লেপা অ্যালগরিদম ইত্যাদি, যখন একজন শিক্ষকের সাথে প্রশিক্ষণ দেওয়ার সময়, যখন আউটপুট পরিবর্তনশীল (ক্লাস লেবেল ) প্রতিটি পর্যবেক্ষণের জন্য সেট করুন। আনুষ্ঠানিকভাবে, বিভাগটি পার্টিশনের ভিত্তিতে তৈরি করা হয় স্পেস লক্ষণ এলাকায়, যা প্রতিটি মধ্যে বহুমাত্রিক ভেক্টর অভিন্ন হিসাবে বিবেচিত। অন্য কথায়, যদি বস্তু একটি নির্দিষ্ট ক্লাসের সাথে যুক্ত স্থানের ক্ষেত্রে পতিত হয় তবে এটি এটিকে বোঝায়।

ক্লাস্টারিং (ক্লাস্টারিং)

ছোট বিবরণ. ক্লাস্টারিং ধারণা একটি যৌক্তিক ধারাবাহিকতা

শ্রেণীবিভাগ। এই কাজটি আরও জটিল, ক্লাস্টারের বৈশিষ্ট্যটি হল বস্তুর ক্লাসগুলি প্রাথমিকভাবে পূর্বনির্ধারিত ছিল না। ক্লাস্টারিংয়ের ফলাফল গোষ্ঠীতে বিভাজন গোষ্ঠীর বিভাজন।

ক্লাস্টারিং সমস্যা সমাধানের পদ্ধতির উদাহরণ: একটি বিশেষ ধরনের নিউরাল নেটওয়ার্কগুলির একটি বিশেষ ধরনের একটি শিক্ষক ছাড়া "শেখা - স্ব-সংগঠিত কোহোনেন কার্ড।

এসোসিয়েশন (সমিতি)

ছোট বিবরণ. অ্যাসোসিয়েটেড নিয়ম অনুসন্ধানের কাজটি সমাধানের সময়, ডাটা সেটের সম্পর্কিত ইভেন্টগুলির মধ্যে নিয়মিত তথ্য পাওয়া যায়।

দুটি পূর্ববর্তী কাজগুলি থেকে এসোসিয়েশনের মধ্যে পার্থক্য: নিয়মিততার জন্য অনুসন্ধানটি বিশ্লেষণ করা বস্তুর বৈশিষ্ট্যগুলির উপর ভিত্তি করে সঞ্চালিত হয় না, তবে একযোগে ঘটে এমন কয়েকটি ইভেন্টের মধ্যে। অ্যাসোসিয়েটেড নিয়ম অনুসন্ধানের কাজটি সমাধানের জন্য সবচেয়ে বিখ্যাত অ্যালগরিদম - Apriori অ্যালগরিদম।

ক্রম বা ক্রমিক অ্যাসোসিয়েশন (sequentiassociation)

ছোট বিবরণ. ক্রম আপনি লেনদেনের মধ্যে অস্থায়ী নিদর্শন খুঁজে পেতে পারবেন। ক্রমটির কাজটি অ্যাসোসিয়েশনের অনুরূপ, তবে এর লক্ষ্যটি একযোগে আসন্ন ইভেন্টগুলির মধ্যে নিদর্শনগুলি স্থাপন করা, কিন্তু সময়ের সাথে সম্পর্কিত ঘটনাগুলির মধ্যে (অর্থাৎ, কিছু নির্দিষ্ট সময়ের ব্যবধানে সংঘটিত হয়) এর মধ্যে রয়েছে। অন্য কথায়, ক্রমটি চেইন-সম্পর্কিত ইভেন্টগুলির উচ্চ সম্ভাব্যতা দ্বারা নির্ধারিত হয়। আসলে, অ্যাসোসিয়েশনটি শূন্য সমান একটি অস্থায়ী ল্যাগের সাথে একটি ক্রম একটি বিশেষ ক্ষেত্রে। এই টাস্ক ডেটামিনিংটি ক্রমাগত টেমপ্লেটগুলি (sequentialpattern) খুঁজে বের করার কাজ বলা হয়।

ক্রম নিয়ম: একটি নির্দিষ্ট সময় পরে ইভেন্ট এক্স পরে, আপনি ঘটবে।

উদাহরণ। একটি অ্যাপার্টমেন্ট কেনার পর, দুই সপ্তাহের জন্য 60% ক্ষেত্রে ভাড়াটেরা রেফ্রিজারেটর অর্জন করে এবং দুই মাসের জন্য একটি টিভি 50% ক্ষেত্রে ক্রয় করা হয়। এই টাস্কের সমাধানটি বিপণন ও ব্যবস্থাপনায় ব্যাপকভাবে ব্যবহৃত হয়, উদাহরণস্বরূপ, গ্রাহকলিফেক্লমেন্যাগমেন্ট (গ্রাহকলিফেকমেনেজমেন্ট) পরিচালনা করার সময়।

 

প্রতিক্রিয়া, পূর্বাভাস (পূর্বাভাস)

ছোট বিবরণ. ঐতিহাসিক তথ্যগুলির বৈশিষ্ট্যগুলির ভিত্তিতে পূর্বাভাসের সমস্যার সমাধান হিসাবে, লক্ষ্য সংখ্যাসূচক সূচকগুলির মিস বা ভবিষ্যতের মানগুলি অনুমান করা হয়।

যেমন কাজগুলি সমাধান করার জন্য, গাণিতিক পরিসংখ্যান, নিউরাল নেটওয়ার্ক, ইত্যাদি পদ্ধতি ব্যাপকভাবে ব্যবহৃত হয়।

অতিরিক্ত কাজ

সংজ্ঞা deviationdection (deviationdection) , বিচ্যুতি বা নির্গমন বিশ্লেষণ

ছোট বিবরণ. এই টাস্কটি সমাধান করার উদ্দেশ্যটি ডেটা মোট ডেটা মোট সেট থেকে ডেটা সনাক্ত এবং বিশ্লেষণ করা, তথাকথিত uncharacteristic নিদর্শন চিহ্নিত করা।

অনুমান (অনুমান)

অনুমান টাস্ক ক্রমাগত লক্ষণ পূর্বাভাস হ্রাস করা হয়।

সম্পর্ক বিশ্লেষণ (linkanalysis)

ডেটা সেট নির্ভরতা খুঁজে পাওয়ার কাজ।

ভিজ্যুয়ালাইজেশন (ভিজ্যুয়ালাইজেশন, গ্রাফমিনিং)

ভিজ্যুয়ালাইজেশনের ফলে, বিশ্লেষণকৃত ডেটা গ্রাফিক চিত্র তৈরি করা হয়েছে। ভিজ্যুয়ালাইজেশন টাস্ক সমাধানের জন্য, গ্রাফিক পদ্ধতিগুলি ব্যবহার করা হয়, ডেটাতে নিদর্শনগুলির উপস্থিতি দেখানো হয়।

ভিজ্যুয়ালাইজেশান পদ্ধতির একটি উদাহরণ 2-ডি এবং 3-ডি মাত্রায় ডেটা উপস্থাপনা।

সারসংক্ষেপ (সারসংক্ষেপ)

টাস্ক যার উদ্দেশ্য বিশ্লেষণ ডেটা সেট থেকে বস্তুর নির্দিষ্ট গোষ্ঠীর একটি বর্ণনা।

উপরের শ্রেণির একটি কাছাকাছি একটি ডেটামিনিং টাস্ক ইউনিট নিম্নলিখিত: গবেষণা এবং আবিষ্কার, পূর্বাভাস এবং শ্রেণীবিভাগ, ব্যাখ্যা এবং বর্ণনা।

স্বয়ংক্রিয় গবেষণা এবং আবিষ্কার (বিনামূল্যে অনুসন্ধান)

উদাহরণ টাস্ক: নতুন বাজার সেগমেন্ট সনাক্তকরণ।

এই ক্লাস টাস্ক সমাধানের জন্য, ক্লাস্টার বিশ্লেষণ পদ্ধতি ব্যবহার করা হয়।

পূর্বাভাস এবং শ্রেণীবিভাগ

সমস্যা উদাহরণ উদাহরণ: বর্তমান মান উপর ভিত্তি করে বিক্রয় বৃদ্ধি পূর্বাভাস।

পদ্ধতি: প্রতিক্রিয়া, স্নায়বিক নেটওয়ার্ক, জেনেটিক অ্যালগরিদম, সমাধান গাছ।

শ্রেণীবিভাগ এবং পূর্বাভাসের কাজগুলি তথাকথিত আবর্তক মডেলিংয়ের একটি গোষ্ঠী গঠন করে, যার ফলে বিশ্লেষণ বস্তু বা সিস্টেমটি অধ্যয়ন করা হচ্ছে। একটি ডাটা সেটের উপর ভিত্তি করে এই কাজগুলি সমাধান করার প্রক্রিয়াতে, একটি সাধারণ মডেল বা হাইপোথিসিস উন্নত হচ্ছে।

ব্যাখ্যা এবং বর্ণনা

উদাহরণ সমস্যা: জনসংখ্যাতাত্ত্বিক তথ্য এবং শপিং গল্পের গ্রাহক বৈশিষ্ট্য।

পদ্ধতি: সিদ্ধান্তের গাছ, নিয়ম ব্যবস্থা, সমিতি নিয়ম, সংযোগ বিশ্লেষণ।

ক্লায়েন্টের আয় 50 টিরও বেশি শর্তাধীন ইউনিট, এবং তার বয়স 30 বছরেরও বেশি সময় ধরে, তাহলে ক্লায়েন্ট ক্লাসটি প্রথম।

ক্লাস্টারিং এবং শ্রেণীবিভাগের তুলনা

চরিত্রগত

শ্রেণীবিভাগ

ক্লাস্টারিং

শেখার দ্বারা নিয়ন্ত্রণ

নিয়ন্ত্রিত

অনিয়ন্ত্রিত

কৌশল

শিক্ষক সঙ্গে প্রশিক্ষণ

একটি শিক্ষক ছাড়া প্রশিক্ষণ

ক্লাস লেবেল প্রাপ্যতা

শিক্ষাগত সেট

ইঙ্গিত একটি লেবেল দ্বারা সংসর্গী

ক্লাস যা অন্তর্গত

পর্যবেক্ষণ

অধ্যয়ন ক্লাস ট্যাগ

অজানা সেট

শ্রেণীবিভাগ জন্য বেস

নতুন তথ্য একটি শেখার সেট ভিত্তিতে শ্রেণীবদ্ধ করা হয়।

উদ্দেশ্য জন্য তথ্য অনেক দেওয়া

অস্তিত্ব প্রতিষ্ঠা

ক্লাস বা তথ্য ক্লাস্টার

আবেদন ডেটামিনিং সুযোগ

এটি উল্লেখ করা উচিত যে আজকে ডেটামিনিং প্রযুক্তি ব্যবসার কাজ সমাধানে সর্বশ্রেষ্ঠ বন্টন পেয়েছে। সম্ভবত কারণটি হল যে এটি এই দিক থেকে ডেটামিনিং সরঞ্জামগুলি ব্যবহার থেকে ফেরত যেতে পারে, কিছু উত্স অনুসারে, 1000% পর্যন্ত এবং এর বাস্তবায়নের খরচ দ্রুত পরিশোধ করতে পারে।

আমরা প্রযুক্তির চারটি প্রধান অ্যাপ্লিকেশনগুলি বিস্তারিতভাবে বিবেচনা করবো: বিজ্ঞান, ব্যবসা, সরকার এবং ওয়েব নির্দেশের জন্য গবেষণা।

সমাধান করার জন্য আবেদন ডেটামিনিং ব্যবসা কাজ । প্রধান গন্তব্য: ব্যাংকিং, অর্থ, বীমা, সিআরএম, উৎপাদন, টেলিযোগাযোগ, ইলেকট্রনিক যোগাযোগ, বিপণন, মার্কেট বাজার এবং অন্যান্য।

  • ক্রেডিট ক্রেডিট হবে

  • বাজার বিভাজন

  • নতুন ক্লায়েন্ট আকর্ষণ

  • ক্রেডিট কার্ডের জালিয়াতি

আবেদন datamining জন্য রাষ্ট্র পর্যায়ে উদ্দেশ্য সমাধান । Salicening: ট্যাক্স evading ব্যক্তিদের জন্য অনুসন্ধান করুন; সন্ত্রাসবাদের বিরুদ্ধে যুদ্ধে তহবিল।

আবেদন datamining জন্য বৈজ্ঞানিক গবেষণা । প্রধান নির্দেশাবলী: মেডিসিন, জীববিজ্ঞান, আণবিক জেনেটিক্স এবং জেনেটিক ইঞ্জিনিয়ারিং, বায়োইনফর্মটিক্স, জ্যোতির্বিজ্ঞান, ফলিত রসায়ন, মাদকাসক্তির বিষয়ে গবেষণা, এবং অন্যান্যদের গবেষণা।

সমাধান করার জন্য আবেদন ডেটামিনিং ওয়েব কাজ । প্রধান গন্তব্য: অনুসন্ধান ব্যাগ (অনুসন্ধান ইঞ্জিন), কাউন্টার এবং অন্যান্য।

ইলেক্ট্রনিক বাণিজ্য

ই-কমার্স ডেটামিনিংয়ের ক্ষেত্রে গঠন করার জন্য প্রযোজ্য

ওয়েব সাইটগুলিতে দর্শকদের শ্রেণীবদ্ধকরণের কাজগুলির সুপারিশকারী সিস্টেম এবং সমাধান।

যেমন একটি শ্রেণীবিভাগ কোম্পানি গ্রাহকদের স্বার্থ এবং চাহিদা অনুযায়ী বিপণন নীতি পরিচালনা করতে পারবেন। ই-কমার্সের জন্য টেকনোলজি প্রযুক্তি ওয়েবম্যান প্রযুক্তির সাথে ঘনিষ্ঠভাবে সম্পর্কিত।

শিল্প উৎপাদন ডেটামিনিং প্রধান কাজ:

উৎপাদন পরিস্থিতিতে জটিল সিস্টেম বিশ্লেষণ;

উৎপাদন পরিস্থিতিতে উন্নয়নের জন্য স্বল্পমেয়াদী এবং দীর্ঘমেয়াদী পূর্বাভাস;

· অপ্টিমাইজেশান সমাধানগুলির জন্য বিকল্পগুলির উন্নয়ন;

· কিছু পরামিতি উপর নির্ভর করে পূর্বাভাস পণ্য মানের

প্রযুক্তিগত প্রক্রিয়া;

· লুকানো প্রবণতা এবং উৎপাদন নিদর্শন সনাক্তকরণ

প্রক্রিয়া;

উৎপাদন প্রক্রিয়া পূর্বাভাস নিদর্শন;

· প্রভাব লুকানো প্রভাব সনাক্তকরণ;

· মধ্যে পূর্বে অজানা interconnections সনাক্তকরণ এবং সনাক্তকরণ

উৎপাদন পরামিতি এবং প্রভাব ফ্যাক্টর;

উৎপাদন প্রক্রিয়া এবং পূর্বাভাসের মিথস্ক্রিয়া পরিবেশের বিশ্লেষণ

তার বৈশিষ্ট্য পরিবর্তন;

শিল্প ব্যবস্থাপনা জন্য অপ্টিমাইজেশান সুপারিশ উন্নয়ন

প্রক্রিয়া;

· বিশ্লেষণ ফলাফল কল্পনা, প্রাথমিক রিপোর্ট এবং প্রকল্প প্রস্তুতি

বৈধতা মূল্যায়ন এবং সম্ভাব্য বাস্তবায়ন দক্ষতা সঙ্গে অনুমতিযোগ্য সমাধান।

বিপণন

মার্কেটিংয়ের ক্ষেত্রে ডেটামাইনিংয়ের ক্ষেত্রে খুব ব্যাপক ব্যবহার খুঁজে বের করে।

মার্কেটিংয়ের মূল বিষয়গুলি "কী বিক্রি হয়?", "কিভাবে বিক্রি করবেন?", "কে

ভোক্তা? "

শ্রেণীবদ্ধকরণ এবং ক্লাস্টারিংয়ের কাজগুলির উপর বক্তৃতাগুলিতে, এটি ভোক্তা বিভাগের মতো বিপণন সমস্যাগুলির সমাধান করার জন্য ক্লাস্টার বিশ্লেষণের ব্যবহার বিস্তারিতভাবে বর্ণনা করে।

বিপণন সমস্যা সমাধানের জন্য পদ্ধতির আরেকটি সাধারণ সেট - অ্যাসোসিয়েটেড নিয়ম খোঁজার জন্য পদ্ধতি এবং অ্যালগরিদম।

এছাড়াও সফলভাবে এখানে অস্থায়ী নিদর্শন অনুসন্ধান করা হয়।

খুচরা বিক্রয়

খুচরো ক্ষেত্রে, মার্কেটিং হিসাবে, প্রযোজ্য:

অ্যাসোসিয়েটেড নিয়ম খুঁজে বের করার জন্য অ্যালগরিদম (ঘন ঘন সম্মুখীন সেট নির্ধারণ করতে

পণ্য যে ক্রেতা একই সময়ে কিনতে)। যেমন নিয়ম সনাক্তকরণ সাহায্য করে

ট্রেডিং হল এর তাকের উপর পণ্যগুলি কিনে, পণ্য কেনার কৌশল তৈরি করে

এবং গুদামে তাদের বসানো, ইত্যাদি

উদাহরণস্বরূপ, উদাহরণস্বরূপ, সময় নির্ধারণ করুন

স্টক পণ্য স্টক প্রয়োজনীয় ভলিউম।

গ্রুপ বা গ্রাহক বিভাগের জন্য শ্রেণীবিভাগ এবং ক্লাস্টারিং পদ্ধতি,

জ্ঞান যা পণ্য সফল প্রচার অবদান।

পুঁজিবাজার

এখানে স্টক মার্কেটের চ্যালেঞ্জের তালিকা রয়েছে, যা ডেটা প্রযুক্তি ব্যবহার করে সমাধান করা যেতে পারে

খনির: আর্থিক যন্ত্র এবং সূচকগুলির ভবিষ্যতের মূল্য পূর্বাভাস

অতীতের মান;

ট্রেন্ড পূর্বাভাস (ভবিষ্যতে আন্দোলন দিক - বৃদ্ধি, পতন, flet) আর্থিক

টুল এবং তার শক্তি (শক্তিশালী, মাঝারি শক্তিশালী, ইত্যাদি);

বাজারের ক্লাস্টার কাঠামোর নির্বাচন, শিল্প, সেক্টরগুলির জন্য কিছু সেটের জন্য

বৈশিষ্ট্য;

· ডাইনামিক পোর্টফোলিও ম্যানেজমেন্ট;

· অস্থিরতা পূর্বাভাস;

· ঝুকি মূল্যায়ন;

· সংকটের ঘটনার পূর্বাভাস এবং এর উন্নয়নের পূর্বাভাসের পূর্বাভাস;

সম্পদের নির্বাচন, ইত্যাদি

উপরে বর্ণিত ক্রিয়াকলাপগুলির পাশাপাশি, ডেটামিনিং প্রযুক্তি বিভিন্ন ধরণের ব্যবসায়িক এলাকায় প্রয়োগ করা যেতে পারে যেখানে ডেটা বিশ্লেষণের প্রয়োজন এবং কিছুটা বিপরীত তথ্য সংগ্রহ করে।

সিআরএম মধ্যে আবেদন datamining

ডেটামিনিং প্রয়োগের জন্য সবচেয়ে প্রতিশ্রুতিবদ্ধ দিকগুলির মধ্যে একটি হল বিশ্লেষণাত্মক সিআরএম এই প্রযুক্তির ব্যবহার।

সিআরএম (কাস্টমেরেলেশনশিপমেন্টমেন্ট) - গ্রাহক সম্পর্ক ব্যবস্থাপনা।

এই প্রযুক্তিগুলি ব্যবহার করার সময়, জ্ঞান খনির গ্রাহক ডেটা থেকে "অর্থের মাইনিং" দিয়ে মিলিত হয়।

বিপণন এবং বিক্রয় বিভাগের কাজ একটি গুরুত্বপূর্ণ দিক কম্পাইল করা হয় ক্লায়েন্টদের হোলিস্টিক উপস্থাপনা, তাদের বৈশিষ্ট্য, বৈশিষ্ট্য, ক্লায়েন্ট বেস গঠন সম্পর্কে তথ্য। সিআরএম তথাকথিত প্রোফাইলিং ব্যবহার করে গ্রাহকদের, যা গ্রাহকদের সম্পর্কে সমস্ত প্রয়োজনীয় তথ্যের সম্পূর্ণ উপস্থাপনা দেয়।

গ্রাহক প্রোফাইলিং নিম্নলিখিত উপাদানগুলি অন্তর্ভুক্ত করে: গ্রাহক বিভাজন, গ্রাহক মুনাফা, গ্রাহক ধারণ, গ্রাহক প্রতিক্রিয়া বিশ্লেষণ। এই উপাদানগুলির প্রতিটিটি ডেটামিনিং ব্যবহার করে অনুসন্ধান করা যেতে পারে এবং একটি সেটের মধ্যে তাদের বিশ্লেষণ ব্যবহার করে, যেমন প্রোফাইলিংয়ের উপাদান হিসাবে, সেই জ্ঞানটি দিতে পারে যা প্রতিটি ব্যক্তিগত চরিত্রগত থেকে প্রাপ্ত করা যায় না।

Webmining।

ওয়েবম্যানটি "ওয়েবের ডেটা মাইনিং" হিসাবে অনুবাদ করা যেতে পারে। WebIntellAGEN বা WEB।

ই-ব্যবসার দ্রুত বিকাশে বুদ্ধিটি "একটি নতুন অধ্যায় খুলতে" প্রস্তুত। প্রতিটি দর্শকের স্বার্থ এবং পছন্দগুলি নির্ধারণ করার ক্ষমতা ই-কমার্স বাজারে প্রতিযোগিতামূলক সংগ্রামের একটি গুরুতর এবং সমালোচনামূলক সুবিধা।

ওয়েবমিনিং সিস্টেমগুলি অনেক প্রশ্নের উত্তর দিতে পারে, উদাহরণস্বরূপ, দর্শকদের কাছ থেকে যারা একটি সম্ভাব্য ওয়েব-স্টোর ক্লায়েন্ট, ওয়েব-স্টোর ক্লায়েন্টগুলির কোন গোষ্ঠী সর্বশ্রেষ্ঠ আয় নিয়ে আসে, একটি নির্দিষ্ট পরিদর্শক বা দর্শকদের গোষ্ঠীর স্বার্থগুলি কী।

পদ্ধতি

পদ্ধতির শ্রেণীবিভাগ

দুই গ্রুপ পার্থক্য পদ্ধতি :

  • পরিসংখ্যান পদ্ধতি গড় সংশ্লেষ অভিজ্ঞতার ব্যবহারের উপর ভিত্তি করে, যা বিপরীত তথ্যগুলিতে প্রতিফলিত হয়;
  • সাইবারনেটিক পদ্ধতি অনেক বৈচিত্র্যময় গাণিতিক পন্থা গঠিত।

যেমন শ্রেণীবিভাগের অভাব: এবং পরিসংখ্যানগত, এবং সাইবারনেটিক অ্যালগরিদম বর্তমান পরিস্থিতি পর্যবেক্ষণের ফলাফলের সাথে পরিসংখ্যানগত অভিজ্ঞতার তুলনায় যারা বা অন্যথায় নির্ভর করে।

এই শ্রেণীবিভাগের সুবিধাটি ব্যাখ্যা করার জন্য তার সুবিধা - এটি প্রাথমিক পর্যবেক্ষণের অ্যারে (অপারেশনাল এবং বিপরীতমুখী) এর অ্যারে থেকে জ্ঞান নিষ্কাশন করার জন্য আধুনিক পদ্ধতির বর্ণনাটি ব্যবহার করা হয়। ডেটা মাইনিং কাজ।

উপরোক্ত গ্রুপ আরো বিস্তারিত বিবেচনা।

পরিসংখ্যানগত পদ্ধতি ডেটা মাইনিং

এগুলোতে পদ্ধতি চারটি সম্পর্কযুক্ত বিভাগে প্রতিনিধিত্ব করুন:

  • পরিসংখ্যানগত ডেটা প্রকৃতির প্রাথমিক বিশ্লেষণ (স্টেশন, স্বাভাবিকতা, স্বাধীনতা, অভিন্নতা, বিতরণ ফাংশনের ধরন, তার পরামিতি ইত্যাদি) এর পরিমাপের পরিদর্শন, তার পরামিতি ইত্যাদি);
  • সংযোগ সনাক্তকরণ আমি। আইন (রৈখিক এবং nonlinear রিগ্রেশন বিশ্লেষণ, পারস্পরিক সম্পর্ক, ইত্যাদি);
  • বহুমাত্রিক পরিসংখ্যান বিশ্লেষণ (রৈখিক এবং nonlinear বৈষম্য বিশ্লেষণ, ক্লাস্টার বিশ্লেষণ, উপাদান বিশ্লেষণ, ফ্যাক্টর বিশ্লেষণ, ইত্যাদি);
  • সময় সিরিজের উপর ভিত্তি করে গতিশীল মডেল এবং prognosis।

আর্সেনাল পরিসংখ্যানগত পদ্ধতি ডেটা মাইনিং চার দলের জন্য শ্রেণীবদ্ধ করা হয়। পদ্ধতি :

  1. বর্ণনামূলক বিশ্লেষণ এবং উৎস ডেটা বর্ণনা।
  2. সংযোগ বিশ্লেষণ (পারস্পরিক সম্পর্ক এবং প্রতিক্রিয়া বিশ্লেষণ, ফ্যাক্টর বিশ্লেষণ, বিক্ষোভ বিশ্লেষণ)।
  3. বহুমাত্রিক পরিসংখ্যান বিশ্লেষণ (উপাদান বিশ্লেষণ, বৈষম্য বিশ্লেষণ, বহুমাত্রিক প্রতিক্রিয়া বিশ্লেষণ, ক্যানোনিকাল সম্পর্ক, ইত্যাদি)।
  4. অস্থায়ী সিরিজ বিশ্লেষণ (গতিশীল মডেল এবং পূর্বাভাস) বিশ্লেষণ।

সাইবারনেটিক পদ্ধতি ডেটা মাইনিং

ডেটা মাইনিংয়ের দ্বিতীয় দিকটি অনেকগুলি পন্থা, কম্পিউটার গণিতের ধারণা এবং কৃত্রিম গোয়েন্দা তত্ত্বের ব্যবহার।

এই গ্রুপ যেমন অন্তর্ভুক্ত পদ্ধতি :

  • কৃত্রিম নিউরাল নেটওয়ার্ক (স্বীকৃতি, ক্লাস্টারিং, পূর্বাভাস);
  • বিবর্তনমূলক প্রোগ্রামিং (সহ। অ্যালগরিদম গ্রুপ অ্যাকাউন্টিং আর্গুমেন্ট পদ্ধতি);
  • জেনেটিক অ্যালগরিদম (অপ্টিমাইজেশান);
  • সহযোগী মেমরি (এনালগ, প্রোটোটাইপগুলির জন্য অনুসন্ধান করুন);
  • ঝাপসা যুক্তিবিজ্ঞান;
  • সমাধান গাছ;
  • বিশেষজ্ঞ জ্ঞান প্রক্রিয়াকরণ সিস্টেম।

পরবর্তী, উপস্থাপিত পদ্ধতির কিছু বিবেচনা করুন।

ক্লাস্টার বিশ্লেষণ

ক্লাস্টারিং এর উদ্দেশ্য বিদ্যমান কাঠামোর জন্য অনুসন্ধান করা হয়।

ক্লাস্টারিং একটি বর্ণনামূলক পদ্ধতি, এটি কোনও পরিসংখ্যানগত সিদ্ধান্ত নয়, তবে এটি অনুসন্ধান বিশ্লেষণ পরিচালনা করা এবং "ডেটা গঠন" অন্বেষণ করা সম্ভব করে।

"ক্লাস্টার" ধারণাটি অসম্মানিতভাবে নির্ধারিত হয়: প্রতিটি গবেষণায় তার "ক্লাস্টার"। ক্লাস্টার (ক্লাস্টার) এর ধারণাটি "ক্লাস্টার" হিসাবে অনুবাদ করা হয়, "গুচ্ছ"। ক্লাস্টার সাধারণ বৈশিষ্ট্য থাকা বস্তুর একটি গ্রুপ হিসাবে বর্ণনা করা যেতে পারে।

ক্লাস্টারের বৈশিষ্ট্যগুলি দুটি বৈশিষ্ট্য বলা যেতে পারে:

  • অভ্যন্তরীণ একতা;
  • বহিরাগত বিচ্ছিন্নতা।

অনেকগুলি কাজ সমাধানে বিশ্লেষকদের দ্বারা সংজ্ঞায়িত প্রশ্নটি কীভাবে ভিজ্যুয়াল স্ট্রাকচারে ডেটা সংগঠিত করা যায়, অর্থাৎ। শ্রেণীবিন্যাস প্রসারিত করুন।

প্রাথমিকভাবে জীববিজ্ঞান, নৃবিজ্ঞান, মনোবিজ্ঞান হিসাবে প্রাথমিকভাবে এই বিজ্ঞানের মধ্যে সর্বাধিক অ্যাপ্লিকেশন ক্লাস্টারিং। অর্থনৈতিক সমস্যাগুলির সমাধান করার জন্য, অর্থনৈতিক তথ্য এবং ঘটনাগুলির সুনির্দিষ্টতার কারণে ক্লাস্টারিং দীর্ঘ সময়ের জন্য ছোট ছিল।

ক্লাস্টারগুলি অ-কঠোর, বা একচেটিয়া (অ-ওভারল্যাপিং, একচেটিয়া) হতে পারে, এবং intersecting (overlapping) [22]।

এটি উল্লেখ করা উচিত যে বিভিন্ন ক্লাস্টার বিশ্লেষণ পদ্ধতির ব্যবহারের ফলে, বিভিন্ন আকারের ক্লাস্টার প্রাপ্ত করা যেতে পারে। উদাহরণস্বরূপ, "চেইন" টাইপের ক্লাস্টারগুলি দীর্ঘস্থায়ী "চেইনস", বর্ধিত আকৃতির ক্লাস্টারগুলির দ্বারা প্রতিনিধিত্ব করা হয়, এবং কিছু পদ্ধতি নির্বিচারে ক্লাস্টার তৈরি করতে পারে।

বিভিন্ন পদ্ধতি নির্দিষ্ট মাপের ক্লাস্টার তৈরি করার জন্য সংগ্রাম করতে পারে (উদাহরণস্বরূপ, ছোট বা বড়) বা তথ্যের একটি সেটের মধ্যে বিভিন্ন মাপের ক্লাস্টারগুলির উপস্থিতি অনুমান করতে পারে। ক্লাস্টার বিশ্লেষণের কিছু পদ্ধতি বিশেষত গোলমাল বা নির্গমনের জন্য সংবেদনশীল, অন্যরা কম। বিভিন্ন ক্লাস্টারিং পদ্ধতির ব্যবহারের ফলে, অসম ফলাফলগুলি প্রাপ্ত করা যেতে পারে, এটি স্বাভাবিক এবং এটি একটি বিশেষ অ্যালগরিদমের কাজের বৈশিষ্ট্য। একটি ক্লাস্টারিং পদ্ধতি নির্বাচন করার সময় এই বৈশিষ্ট্য বিবেচনা করা উচিত।

আমরা ক্লাস্টারিং এর পন্থা একটি সংক্ষিপ্ত বিবরণ উপস্থাপন।

পার্টিশনিংগরিথম ভিত্তিক অ্যালগরিদম, সহ। পুনরাবৃত্তি:

  • কে ক্লাস্টার উপর বস্তুর বিচ্ছেদ;
  • ক্লাস্টারিং উন্নত করতে বস্তুর পুনরাবৃত্তিমূলক পুনঃপ্রতিষ্ঠান।
  • হায়ারার্কিক্যাল অ্যালগরিদম (হায়ারার্খালগরিদম):
  • আগ্রাসন: প্রতিটি বস্তু প্রাথমিকভাবে একটি ক্লাস্টার, ক্লাস্টার,
  • একে অপরের সাথে সংযোগ, একটি বড় ক্লাস্টার, ইত্যাদি গঠন

বস্তু ঘনত্বের উপর ভিত্তি করে পদ্ধতি (ঘনত্ব-ভিত্তিক মেথডস):

  • বস্তুর সংযোগের সম্ভাবনা উপর ভিত্তি করে;
  • ইচ্ছাকৃত আকৃতি ক্লাস্টার খুঁজে, গোলমাল উপেক্ষা।

গ্রিড -পদ্ধতি (গ্রিড ভিত্তিক পদ্ধতি):

  • গ্রিড গঠন বস্তুর পরিমাণায়ন।

মডেল পদ্ধতি (মডেল ভিত্তিক):

  • ক্লাস্টার সবচেয়ে প্রাসঙ্গিক তথ্য খুঁজে পাওয়ার জন্য মডেল ব্যবহার করে।

ক্লাস্টার বিশ্লেষণ পদ্ধতি। পুনরাবৃত্তি পদ্ধতি।

একটি বড় সংখ্যা পর্যবেক্ষণ সঙ্গে, ক্লাস্টার বিশ্লেষণের অনুক্রমিক পদ্ধতি উপযুক্ত নয়। এই ক্ষেত্রে, অ-আইওনিক পদ্ধতিগুলি পৃথকীকরণের ভিত্তিতে ব্যবহার করা হয়, যা প্রাথমিক সমষ্টির পেষণ করার পুনরাবৃত্তি পদ্ধতি। বিভাজন প্রক্রিয়ার মধ্যে, স্টপ রুল সঞ্চালিত না হওয়া পর্যন্ত নতুন ক্লাস্টার গঠন করা হয়।

যেমন অ-এর erchical ক্লাস্টারিং নির্দিষ্ট সংখ্যক পৃথক ক্লাস্টার প্রতি তথ্য সেট আলাদা করা গঠিত। দুটি পন্থা আছে। প্রথমটি হল সোর্স ডেটা এর বহুমাত্রিক স্পেসে সবচেয়ে ঘন বিভাগ হিসাবে ক্লাস্টারগুলির সীমানা নির্ধারণ করা। একটি বৃহৎ "thickening পয়েন্ট" যেখানে ক্লাস্টার সংজ্ঞা। দ্বিতীয় পদ্ধতি পরিমাপ পার্থক্য কমানোর হয়

K-Middle Algorithm (কে-অর্থ)

কে-মাঝারি অ্যালগরিদমের অ-এর erchical পদ্ধতির মধ্যে সবচেয়ে সাধারণ, এছাড়াও বলা হয় দ্রুত ক্লাস্টার বিশ্লেষণ । অ্যালগরিদমের সম্পূর্ণ বিবরণ হার্টিগান এবং ওয়াং (হের্তিগানিংওয়ং, 1978) এ পাওয়া যাবে। হায়ারার্কিক্যাল পদ্ধতির বিপরীতে ক্লাস্টারগুলির সংখ্যা সম্পর্কিত প্রাথমিক অনুমানের প্রয়োজন নেই, সম্ভবত ক্লাস্টারগুলির সম্ভাব্য সংখ্যা সম্পর্কে অনুমান করা দরকার।

কে-গড় অ্যালগরিদম একে অপরের থেকে সম্ভাব্য দীর্ঘ দূরত্বে অবস্থিত কে ক্লাস্টার তৈরি করে। কে-গড় অ্যালগরিদমটি সমাধান করে এমন প্রধান ধরণের কাজগুলি হ'ল ক্লাস্টারের সংখ্যা সম্পর্কিত অনুমান (অনুমান) উপস্থিতি, যখন তারা যত তাড়াতাড়ি সম্ভব হওয়া উচিত। নম্বর কে এর পছন্দ পূর্ববর্তী গবেষণা, তাত্ত্বিক বিবেচনার বা অন্তর্দৃষ্টি ফলাফল উপর ভিত্তি করে হতে পারে।

অ্যালগরিদমের সামগ্রিক ধারণা: প্রদত্ত নির্দিষ্ট নম্বর কে পর্যবেক্ষণ ক্লাস্টারগুলি ক্লাস্টারগুলিতে ম্যাপ করা হয় যাতে ক্লাস্টারের গড় (সমস্ত ভেরিয়েবলগুলির জন্য) সর্বাধিক একে অপরের থেকে আলাদা।

আলগোরিদিম বর্ণনা

1. ক্লাস্টার অনুযায়ী বস্তুর প্রাথমিক বন্টন।

  • নম্বর কে নির্বাচিত হয়, এবং প্রথম ধাপে, এই পয়েন্টগুলি ক্লাস্টারের "কেন্দ্র" বলে মনে করা হয়।
  • প্রতিটি ক্লাস্টার এক কেন্দ্রের সাথে সামঞ্জস্যপূর্ণ।

নিম্নরূপ প্রাথমিক ভিত্তিতে নির্বাচন করা যেতে পারে:

  • প্রাথমিক দূরত্ব সর্বাধিক করতে কে-পর্যবেক্ষণের নির্বাচন;
  • কে পর্যবেক্ষণ র্যান্ডম নির্বাচন;
  • প্রথম কে-পর্যবেক্ষণ পছন্দ।

ফলস্বরূপ, প্রতিটি বস্তু একটি নির্দিষ্ট ক্লাস্টারকে বরাদ্দ করা হয়।

2. পুনরাবৃত্তি প্রক্রিয়া।

ক্লাস্টারের কেন্দ্রগুলি গণনা করা হয়, যা তারপর সমন্বয় মাধ্যম ক্লাস্টার বলে মনে করা হয়। বস্তু আবার redistributed হয়।

কেন্দ্রগুলি গণনা এবং বস্তুর পুনঃপ্রতিষ্ঠার প্রক্রিয়া চলতে থাকে যতক্ষণ না একটি শর্ত সন্তুষ্ট না হওয়া পর্যন্ত:

  • ক্লাস্টার সেন্টার স্থিতিশীল, I.E. সমস্ত পর্যবেক্ষণ বর্তমান পুনরাবৃত্তি অন্তর্গত ক্লাস্টার অন্তর্গত;
  • পুনরাবৃত্তি সংখ্যা পুনরাবৃত্তি সর্বোচ্চ সংখ্যা সমান।

চিত্রটি কে-মাঝারি আলগোরিদিমের অপারেশনের একটি উদাহরণ দেখায়।

কে-গড় অ্যালগরিদমের অপারেশনের একটি উদাহরণ (কে = 2)

ক্লাস্টার সংখ্যা পছন্দ একটি কঠিন প্রশ্ন। যদি এই সংখ্যা সম্পর্কে কোনও অনুমান না থাকে তবে এটি প্রাপ্ত ফলাফলগুলির তুলনা করে 2 ক্লাস্টার, তারপরে 3, 4, 5, ইত্যাদি তৈরি করার পরামর্শ দেওয়া হয়।

ক্লাস্টারিং মানের চেক

কে-গড় পদ্ধতি দ্বারা ক্লাস্টার বিশ্লেষণের ফলাফল পাওয়ার পর ক্লাস্টারিংয়ের সঠিকতা (আই.ই., একে অপরের থেকে কতটা ক্লাস্টারগুলি আলাদা আলাদা করে তা নির্ধারণ করা প্রয়োজন।

এর জন্য, প্রতিটি ক্লাস্টারের জন্য গড় মান গণনা করা হয়। ভাল ক্লাস্টারিংয়ের সাথে, অত্যন্ত বিভিন্ন গড় সমস্ত পরিমাপের জন্য বা অন্তত তাদের জন্য প্রাপ্ত করা আবশ্যক।

কে-মাঝারি অ্যালগরিদমের উপকারিতা:

  • সহজ ব্যবহার;
  • গতি ব্যবহার;
  • সুবিধার্থে এবং আলগোরিদিম স্বচ্ছতা।

কে-মাঝারি আলগোরিদিমের অসুবিধা:

  • অ্যালগরিদম গড় বিকৃত করতে পারেন যে নির্গমন খুব সংবেদনশীল।

এই সমস্যার সম্ভাব্য সমাধান হল অ্যালগরিদম অ্যালগরিদম K-Median সংশোধন করা হয়;

  • অ্যালগরিদম ধীরে ধীরে বড় ডাটাবেস কাজ করতে পারেন। এই সমস্যার সম্ভাব্য সমাধান তথ্য নমুনা ব্যবহার করা হয়।

Bayesian নেটওয়ার্ক

সম্ভাব্যতা তত্ত্বের মধ্যে, তথ্য নির্ভরতা ধারণাটি প্রচলিত নির্ভরতার মাধ্যমে (অথবা কঠোরভাবে: শর্তাধীন স্বাধীনতার অভাবের মাধ্যমে মডেল করা হয়েছে, যা বর্ণনা করে যে কোনও নির্দিষ্ট ইভেন্টের ফলাফলের ফলাফলগুলি কীভাবে ঘটনাগুলির একটি নতুন জ্ঞান গ্রহণের সময় আমাদের আস্থা প্রদান করে যে আমরা ইতিমধ্যে অন্যান্য তথ্য কিছু সেট পরিচিত আছে।

সুবিধামত এবং স্বতঃস্ফূর্তভাবে গ্রাফের এই উপাদানের সাথে সংযোগকারী একটি নির্দেশক পাথের মাধ্যমে উপাদানের মধ্যে নির্ভরতা বুঝতে পারে। যদি x এবং y উপাদানগুলির মধ্যে নির্ভরতা সরাসরি না থাকে এবং তৃতীয় উপাদান z এর মাধ্যমে সঞ্চালিত হয় তবে এটি যুক্তিযুক্ত যে EMERT Z এক্স এবং Y এর মধ্যে পথে থাকা হবে। যেমন মধ্যস্থতাকারী নোড এক্স এবং Y এর মধ্যে সম্পর্কের মধ্যে "কেটে ফেলা" হবে। প্রভাব সরাসরি প্রভাব ফ্যাক্টর একটি পরিচিত অর্থ সঙ্গে তাদের মধ্যে শর্তাধীন স্বাধীনতা পরিস্থিতি মডেল। যেমন মডেলিং ভাষা Bayesian নেটওয়ার্ক যা একটি নির্দিষ্ট বিষয় এলাকা ধারণার মধ্যে প্রচলিত নির্ভরতা বর্ণনা করতে পরিবেশন করা হয়।

Bayesian নেটওয়ার্কগুলি বিপুল সংখ্যক ভেরিয়েবলের মধ্যে সম্ভাব্য সম্পর্কের প্রতিনিধিত্বের জন্য গ্রাফিক কাঠামো এবং এই ভেরিয়েবলগুলির উপর ভিত্তি করে সম্ভাব্য আউটপুট বাস্তবায়নের জন্য। "সাইভ" (Bayesovskaya) শ্রেণীবিভাগটি শ্রেণীবদ্ধকরণের একটি মোটামুটি স্বচ্ছ এবং বোধগম্য পদ্ধতি। "বিনীত" এটিকে বলা হয় কারণ এটি পারস্পরিক অনুমান থেকে আসে লক্ষণ স্বাধীনতা।

শ্রেণীবিভাগ প্রোপার্টি:

1. সমস্ত ভেরিয়েবল ব্যবহার এবং তাদের মধ্যে সব নির্ভরতা সনাক্তকরণ।

2. ভেরিয়েবল সম্পর্কে দুটি অনুমানের প্রাপ্যতা:

  • সমস্ত ভেরিয়েবল সমান গুরুত্বপূর্ণ;
  • সমস্ত ভেরিয়েবল পরিসংখ্যানগতভাবে স্বাধীন, I.E. একটি অনুমোদিত মান অন্যের মান সম্পর্কে কিছুই বলে না।

Bayesian নেটওয়ার্ক ব্যবহার করার জন্য দুটি প্রধান স্ক্রিপ্ট আছে:

1. বর্ণনামূলক বিশ্লেষণ। বিষয়টি একটি গ্রাফ হিসাবে প্রদর্শিত হয়, এর নোডগুলি ধারণাগুলির প্রতিনিধিত্ব করে এবং তীর দ্বারা প্রদর্শিত নির্দেশমূলক আর্কগুলি এই ধারণাগুলির মধ্যে অবিলম্বে নির্ভরতাগুলিকে চিত্রিত করে। এক্স এবং Y ধারণাগুলির মধ্যে সম্পর্কের অর্থ: এক্স মূল্যের জ্ঞানটি Y এর মানটির আরো যুক্তিসঙ্গত অনুমান করতে সহায়তা করে। ধারণার মধ্যে সরাসরি সংযোগের অনুপস্থিতি তাদের মধ্যে "বিভাজন" ধারণাগুলির একটি নির্দিষ্ট সেটের পরিচিত মানগুলির সাথে শর্তসাপেক্ষ স্বাধীনতা সিমুলিয়েট করে। উদাহরণস্বরূপ, সন্তানের জুতাগুলির আকারটি স্পষ্টতই বয়সের মাধ্যমে পড়তে সন্তানের ক্ষমতার সাথে যুক্ত। সুতরাং, বড় ফুটেজটি গভীর আস্থা দেয় যে শিশুটি ইতিমধ্যে পড়ছে, কিন্তু যদি আমরা ইতিমধ্যে বয়সে পরিচিত থাকি, জুতাগুলির আকারের জ্ঞানটি আর সন্তানের ক্ষমতা সম্পর্কে আমাদের অতিরিক্ত তথ্য দিতে হবে না।

অন্যটি হিসাবে, বিপরীত, উদাহরণ, ধূমপান এবং ঠান্ডা হিসাবে প্রাথমিকভাবে সম্পর্কিত সম্পর্কযুক্ত কারণ বিবেচনা করুন। কিন্তু যদি আমরা উপসর্গের জন্য বিখ্যাত হব, উদাহরণস্বরূপ, একজন ব্যক্তি সকালের কাশিতে ভুগছেন, তাহলে একজন ব্যক্তি ধূমপান করেন না এমন জ্ঞানটি আমাদের আস্থা বাড়িয়ে দেয় যে একজন ব্যক্তি কেটে ফেলা হয়।

2. শ্রেণীবিভাগ এবং পূর্বাভাস। Bayesian নেটওয়ার্ক, বেশ কয়েকটি ধারণার শর্তাধীন স্বাধীনতা অনুমোদন, সমান্তরাল পরামিতি সংখ্যা কমাতে পারবেন, এটি উপলব্ধ তথ্য ভলিউমগুলিতে তাদের গোপনীয় মূল্যায়ন সম্ভব করে তোলে। সুতরাং, 10 ভেরিয়েবলগুলিতে, যা প্রতিটি 10 ​​টি মান নিতে পারে, সহযোগিতামূলক বিতরণ পরামিতিগুলির সংখ্যা 10 বিলিয়ন - 1. যদি আমরা অনুমান করি যে শুধুমাত্র ২ টি ভেরিয়েবল একে অপরের উপর নির্ভর করে, প্যারামিটার সংখ্যা 8 * (10-1) + (10 * 10-1) = 171. কম্পিউটেশনাল রিসোর্সের সাথে একটি কঠিন বন্টন মডেল রয়েছে, যেকোনো ধারণাটির একটি অজানা মান যা আমরা ভবিষ্যদ্বাণী করতে পারি, উদাহরণস্বরূপ, অন্যান্য ধারণাগুলির পরিচিত মূল্যের সাথে এই ধারণার সবচেয়ে বেশি মূল্য ।

একটি ডেটামিনিং পদ্ধতি হিসাবে বায়িসিয়ান নেটওয়ার্কগুলির সুবিধাগুলি নোট করে:

• মডেলগুলি সমস্ত ভেরিয়েবলের মধ্যে সম্পর্ককে সংজ্ঞায়িত করে, এটি এটিকে সহজ করে তোলে প্রক্রিয়া পরিস্থিতিতে যা নির্দিষ্ট ভেরিয়েবল অজানা হয়;

• Bayesian নেটওয়ার্ক সহজেই ব্যাখ্যা করা হয় এবং পর্যায়ে অনুমতি দেওয়া হয় Prognostic মডেলিং স্ক্রিপ্ট বিশ্লেষণ করা সহজ "যে যদি";

• Bayesian পদ্ধতি আপনি স্বাভাবিকভাবেই নিদর্শন একত্রিত করতে পারবেন, তথ্য থেকে প্রাপ্ত, এবং উদাহরণস্বরূপ, বিশেষজ্ঞ জ্ঞান স্পষ্টভাবে প্রাপ্ত;

• Bayesian নেটওয়ার্ক ব্যবহার reappection সমস্যা এড়াতে (overfitting), যে, মডেলের অপ্রয়োজনীয় জটিলতা, যা একটি দুর্বল দিক অনেক পদ্ধতি (উদাহরণস্বরূপ, সিদ্ধান্ত এবং স্নায়বিক নেটওয়ার্ক গাছ)।

Nao-Bayesovsky পদ্ধতির নিম্নলিখিত ত্রুটি আছে:

• সমস্ত ইনপুট যখন সঠিকভাবে শর্তাধীন সম্ভাব্যতা গুণ করুন ভেরিয়েবল সত্যিই পরিসংখ্যানগতভাবে স্বাধীন হয়; যদিও প্রায়ই এই পদ্ধতি পরিসংখ্যানগত অবস্থার সাথে অ-সম্মতি মধ্যে মোটামুটি ভাল ফলাফল দেখায় স্বাধীনতা, কিন্তু তাত্ত্বিকভাবে, এই ধরনের পরিস্থিতি আরো জটিল প্রক্রিয়া করা উচিত Bayesian নেটওয়ার্ক শিক্ষণ উপর ভিত্তি করে পদ্ধতি;

• ক্রমাগত ভেরিয়েবল অবিলম্বে প্রক্রিয়াকরণ সম্ভব নয় - তারা প্রয়োজন হয় বিচ্ছিন্ন হতে বৈশিষ্ট্যের ব্যবধানে রূপান্তর; যাইহোক, যেমন রূপান্তর কখনও কখনও উল্লেখযোগ্য নিদর্শন ক্ষতি হতে পারে;

• naive-bayesian পদ্ধতির শ্রেণীবিভাগের ফলে শুধুমাত্র প্রভাবিত ইনপুট ভেরিয়েবল পৃথক মান, দম্পতিরা মিলিত প্রভাব বা বিভিন্ন গুণাবলী মান troops এখানে অ্যাকাউন্টে নেওয়া হয় না। এটা উন্নত হতে পারে তার ভবিষ্যদ্বাণীপূর্ণ সঠিকতা শর্তে শ্রেণীবিভাগ মডেল মানের, তবে, প্রযোজ্য বিকল্প সংখ্যা বৃদ্ধি হবে।

কৃত্রিম নিউরাল নেটওয়ার্ক

কৃত্রিম নিউরাল নেটওয়ার্ক (তারপরে স্নায়বিক নেটওয়ার্ক) সিঙ্ক্রোনাস এবং অ্যাসিঙ্ক্রোনাস হতে পারে। সময়সীমার প্রতিটি মুহূর্তে সিঙ্ক্রোনাস নিউরাল নেটওয়ার্কে শুধুমাত্র তার অবস্থা পরিবর্তন করে এক নিউরন। অ্যাসিঙ্ক্রোনাসে - রাষ্ট্রটি একটি নিয়ম হিসাবে, নিউরনগুলির পুরো গোষ্ঠীতে অবিলম্বে পরিবর্তিত হয় স্তর। আপনি দুটি মৌলিক আর্কিটেকচার - স্তরযুক্ত এবং সম্পূর্ণ সংযুক্ত নেটওয়ার্কগুলি নির্বাচন করতে পারেন। স্তরযুক্ত নেটওয়ার্কের কী স্তরটির ধারণা। স্তরটি এক বা একাধিক নিউরন, যা ইনপুটগুলি একই সাধারণ সংকেত দ্বারা পরিবেশিত হয়। স্নায়ু নিউইয়র্ক নেটওয়ার্ক - স্নায়ু নেটওয়ার্কগুলি যা নিউরনগুলি পৃথক গোষ্ঠীতে (স্তর) মধ্যে ভাঙ্গা হয় যাতে তথ্য প্রক্রিয়াকরণ স্তরগুলিতে সঞ্চালিত হয়। আই-থ লেয়ারের নিউরনগুলির স্তরযুক্ত নিউরনগুলিতে, ইনপুট সিগন্যালগুলি প্রাপ্ত হয়, তাদের রূপান্তর করা হয় এবং শাখা পয়েন্টের মাধ্যমে নিউরনগুলিতে প্রেরণ করা হয় (i + 1) লেয়ারে প্রেরণ করা হয়। এবং তাই k-th স্তর আগে, যা দেয় ইন্টারপ্রেটার এবং ব্যবহারকারীর জন্য আউটপুট সংকেত। প্রতিটি স্তরে নিউরনের সংখ্যা অন্য স্তরে নিউরনের সংখ্যা সংশ্লিষ্ট নয় তার সাথে যুক্ত নয়। এক স্তরটির কাঠামোর মধ্যে, সমান্তরালভাবে সমান্তরালভাবে প্রক্রিয়া করা হয় এবং সমগ্র নেটওয়ার্কের স্কেলে, প্রক্রিয়াকরণটি ক্রমবর্ধমানভাবে সম্পন্ন হয় - লেয়ার থেকে লেয়ার পর্যন্ত। স্তরযুক্ত স্নায়বিক নেটওয়ার্কগুলি উদাহরণস্বরূপ, মাল্টি-লেয়ার পেরেকসিন্স, রেডিয়াল ভিত্তিতে ফাংশনগুলির নেটওয়ার্ক, কনজিট্রন, অ-জেইনিট্রন, অ্যাসোসিয়েটেট মেমরি নেটওয়ার্কগুলির নেটওয়ার্ক। যাইহোক, সংকেত সবসময় সব স্তর নিউরন খাওয়ানো হয় না। Clanitron মধ্যে, উদাহরণস্বরূপ, বর্তমান স্তরটির প্রতিটি নিউরন শুধুমাত্র পূর্বের স্তরটির কাছাকাছি নিউরনগুলির কাছ থেকে সংকেতগুলি গ্রহণ করে।

স্তরযুক্ত নেটওয়ার্কগুলি, পরিবর্তে, একক স্তর এবং মাল্টি-স্তরযুক্ত হতে পারে।

একক স্তর নেটওয়ার্ক - একটি স্তর গঠিত নেটওয়ার্ক।

Multilayer নেটওয়ার্ক - নেটওয়ার্ক বিভিন্ন স্তর থাকার।

একটি multilayer নেটওয়ার্কে, প্রথম স্তরটি ইনপুট বলা হয়, পরবর্তী - অভ্যন্তরীণ বা লুকানো, শেষ স্তর - আউটপুট। সুতরাং, ইন্টারমিডিয়েট স্তরগুলি একটি মাল্টিলেয়ার নিউরাল নেটওয়ার্কে সমস্ত স্তর, ইনপুট এবং আউটপুট ব্যতীত। নেটওয়ার্ক ইনপুট লেয়ার ইনপুট ডেটা, আউটপুট - আউটপুটের সাথে যোগাযোগ প্রয়োগ করে। সুতরাং, নিউরন ইনপুট, আউটপুট এবং লুকানো হতে পারে। ইনপুট লেয়ার ইনপুট নিউরনস (ইনপুটেনুরন) থেকে সংগঠিত হয়, যা তথ্য পায় এবং নেটওয়ার্কের লুকানো স্তরগুলির নিউরনের ইনপুটগুলিতে বিতরণ করে। লুকানো নিউরন (হুইনিউরন) নিউরাল নেটওয়ার্কের একটি লুকানো স্তর অবস্থিত একটি নিউরন। আউটপুট নিউরনস (আউটপুটুনিউরন), যার মধ্যে নেটওয়ার্কের আউটপুট স্তর সংগঠিত হয়, সমস্যা নিউরাল নেটওয়ার্ক ফলাফল।

সম্পূর্ণ নেটওয়ার্কে প্রতিটি নিউরন নিজেকে সহ অন্যান্য নিউরনের বাকি আউটপুট প্রেরণ করে। নেটওয়ার্কগুলির আউটপুটগুলি বেশ কয়েকটি নেটওয়ার্ক কার্যকরী চক্রের পরে সমস্ত বা কিছু নিউরন আউটপুট সংকেত হতে পারে।

সমস্ত ইনপুট সংকেত সব নিউরন খাওয়ানো হয়।

প্রশিক্ষণ নিউরাল নেটওয়ার্ক

স্নায়বিক নেটওয়ার্ক ব্যবহার করার আগে, এটি প্রশিক্ষিত করা আবশ্যক। স্নায়ু নেটওয়ার্ক শেখার প্রক্রিয়াটি একটি নির্দিষ্ট কাজের জন্য তার অভ্যন্তরীণ পরামিতিগুলি সামঞ্জস্য করা। নিউরাল নেটওয়ার্কের অ্যালগরিদমটি পুনরাবৃত্তি, এর পদক্ষেপগুলি epochs বা চক্র বলা হয়। যুগের শিক্ষার প্রক্রিয়ার মধ্যে একটি পুনরাবৃত্তি, শেখার সেট থেকে সব উদাহরণ উপস্থাপনা সহ এবং সম্ভবত, নিয়ন্ত্রণে প্রশিক্ষণের গুণমানটি পরীক্ষা করে দেখুন সেট। শেখার প্রক্রিয়া প্রশিক্ষণ নমুনা উপর সঞ্চালিত হয়। প্রশিক্ষণ নির্বাচনটিতে ইনপুট মান এবং ডেটা সেটের আউটপুট মানগুলির সাথে সম্পর্কিত। প্রশিক্ষণের সময়, নিউরাল নেটওয়ার্কটি প্রবেশদ্বার থেকে আউটপুট ক্ষেত্রগুলির কিছু নির্ভরতা খুঁজে পায়। সুতরাং, আমাদের একটি প্রশ্ন আছে - আমাদের কাছে কোন প্রবেশদ্বার ক্ষেত্র (লক্ষণ) ব্যবহার করতে nessesary। প্রাথমিকভাবে, পছন্দটি heuristically দ্বারা বাহিত হয়, আরও ইনপুট সংখ্যা পরিবর্তন করা যেতে পারে।

অসুবিধা ডেটা সেটের পর্যবেক্ষণের সংখ্যা সম্পর্কে একটি প্রশ্ন হতে পারে। এবং যদিও নির্দিষ্ট নিয়ম রয়েছে যা প্রয়োজনীয় সংখ্যক পর্যবেক্ষণ এবং নেটওয়ার্কের আকারের সম্পর্ককে বর্ণনা করে, তাদের আনুগত্য প্রমাণিত হয় না। প্রয়োজনীয় পর্যবেক্ষণের সংখ্যা সমাধান করা হচ্ছে জটিলতার উপর নির্ভর করে। লক্ষণগুলির সংখ্যা বৃদ্ধির সাথে সাথে, পর্যবেক্ষণের সংখ্যা nonlinearly বৃদ্ধি পায়, এই সমস্যাটি "মাত্রা অভিশাপ" বলা হয়। অপর্যাপ্ত পরিমাণ সঙ্গে তথ্য এটি একটি রৈখিক মডেল ব্যবহার করার জন্য সুপারিশ করা হয়।

একটি বিশ্লেষক নেটওয়ার্কের স্তরগুলির সংখ্যা এবং প্রতিটি স্তরের নিউরনের সংখ্যা নির্ধারণ করতে হবে। পরবর্তীতে, এমন মান এবং স্থানচ্যুতিগুলি বরাদ্দ করা যা সক্ষম হবে সমাধান ত্রুটি কমানোর। ওজন এবং অফসেট স্বয়ংক্রিয়ভাবে এইভাবে কনফিগার করা হয় যেমন পছন্দসই এবং আউটপুট সংকেত, যা শেখার ত্রুটি বলা হয়। নির্মিত স্নায়বিক নেটওয়ার্কের জন্য ত্রুটি শেখার তুলনা করে গণনা করা হয় সপ্তাহান্তে এবং টার্গেট (পছন্দসই) মান। ত্রুটি ফাংশন পার্থক্য থেকে উত্পন্ন হয়।

ত্রুটি ফাংশন একটি লক্ষ্য ফাংশন যা প্রক্রিয়াটিতে ক্ষুদ্রীকরণের প্রয়োজন। পরিচালিত স্নায়ু নেটওয়ার্ক। ত্রুটি ফাংশনটি ব্যবহার করে, আপনি প্রশিক্ষণের সময় স্নায়বিক নেটওয়ার্কের গুণমানটি অনুমান করতে পারেন। উদাহরণস্বরূপ, ত্রুটিগুলির স্কোয়ারের সমষ্টি প্রায়ই ব্যবহৃত হয়। এটি নিউরাল নেটওয়ার্ক লার্নিংয়ের গুণমানের উপর নির্ভর করে বিপরীত কাজটি সমাধান করার ক্ষমতা উপর নির্ভর করে।

স্নায়ু নেটওয়ার্ক ফিরে

নিউরাল নেটওয়ার্কে শেখার সময়, গুরুতর অসুবিধা প্রায়ই বলা হয় প্রক্রিয়াজাতকরণ সমস্যা (overfitting)। Pererauing, বা অত্যধিক বন্ধ সমন্বয় - অত্যধিক সঠিক স্নায়ু নেটওয়ার্ক একটি নির্দিষ্ট সেট প্রশিক্ষণ উদাহরণ যা নেটওয়ার্ক হারায় সাধারণীকরণ করার ক্ষমতা। খুব দীর্ঘ প্রশিক্ষণ, অপর্যাপ্ত সংখ্যা ক্ষেত্রে robustion শিক্ষাগত উদাহরণ বা নিউরাল নেটওয়ার্কের লিজড গঠন। ট্রেনিং (প্রশিক্ষণ) সেটের পছন্দের জন্য retraining হয় র্যান্ডম। শেখার প্রথম ধাপ থেকে, একটি ত্রুটি হ্রাস। উপরে ত্রুটি (টার্গেট ফাংশন) পরামিতি কমাতে পরবর্তী পদক্ষেপ শেখার সেট বৈশিষ্ট্য সমন্বয়। তবে, এটা ঘটে "সমন্বয়" একটি সংখ্যা সাধারণ নকশার অধীনে নয়, তবে এর নির্দিষ্ট অংশের অধীনে - শিক্ষাগত উপসেট। এই ক্ষেত্রে, পূর্বাভাসের নির্ভুলতা হ্রাস। নেটওয়ার্কের retraining মোকাবেলা বিকল্প এক - দুই জন্য প্রশিক্ষণ নমুনা বিভক্ত সেট (শেখার এবং পরীক্ষা)। শেখার সেট উপর, স্নায়ু নেটওয়ার্ক প্রশিক্ষণ ঘটে। পরীক্ষা সেট একটি নির্মিত মডেল দ্বারা চেক করা হয়। এই সেট intersect করা উচিত নয়। প্রতিটি ধাপে, মডেল পরামিতি পরিবর্তন, কিন্তু ধ্রুবক হ্রাস লক্ষ্য ফাংশন মান শেখার সেট উপর ঘটে। দুইজনকে বিভক্ত করার সময়, আমরা শিক্ষাগত সেটের উপরে পর্যবেক্ষণের সাথে সমান্তরালে পরীক্ষার সেটের পূর্বাভাসের ত্রুটিতে পরিবর্তনটি পর্যবেক্ষণ করতে পারি। কিছু প্রকার প্রগতির ত্রুটির সংখ্যা উভয় সেটের মধ্যে হ্রাস পায়। যাইহোক, উপর পরীক্ষার সেটে একটি নির্দিষ্ট পদক্ষেপ ত্রুটি বৃদ্ধি করতে শুরু করে, যখন শেখার সেটের ত্রুটি হ্রাস চলতে থাকে। এই মুহূর্তে retraining শুরু হতে বলে মনে করা হয়।

সরঞ্জাম ডেটামিনিং

ডেটামাইনিং ওয়ার্ল্ড সফটওয়্যার মার্কেটের সেক্টরের বিকাশ বিশ্বখ্যাত নেতা এবং নতুন উন্নয়নশীল কোম্পানিগুলি উভয়ই দখল করে নেয়। ডেটামিনিং সরঞ্জামগুলি একটি স্বাধীন আবেদন হিসাবে বা প্রধান পণ্য সরবরাহের হিসাবে প্রতিনিধিত্ব করা যেতে পারে। শেষ বিকল্প অনেক সফ্টওয়্যার বাজার নেতাদের দ্বারা বাস্তবায়িত হয়। সুতরাং, এটি ইতিমধ্যেই একটি ঐতিহ্য ছিল যে সার্বজনীন পরিসংখ্যান প্যাকেটগুলির বিকাশকারীরা পরিসংখ্যানগত বিশ্লেষণের ঐতিহ্যগত পদ্ধতিতে ডুবিয়ে ফেলে, প্যাকেজটিতে অন্তর্ভুক্ত সংজ্ঞা Datamining। Mentaipacekak. SPSS (SPSS, Clementine), পরিসংখ্যান (STATSOFT), SAS ইনস্টিটিউট (এসএএস এন্টারপ্রাইজ মিনার)। কিছু OLAP ডেভেলপাররা এছাড়াও ডেটামিনিং পদ্ধতিগুলির একটি সেট অফার করে, উদাহরণস্বরূপ, COGNOS পণ্যগুলির একটি পরিবার। DBMS কার্যকারিতায় ডেটামিং সমাধান সহ সরবরাহকারী আছে: এই মাইক্রোসফ্ট। (MicrosoftsQlServer। ), ওরাকল , আইবিএম। (Ibmintelligentminerfordata। )।

রেফারেন্স এর তালিকা

  1. আব্দাইভ এন। এম। ড্যাঙ্কো টিপি Ildemenov s.v. Kiselev A.D, "ব্যবসায়িক প্রসেসের reengineering। এমবিএ কোর্স, এম।: Eksmo, 2005. - 592 P। - (এমভিএ)
  1. আবদাইকভ এন। এম।, কিসেলভ এড। "কর্পোরেশন এবং বিজনেসে জ্ঞান পরিচালনার ব্যবস্থাপনা পুনর্নির্মাণ" - এম।: ইনফ্রা-এম, 2011.- 382 পি। - ISBN 978-5-16-004300-5.
  1. Barsegegian A.A., Kupriyanov এম।, Stepanenko ভি। ভি।, Chokhod.i। "পদ্ধতি এবং ডেটা বিশ্লেষণ মডেল: OLAP এবং ডেটা মাইনিং", সেন্ট পিটার্সবার্গে: BHV-Petersburg, 2004,336c।, ISBN 5-94157-522-x
  1. ড্যুক В।, Samoilenko. А।, "ডেটা মাইনিং। প্রশিক্ষণ কোর্স "সেন্ট পিটার্সবার্গে: পিটার, 2001, 386 সি।
  1. Chubukova I.A., অবশ্যই ডেটা মাইনিং, http://www.intuit.ru/department/database/datamining/
  1. ইয়ানহ। Witten, Eibe ফ্রাঙ্ক, মার্ক এ হল, মর্গান Kaufmann, ডেটা মাইনিং: প্রাকটিক্যাল মেশিন লার্নিং সরঞ্জাম এবং কৌশল (তৃতীয় সংস্করণ), ISBN 978-0-12-374856-0
  1. Petrushin ভি। এ। , খান এল।, মাল্টিমিডিয়া ডেটা মাইনিং এবং জ্ঞান আবিষ্কার

1. ডেটা মাইনিং কি?

ডেটা মাইনিং "খনির" বা "ডেটা খনন" হিসাবে অনুবাদ করা হয়। প্রায়শই ডেটা মাইনিংয়ের পাশে রয়েছে "ডেটাবেসে জ্ঞানের জ্ঞান" এবং "বুদ্ধিমান ডেটা বিশ্লেষণ" শব্দগুলি রয়েছে। তারা ডেটা মাইনিং সমার্থক বিবেচিত হতে পারে। এই সমস্ত শর্তের উত্থান তহবিল এবং ডেটা প্রসেসিং পদ্ধতির উন্নয়নে নতুন পালা নিয়ে যুক্ত।

1990 এর দশকের প্রথম দিকে, মনে হলো এই অঞ্চলে পরিস্থিতি পুনর্বিবেচনার কোন বিশেষ প্রয়োজন ছিল না। সবকিছু অ্যাপ্লিকেশন পরিসংখ্যান নামক দিকের অংশ হিসাবে একটি গাইড হিসাবে গিয়েছিলাম (উদাহরণস্বরূপ দেখুন, [1])। তাত্ত্বিক কনফারেন্স এবং সেমিনার পরিচালিত, বিশ্লেষণাত্মক গণনা দ্বারা আবৃত যারা চিত্তাকর্ষক নিবন্ধ এবং monographs লিখেছেন।

একই সময়ে, অনুশীলনকারীদের সর্বদা জানত যে বেশিরভাগ ক্ষেত্রেই রিয়েল সমস্যাগুলির সমাধান করার জন্য তাত্ত্বিক ব্যায়ামগুলি প্রয়োগ করার প্রচেষ্টাগুলি ফলহীন হতে পারে। কিন্তু সময়ের জন্য অনুশীলনকারীদের উদ্বেগ সম্পর্কে, বিশেষ মনোযোগ দিতে পারে না - তারা ছোট স্থানীয় ডেটাবেস প্রক্রিয়াকরণের তাদের ব্যক্তিগত সমস্যাগুলি সমাধান করে।

এবং কল রং। মানুষের উপর তথ্য রেকর্ডিং এবং সংরক্ষণের জন্য প্রযুক্তিগুলির উন্নতির সাথে সাথে বিভিন্ন ক্ষেত্রে ভূমিকম্পের প্রবাহের প্রবাহ প্রবাহিত হয়। কোন এন্টারপ্রাইজের কার্যকলাপ (বাণিজ্যিক, শিল্প, চিকিৎসা, বৈজ্ঞানিক, ইত্যাদি) এখন নিবন্ধন এবং তার ক্রিয়াকলাপের সমস্ত বিবরণের রেকর্ডিংয়ের সাথে রয়েছে। এই তথ্যের সাথে কী করতে হবে "এটি পরিষ্কার হয়ে গেছে যে উত্পাদনশীল প্রক্রিয়াকরণ ছাড়া, কাঁচা ডেটা প্রবাহের প্রবাহগুলি প্রয়োজনীয় ল্যান্ডফিল নয়।

যেমন পুনর্ব্যবহারযোগ্য জন্য আধুনিক প্রয়োজনীয়তা নির্দিষ্টতা নিম্নরূপ:

  • তথ্য একটি সীমাহীন ভলিউম আছে
  • তথ্য বৈচিত্র্যময় (পরিমাণগত, উচ্চ মানের, পাঠ্যক্রম)
  • ফলাফল নির্দিষ্ট এবং বোধগম্য হতে হবে।
  • কাঁচা তথ্য প্রক্রিয়াকরণের জন্য সরঞ্জামগুলি ব্যবহার করা সহজ হওয়া উচিত।

ঐতিহ্যবাহী গাণিতিক পরিসংখ্যান, দীর্ঘদিন ধরে, ডেটা বিশ্লেষণের জন্য প্রধান সরঞ্জাম দাবি করে, উদ্ভূত সমস্যাগুলির মুখে স্পষ্টভাবে উদ্ধার করা হয়। প্রধান কারণ - নমুনা উপর গড় ধারণা , কল্পিত মূল্যবোধের উপর অপারেশন (যেমন হাসপাতালে রোগীদের গড় তাপমাত্রা, রাস্তার মধ্যম উচ্চতা প্রাসাদ এবং শেকস ইত্যাদি গঠিত।)। গাণিতিক পরিসংখ্যানের পদ্ধতিগুলি প্রধানত প্রাক-প্রণয়ন করা অনুমান (যাচাই-চালিত ডেটা মাইনিং) এবং "মোটা-ডেটা মাইনিং) যা অপারেশন বিশ্লেষণাত্মক ডেটা প্রক্রিয়াকরণের ভিত্তিতে (অনলাইন বিশ্লেষণাত্মক প্রক্রিয়াজাতকরণ, OLAP) এর ভিত্তিতে গঠন করে।

ডেটা মাইনিংয়ের আধুনিক প্রযুক্তির ভিত্তি (ডিস্কামী-চালিত ডেটা মাইনিং) টেমপ্লেটগুলির ধারণা (নিদর্শন) প্রতিফলিত Fragments. তথ্য মাল্টিডাইমেনশনাল সম্পর্ক। এই টেমপ্লেটগুলি অস্বাভাবিক নিদর্শন তথ্য উপবিভাগ যা কম্প্যাক্টভাবে আকৃতির একটি পরিষ্কার মানুষের মধ্যে প্রকাশ করা যেতে পারে। টেমপ্লেটগুলির অনুসন্ধান পদ্ধতি দ্বারা তৈরি করা হয় যা নমুনার গঠন এবং বিশ্লেষণযুক্ত সূচকগুলির মানগুলির মানগুলির আকারের ফর্মের ফ্রেমওয়ার্কের জন্য সীমাবদ্ধ নয়। ডেটা মাইনিং ব্যবহার করার সময় যেমন একটি অনুসন্ধানের জন্য কাজগুলির উদাহরণ টেবিলে দেওয়া হয়। এক.

টেবিল 1. OLAP এবং ডেটা মাইনিং পদ্ধতি ব্যবহার করার সময় টাস্ক ওয়ার্ডিং এর উদাহরণ [2]

Olap। ডেটা মাইনিং।
ধূমপান এবং ধূমপান জন্য গড় আঘাতের কি কি? কি কারণে দুর্ঘটনা দ্বারা পূর্বাভাস ভবিষ্যদ্বাণী করা হয়?
প্রাক্তন ক্লায়েন্টদের অ্যাকাউন্টের তুলনায় বিদ্যমান ক্লায়েন্টের টেলিফোন অ্যাকাউন্টের গড় মাপ কী (টেলিফোন কোম্পানী দ্বারা প্রত্যাখ্যান) তুলনামূলকভাবে কী? কি বৈশিষ্ট্য গ্রাহকদের যারা, সব সম্ভাবনা আছে, একটি টেলিফোন কোম্পানির সেবা পরিত্যাগ করতে যাচ্ছেন?
চুরি করা দৈনিক ক্রয়ের গড় পরিমাণ কী এবং ক্রেডিট কার্ড চুরি করে না? কি কেনাকাটা স্কিম ক্রেডিট কার্ড জালিয়াতি চরিত্রগত?

ডেটা মাইনিংয়ের একটি গুরুত্বপূর্ণ অবস্থান যা চেয়েছিলেন টেমপ্লেটগুলির অ-তুচ্ছতা। এর মানে হল যে পাওয়া টেমপ্লেটগুলি তথাকথিত লুকানো জ্ঞান (লুকানো জ্ঞান) গঠনকারী ডেটাতে অ-সুস্পষ্ট, অপ্রত্যাশিত) নিয়মিততা প্রতিফলিত করা উচিত। সোসাইটি বুঝতে পেরেছে যে কাঁচা ডেটা (কাঁচা ডেটা) জ্ঞানের গভীর স্তর রয়েছে, যার একটি উপযুক্ত নুগেটগুলি সনাক্ত করা যেতে পারে (চিত্র 1)।

  কম (<)।

চিত্র 1. তথ্য থেকে প্রাপ্ত জ্ঞান মাত্রা

সাধারণভাবে, ডেটা মাইনিং প্রযুক্তি স্পষ্টভাবে Grigory Piatetsky-Shapiro নির্ধারণ করে - এই দিকটির প্রতিষ্ঠাতা:

ডেটা মাইনিং কাঁচা ডেটাতে একটি সনাক্তকরণ প্রক্রিয়া।

  • পূর্বে অজানা
  • অ-তুচ্ছ
  • কার্যকরীভাবে দরকারী
  • এবং সাশ্রয়ী মূল্যের জ্ঞান ব্যাখ্যা
  • বিভিন্ন ক্ষেত্রে সিদ্ধান্ত গ্রহণের জন্য প্রয়োজনীয়
  • মানুষের কার্যকলাপ.

জি। Piatetsky-Shapiro, জ্ঞান স্ট্রিম পার্টনার্স

2. এটা প্রয়োজন কে

ডেটা মাইনিংয়ের সুযোগটি কোনও সীমাবদ্ধ নয় - এটি সর্বত্র যেখানে কোনও তথ্য আছে। কিন্তু সর্বোপরি, আজকের ডেটা মাইনিং পদ্ধতিগুলি মৃদুভাবে এটি তৈরি করতে, বাণিজ্যিক উদ্যোগগুলি, ডেটা ভল্টস (ডেটা গুদাম) উপর ভিত্তি করে প্রকল্পগুলি স্থাপন করা। অনেকগুলি এন্টারপ্রাইজের অভিজ্ঞতা দেখায় যে ডেটা মাইনিংয়ের ব্যবহারে ফেরত 1000% পৌঁছাতে পারে। উদাহরণস্বরূপ, অর্থনৈতিক প্রভাবের রিপোর্ট, 10-70 বার প্রাথমিক খরচ 350 থেকে 750 হাজার ডলারের প্রাথমিক খরচ রয়েছে। [3]। ২0 মিলিয়ন ডলারের খসড়াটি সম্পর্কে তথ্য রয়েছে, যা মাত্র 4 মাসের মধ্যেই বন্ধ করে দিয়েছে। আরেকটি উদাহরণ 700 হাজার ডলারের বার্ষিক সঞ্চয়। যুক্তরাজ্যে ইউনিভার্সিএস নেটওয়ার্কে ডেটা মাইনিং বাস্তবায়ন করে।

ডেটা মাইনিং তাদের দৈনন্দিন ক্রিয়াকলাপে পরিচালকদের এবং বিশ্লেষকদের জন্য মহান মান। ব্যবসায়ীরা বুঝতে পেরেছিলেন যে ডেটা মাইনিং পদ্ধতির সাহায্যে তারা একটি প্রতিযোগিতামূলক সংগ্রামে বাস্তব সুবিধা পেতে পারে। সংক্ষিপ্তভাবে কিছু সম্ভাব্য ব্যবসায়িক অ্যাপ্লিকেশন ডেটা মাইনিং বর্ণনা করুন [2]।

2.1। কিছু ডেটা মাইনিং ব্যবসা অ্যাপ্লিকেশন

খুচরা বিক্রয়

খুচরা উদ্যোগ আজ একটি স্টোর ব্র্যান্ড এবং কম্পিউটারাইজড কন্ট্রোল সিস্টেমের সাথে ক্রেডিট কার্ড ব্যবহার করে প্রতিটি ব্যক্তিগত ক্রয় সম্পর্কে বিস্তারিত তথ্য সংগ্রহ করে। এখানে আপনি খুচরা সেক্টরে ডেটা মাইনিংয়ের সাহায্যে সমাধান করতে পারেন এমন সাধারণ কাজগুলি রয়েছে:

  • ক্রয় ঝুড়ি বিশ্লেষণ (সাদৃশ্য বিশ্লেষণ) ক্রেতারা একসাথে অর্জন করতে চায় এমন পণ্য সনাক্ত করার উদ্দেশ্যে করা হয়। শপিং ঝুড়ি জ্ঞান বিজ্ঞাপন উন্নত, পণ্য এবং ট্রেডিং হলগুলিতে তাদের লেআউটগুলির জন্য পণ্য এবং পদ্ধতির স্টক তৈরি করার কৌশলগুলি উন্নত করার জন্য প্রয়োজনীয়।
  • অস্থায়ী টেমপ্লেট অধ্যয়ন উদ্ভাবন সৃষ্টিতে সিদ্ধান্ত নেওয়ার জন্য উদ্যোগগুলি ট্রেডিং করতে সহায়তা করে। এটি এমন প্রশ্নগুলির উত্তর দেয় "যদি আজ ক্রেতা একটি ভিডিও ক্যামেরা অর্জন করেছে, তারপরে কোন সময় পরে এটি নতুন ব্যাটারী এবং চলচ্চিত্র" "
  • ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করা হচ্ছে এটি নির্দিষ্ট আচরণের সাথে বিভিন্ন বিভাগের গ্রাহকদের প্রয়োজনীয়তাগুলি শিখতে উদ্যোগগুলি বাণিজ্য করতে পারে, উদাহরণস্বরূপ, বিখ্যাত ডিজাইনারদের পণ্য কিনে বা বিক্রয়ের জন্য উপস্থিত। পণ্যগুলিকে উন্নীত করার জন্য যথাযথভাবে নির্দেশিত, কার্যকর কার্যকর ক্রিয়াকলাপগুলি বিকাশের জন্য এই জ্ঞান প্রয়োজন।

ব্যাংকিং.

ডেটা মাইনিং প্রযুক্তির অর্জনগুলি নিম্নলিখিত সাধারণ কাজগুলি সমাধানের জন্য ব্যাংকিংয়ে ব্যবহৃত হয়:

  • ক্রেডিট কার্ড জালিয়াতি সনাক্তকরণ । অতীতের লেনদেনের বিশ্লেষণ করে, যা পরবর্তীতে প্রতারণামূলক ছিল, এটি এই ধরনের জালিয়াতির কিছু স্টেরিওোটাইপ চিহ্নিত করে।
  • গ্রাহকদের বিভাজন । বিভিন্ন বিভাগে গ্রাহকদের বেকিং, ব্যাংকগুলি তাদের বিপণন নীতিগুলি আরও লক্ষ্যযুক্ত এবং দক্ষ, বিভিন্ন গ্রাহক গোষ্ঠীর বিভিন্ন ধরণের পরিষেবা সরবরাহ করে।
  • ক্লায়েন্ট পরিবর্তন পূর্বাভাস । ডেটা মাইনিং ব্যাংকগুলি তাদের গ্রাহকদের মূল্যের পূর্বাভাসপূর্ণ মডেল তৈরি করতে এবং সেই অনুযায়ী প্রতিটি বিভাগে পরিবেশন করতে সহায়তা করে।

টেলিযোগাযোগ

টেলিযোগাযোগের ক্ষেত্রে, ডেটা মাইনিং পদ্ধতিগুলি কোম্পানিগুলি তাদের বিপণন এবং মূল্যের প্রোগ্রামগুলি বিদ্যমান গ্রাহকদের ধারণ করার জন্য এবং নতুন আকর্ষণের জন্য তাদের বিপণন এবং মূল্যের প্রোগ্রামগুলি প্রচার করতে সহায়তা করে। সাধারণত ক্রিয়াকলাপের মধ্যে, আমরা নিম্নলিখিত নোট করি:

  • বিস্তারিত কল বৈশিষ্ট্য উপর রেকর্ড বিশ্লেষণ। এই ধরনের বিশ্লেষণের অ্যাপয়েন্টমেন্টটি তাদের পরিষেবাদি ব্যবহার এবং মূল্য এবং পরিষেবাদিগুলির আকর্ষণীয় সেটগুলির বিকাশের অনুরূপ স্টিরিওোটাইপগুলির সাথে ক্লায়েন্টদের বিভাগ সনাক্ত করা;
  • গ্রাহক আনুগত্য সনাক্তকরণ । গ্রাহকদের বৈশিষ্ট্যগুলি নির্ধারণ করতে ডেটা মাইনিং ব্যবহার করা যেতে পারে, যা একবার এই কোম্পানির পরিষেবার সুবিধা গ্রহণ করে, তার সাথে অনেকগুলি সম্ভাব্য থাকবে। ফলস্বরূপ, মার্কেটিংয়ের জন্য বরাদ্দকৃত তহবিলগুলি সেখানে ব্যয় করা যেতে পারে যেখানে রিটার্নটি সবচেয়ে বেশি।

বীমা.

বীমা কোম্পানি কয়েক বছরের জন্য প্রচুর পরিমাণে ডেটা জমা করে। এখানে ডেটা মাইনিং পদ্ধতির জন্য কার্যকলাপের একটি বিস্তৃত ক্ষেত্র রয়েছে:

  • জালিয়াতি সনাক্তকরণ । বীমা কোম্পানিগুলি আইনজীবি, ডাক্তার এবং আবেদনকারীদের মধ্যে সম্পর্ককে চিহ্নিত করার জন্য বীমা ক্ষতিপূরণ প্রদানের জন্য অ্যাপ্লিকেশনের নির্দিষ্ট স্টেরিওোটাইপগুলি সন্ধান করে জালিয়াতি স্তরকে কমাতে পারে।
  • ঝুঁকি বিশ্লেষণ । প্রদত্ত বিবৃতি সম্পর্কিত বিষয়গুলির সমন্বয়গুলি চিহ্নিত করে, বীমা প্রদানকারীরা তাদের ক্ষতিগুলি দায়ের করতে পারে। মার্কিন যুক্তরাষ্ট্রে একটি বড় বীমা কোম্পানির একটি বড় বীমা কোম্পানির একটি বড় বীমা সংস্থা পাওয়া গেছে যে, যারা একাকীত্বের মধ্যে দুবার বিয়ে করে তাদের বিবৃতিতে অর্থ প্রদান করে। পারিবারিক ক্লায়েন্টদের ডিসকাউন্ট প্রদানের জন্য কোম্পানিটি তার সাধারণ নীতির এই নতুন জ্ঞান সংশোধনকে প্রতিক্রিয়া জানিয়েছে।

ব্যবসা অন্যান্য অ্যাপ্লিকেশন

ডেটা মাইনিং অন্যান্য এলাকায় বিভিন্ন ব্যবহার করা যেতে পারে:

  • স্বয়ংচালিত শিল্প উন্নয়ন । গাড়িগুলি একত্রিত করার সময়, নির্মাতারা অবশ্যই প্রতিটি পৃথক ক্লায়েন্টের প্রয়োজনীয়তাগুলি বিবেচনা করতে হবে, তাই তাদের নির্দিষ্ট বৈশিষ্ট্যগুলির জনপ্রিয়তার পূর্বাভাস দেওয়ার ক্ষমতা এবং যা বৈশিষ্ট্যগুলি সাধারণত একসাথে নির্দেশ দেওয়া হয় তার জ্ঞানকে পূর্বাভাস দেওয়ার ক্ষমতা প্রয়োজন;
  • গ্যারান্টি নীতি । প্রস্তুতকারকদের অবশ্যই ক্লায়েন্টদের সংখ্যা পূর্বাভাস দিতে হবে যা ওয়্যারেন্টি অ্যাপ্লিকেশনগুলি পাঠানো হবে এবং অ্যাপ্লিকেশনের গড় মান;
  • ঘন ঘন উড়ন্ত গ্রাহকদের প্রচার । এয়ারলাইনস ক্লায়েন্টদের একটি গ্রুপ সনাক্ত করতে পারে যারা এই উদ্দীপক পদক্ষেপগুলিকে আরো উত্সাহিত করতে পারে। উদাহরণস্বরূপ, একটি বিমান সংস্থাটি গ্রাহকদের বিভাগটি খুঁজে পেয়েছিল, যারা ছোট দূরত্বের জন্য অনেক ফ্লাইট তৈরি করেছে, তাদের ক্লাবগুলিতে যোগ দেওয়ার জন্য পর্যাপ্ত মাইলগুলি জমায়েত না করে, তাই এটি ফ্লাইটের সংখ্যাটি পাশাপাশি মাইলের সংখ্যা উত্সাহিত করার জন্য ক্লাবের ভর্তি করার জন্য নিয়মগুলি পরিবর্তন করে।

2.2। বিশেষ অ্যাপ্লিকেশন

ঔষধ

অনেক বিশেষজ্ঞ সিস্টেম চিকিৎসা নির্ণয়ের গঠন পরিচিত হয়। তারা প্রধানত বিভিন্ন রোগের বিভিন্ন উপসর্গ সমন্বয় বর্ণনা নিয়ম ভিত্তিতে নির্মিত হয়। এই ধরনের নিয়মগুলির সাহায্যে, এটি কেবল অসুস্থ রোগীর চেয়েও স্বীকৃত নয়, তবে এটি কীভাবে আচরণ করা যায়। ডেটা মাইনিং প্রযুক্তি ইত্যাদির পূর্বাভাসের পূর্বাভাসের পূর্বাভাসের জন্য, চিকিত্সা পদ্ধতিগুলি পূর্বাভাস, চিকিত্সা পদ্ধতিগুলি পূর্বাভাসের শর্তগুলি পূর্বাভাসের শর্তগুলি পূর্বাভাসের জন্য, চিকিত্সার পদ্ধতিগুলি চিহ্নিত করুন, Testimanydications Orient- Contraindications Orient- Contraindications Contraindications, ORDISTIONDICes OREDSTION জন্য শর্তাবলী তৈরি করুন, ইত্যাদি ডেটা মাইনিং প্রযুক্তি আপনাকে টেমপ্লেটগুলি সনাক্ত করতে দেয়। এই নিয়ম ভিত্তি করে যে চিকিৎসা তথ্য।

আণবিক জেনেটিক্স এবং জেনেটিক ইঞ্জিনিয়ারিং

সম্ভবত সবচেয়ে তীব্র এবং একই সময়ে, পরীক্ষামূলক ডেটাতে নিদর্শন সনাক্ত করার কাজটি আণবিক জেনেটিক্স এবং জেনেটিক ইঞ্জিনিয়ারিংয়ে রয়েছে। এখানে তথাকথিত চিহ্নিতকারী নির্ধারণ করার জন্য এটি প্রণয়ন করা হয়, যার অধীনে জেনেটিক কোডগুলির অধীনে একটি জীবন্ত জীবের নির্দিষ্ট ফেনোটাইপিক লক্ষণগুলি বোঝা যায়। যেমন কোড শত শত, হাজার হাজার এবং আরো সম্পর্কিত উপাদান থাকতে পারে।

জেনেটিক স্টাডিজের উন্নয়নের জন্য বড় সরঞ্জাম বরাদ্দ করা হয়। সম্প্রতি, এই এলাকায় ডেটা মাইনিং পদ্ধতির ব্যবহারে বিশেষ আগ্রহ ছিল। মানুষের এবং গাছপালা জিনোম decipher করার জন্য এই পদ্ধতির প্রয়োগে বিশেষজ্ঞদের বিভিন্ন প্রধান সংস্থা রয়েছে।

ফলিত রসায়ন

ডেটা মাইনিং পদ্ধতি ব্যাপকভাবে প্রয়োগযোগ্য রসায়ন (জৈব এবং অজৈব) ব্যবহৃত হয়। তাদের বৈশিষ্ট্যগুলি সংজ্ঞায়িত নির্দিষ্ট যৌগের রাসায়নিক কাঠামোর বিশেষত্বগুলি খুঁজে বের করার প্রায়শই প্রশ্ন রয়েছে। এই কাজটি জটিল রাসায়নিক যৌগের বিশ্লেষণে বিশেষত প্রাসঙ্গিক, যার বর্ণনা শত শত এবং হাজার হাজার কাঠামোগত উপাদান এবং তাদের সংযোগ রয়েছে।

আপনি বিভিন্ন জ্ঞান এলাকায় আরও অনেক উদাহরণ দিতে পারেন যেখানে ডেটা মাইনিং পদ্ধতিগুলি একটি নেতৃস্থানীয় ভূমিকা পালন করে। এই এলাকার বিশেষত্ব তাদের জটিল সিস্টেম সংস্থা। তারা প্রধানত সিস্টেমের সংগঠনের SUPERSUBICESTEAL স্তর থেকে উল্লেখ করে [4], যা এর নিদর্শনগুলি পরিসংখ্যানগত বা অন্যান্য বিশ্লেষণাত্মক গাণিতিক মডেলের ভাষাতে যথেষ্টভাবে বর্ণনা করা যায় না [5]। এই এলাকায় তথ্য বৈচিত্র্যময়, বৈচিত্র্যময়, nonstationary এবং প্রায়ই উচ্চ মাত্রা দ্বারা চিহ্নিত করা হয়।

3. নিদর্শন ধরনের

পাঁচটি মান ধরণের নিদর্শন রয়েছে যা আপনাকে ডেটা মাইনিং পদ্ধতিগুলি সনাক্ত করার অনুমতি দেয়: সমিতি, ক্রম, শ্রেণীবিভাগ, ক্লাস্টারিং এবং পূর্বাভাস (চিত্র ২)।

  কম (<)।

চিত্র 2. ডেটা মাইনিং পদ্ধতি দ্বারা সনাক্ত নকশার ধরন

সংঘ বিভিন্ন ঘটনা একে অপরের সাথে সংযুক্ত যে ঘটনা ক্ষেত্রে ক্ষেত্রে। উদাহরণস্বরূপ, সুপারমার্কেট এ পরিচালিত একটি জরিপটি দেখাতে পারে যে 65% কোকা-ধারা কেনা চিপসও নেয়, এবং যদি এ ধরনের কিটের জন্য ছাড় থাকে তবে কোলাটি 85% ক্ষেত্রে অর্জিত হয়। যেমন একটি সমিতি সম্পর্কে তথ্য থাকার, পরিচালকদের দেওয়া ডিসকাউন্ট কার্যকর কার্যকর কিভাবে মূল্যায়ন করা সহজ।

সময় যুক্ত ঘটনা একটি চেইন আছে, তাহলে সম্পর্কে কথা বলুন sequences. । উদাহরণস্বরূপ, 45% ক্ষেত্রে একটি ঘর কেনার পরে, একটি মাসের মধ্যে একটি নতুন রান্নাঘর চুলা ক্রয় করা হয়, এবং দুই সপ্তাহের মধ্যে, 60% নিউকামারের সাথে একটি ফ্রিজের সাথে জব্দ করা হয়।

মাধ্যম শ্রেণীবিভাগ এক বা অন্য কোনটি গোষ্ঠীকে চিহ্নিত করে এমন গোষ্ঠীকে চিহ্নিত করা লক্ষণগুলি সনাক্ত করা হয়। এই ইতিমধ্যে শ্রেণীবদ্ধ বস্তু বিশ্লেষণ এবং একটি নির্দিষ্ট নিয়ম প্রণয়ন প্রণয়ন দ্বারা সম্পন্ন করা হয়।

ক্লাস্টারিং এটি শ্রেণীভুক্তি থেকে পৃথক করে যে গোষ্ঠীগুলি আগাম নির্দিষ্টভাবে উল্লেখ করা হয় না। ডেটা মাইনিং ক্লাস্টারিং ব্যবহার করে, বিভিন্ন একক তথ্য গ্রুপ স্বাধীনভাবে বরাদ্দ।

সিস্টেমের সব ধরণের জন্য ভিত্তি পূর্বাভাস এটি অস্থায়ী সিরিজের আকারে ডাটাবেসের মধ্যে সংরক্ষিত ঐতিহাসিক তথ্য হিসাবে কাজ করে। আপনি যদি টেমপ্লেটগুলি খুঁজে পেতে পরিচালনা করেন যা লক্ষ্যবস্তু আচরণের গতিশীলতা প্রতিফলিত করে, এমন একটি সুযোগ রয়েছে যা আপনি ভবিষ্যতে সিস্টেমের আচরণকে পূর্বাভাস দিতে পারেন।

4. ডেটা মাইনিং সিস্টেমের ক্লাস

ডেটা মাইনিং একটি বহুবিচিহ্ন এলাকা যা ফলিত পরিসংখ্যানের সাফল্যের ভিত্তিতে, চিত্রগুলির স্বীকৃতি, কৃত্রিম বুদ্ধিমত্তা, ডাটাবেস তত্ত্ব ইত্যাদি (চিত্র 3)। অতএব বিভিন্ন অপারেটিং ডেটা মাইনিং সিস্টেমে প্রয়োগ করা পদ্ধতি এবং অ্যালগরিদমগুলির প্রাচুর্য। এই সিস্টেমের অনেকে একবারে বিভিন্ন পন্থা সংহত করে। তবুও, একটি নিয়ম হিসাবে, প্রতিটি সিস্টেমের কিছু মূল উপাদান রয়েছে যা মূল হার তৈরি করা হয়। নীচে [6] ভিত্তিক নির্দিষ্ট মূল উপাদানগুলির শ্রেণীবিভাগটি [6] এর উপর ভিত্তি করে। নির্বাচিত ক্লাস একটি সংক্ষিপ্ত বিবরণ দেওয়া হয়।

  কম (<)।

চিত্র 3. ডেটা মাইনিং - মাল্টিডিসিপ্লিনারি এলাকা

  কম (<)।

চিত্র 4. ডেটা মাইনিং জন্য জনপ্রিয় পণ্য

4.1। স্বাধীন ভিত্তিক বিশ্লেষণাত্মক সিস্টেম

বিষয় ভিত্তিক বিশ্লেষণাত্মক সিস্টেম খুব বৈচিত্র্যময়। আর্থিক বাজারের ক্ষেত্রে বিতরণ করা হয়েছে এমন সিস্টেমগুলির সর্বাধিক উপসর্গগুলি "প্রযুক্তিগত বিশ্লেষণ" বলা হয়। এটি বাজার গতিবিদ্যাগুলির বিভিন্ন পরীক্ষামূলক মডেলের উপর ভিত্তি করে মূল্য গতিবিদ্যা এবং বিনিয়োগ পোর্টফোলিওর সর্বোত্তম কাঠামোর পছন্দের জন্য কয়েক ডজন পদ্ধতির সমন্বয়। এই পদ্ধতিগুলি প্রায়শই একটি সহজ পরিসংখ্যানগত যন্ত্রপাতি ব্যবহার করে, তবে সর্বশ্রেষ্ঠভাবে বর্তমান নির্দিষ্টতা (পেশাদার ভাষা, বিভিন্ন সূচী ইত্যাদি) অ্যাকাউন্টে গ্রহণ করে। বাজারে এই ক্লাসের অনেক প্রোগ্রাম আছে। একটি নিয়ম হিসাবে, তারা বরং সস্তা (সাধারণত $ 300-1000) হয়।

4.2। পরিসংখ্যানগত প্যাকেজ

প্রায় সমস্ত পরিচিত পরিসংখ্যানগত প্যাকেজগুলির সর্বশেষ সংস্করণগুলি ঐতিহ্যগত পরিসংখ্যানগত পদ্ধতিগুলির সাথেও ডেটা মাইনিং উপাদানগুলির সাথে অন্তর্ভুক্ত। কিন্তু তাদের ফোকাস একই শাস্ত্রীয় পদ্ধতিতে দেওয়া হয় - পারস্পরিক সম্পর্ক, প্রতিক্রিয়া, ফ্যাক্টর বিশ্লেষণ এবং অন্যদের। পরিসংখ্যানগত বিশ্লেষণের জন্য প্যাকেটগুলির সবচেয়ে সাম্প্রতিক বিশদ বিবরণটি CEMI পৃষ্ঠাগুলিতে সরবরাহ করা হয়। এই ক্লাস সিস্টেমগুলির অসুবিধা বিশেষ ব্যবহারকারীর প্রস্তুতির জন্য প্রয়োজনীয়তা বিবেচনা করে। এটা উল্লেখ করা হয়েছে যে শক্তিশালী আধুনিক পরিসংখ্যানগত প্যাকেজগুলি অর্থ ও ব্যবসায়ের মধ্যে ভর অ্যাপ্লিকেশনের জন্য খুব ভারী। উপরন্তু, এই সিস্টেমগুলি প্রায়শই ব্যয়বহুল - $ 1,000 থেকে $ 15,000 পর্যন্ত।

পরিসংখ্যানগত প্যাকেজগুলির একটি এমনকি আরও গুরুতর মূল অভাব রয়েছে, যা ডেটা মাইনিংয়ে তাদের আবেদন সীমিত করে। প্যাকেজগুলি তৈরি করে এমন বেশিরভাগ পদ্ধতি পরিসংখ্যানগত প্যারাডিজমের উপর ভিত্তি করে তৈরি করা হয়, যার মধ্যে নমুনার গড় বৈশিষ্ট্যগুলি প্রধান প্রতিবাদী। এবং এই বৈশিষ্ট্যগুলি উপরে উল্লেখিত, প্রকৃত জটিল জীবনযাত্রার গবেষণায় প্রায়শই কল্পিত মান রয়েছে।

সবচেয়ে শক্তিশালী এবং সাধারণ পরিসংখ্যানগত প্যাকেজগুলির উদাহরণ হিসাবে, এসএএস (এসএএস ইনস্টিটিউট), SPSS (SPSS), স্ট্যাটগ্র্যাপিক্স (ম্যানগক্স্টিক্স), পরিসংখ্যান, স্টেডিয়া এবং অন্যান্যকে বলা যেতে পারে।

4.3। নিউরাল নেটওয়ার্ক

এটি একটি বড় শ্রেণির একটি বড় শ্রেণী যার আর্কিটেকচারের নিউরন টিস্যু নির্মাণের সাথে একটি সাদৃশ্য রয়েছে (এখন পরিচিত, বরং দুর্বল) রয়েছে। সবচেয়ে সাধারণ আর্কিটেকচারগুলির মধ্যে একটিতে, বিপরীত ত্রুটির সাথে একটি মাল্টি-লেয়ার পেরেকটিন, হায়ারার্কিক্যাল নেটওয়ার্ক গঠনে নিউরনের ক্রিয়াকলাপটি সিমুলেটেড, যেখানে প্রতিটি উচ্চ স্তরের নিউরন অন্তর্নিহিত লেয়ার নিউরনের আউটপুটগুলির সাথে তার ইনপুটগুলির দ্বারা সংযুক্ত থাকে । নিম্ন স্তরের নিউরনগুলি ইনপুট প্যারামিটারগুলির মানগুলি খাওয়ানো হয়, যার ভিত্তিতে আপনাকে কোনও সিদ্ধান্ত নেওয়ার প্রয়োজন, পরিস্থিতির বিকাশের পূর্বাভাস ইত্যাদি। পরবর্তীতে প্রেরিত সংকেত হিসাবে বিবেচিত হয় স্তর, ঘূর্ণায়মান বা সংখ্যাসূচক মান (ওজন) উপর নির্ভর করে অভ্যন্তরীণ বন্ডের উপর নির্ভর করে। ফলস্বরূপ, উপরের স্তরের নিউরনের আউটপুটে, একটি নির্দিষ্ট মান উত্পাদিত হয়, যা প্রতিক্রিয়া হিসাবে বিবেচিত হয় - সমগ্র নেটওয়ার্কের প্রতিক্রিয়া প্রবেশ করানো ইনপুট প্যারামিটার মানগুলিতে প্রতিক্রিয়া। ভবিষ্যতে নেটওয়ার্ক ব্যবহার করার জন্য, এটি প্রথম প্রাপ্ত ডেটাতে "প্রশিক্ষিত" হতে হবে যার জন্য ইনপুট প্যারামিটার মানগুলিও পরিচিত এবং তাদের সঠিক উত্তরগুলিও পরিচিত। প্রশিক্ষণ ইন্টার-লাইন সংযোগগুলির স্কেলগুলির নির্বাচনে রয়েছে যা সঠিক উত্তরগুলিতে নেটওয়ার্ক প্রতিক্রিয়াগুলির সর্বশ্রেষ্ঠ প্রক্সিমিটি নিশ্চিত করে।

নিউরাল নেটওয়ার্ক প্যারাডিজমের প্রধান অসুবিধাটি প্রশিক্ষণের নমুনার একটি খুব বড় পরিমাণের প্রয়োজন। আরেকটি উল্লেখযোগ্য ত্রুটি হল যে প্রশিক্ষিত স্নায়বিক নেটওয়ার্ক এমনকি একটি কালো বাক্স। কয়েকশত অভ্যন্তরীণ সংযোগের ওজন হিসাবে রেকর্ড করা জ্ঞানটি একজন ব্যক্তির দ্বারা সম্পূর্ণরূপে অনির্দিষ্ট এবং ব্যাখ্যা (কনফিগার করা নিউরাল নেটওয়ার্ক কনফিগারেশনটির কাঠামোর ব্যাখ্যা করার জন্য পরিচিত প্রচেষ্টা - "Kinosuite-PR" সিস্টেম)।

নিউরাল নেটওয়ার্ক সিস্টেমের উদাহরণ - Brainmaker (CSS), Neurroshell (ওয়ার্ড সিস্টেম গ্রুপ), পেঁচা (হাইপারলগিক)। তাদের খরচ বেশ উল্লেখযোগ্য: $ 1500-8000।

  কম (<)।

চিত্র 5. বহুবচন স্নায়ু

4.4। অনুরূপ ক্ষেত্রে উপর ভিত্তি করে যুক্তি সিস্টেম

কেস ভিত্তিক যুক্তিযুক্ত সিস্টেমের ধারণা - CBR - প্রথম নজরে অত্যন্ত সহজ। ভবিষ্যতের জন্য পূর্বাভাস দেওয়ার জন্য বা সঠিক সমাধানটি নির্বাচন করার জন্য, এই সিস্টেমগুলি নগদ পরিস্থিতির কাছাকাছি ঘনত্বের সাথে যুক্ত হয় এবং একই উত্তরটি নির্বাচন করে যা তাদের জন্য সঠিক ছিল। অতএব, এই পদ্ধতিটি নিকটতম প্রতিবেশী (নিকটতম প্রতিবেশী) পদ্ধতি বলা হয়। সম্প্রতি, প্রচারগুলি মেমরি ভিত্তিক যুক্তি শব্দটিও পেয়েছে, যা মেমরির মধ্যে সংগৃহীত সমস্ত তথ্যের ভিত্তিতে সিদ্ধান্তটি জোর দেয়।

CBR সিস্টেমগুলি বিভিন্ন ধরণের কাজগুলিতে বেশ ভাল ফলাফল দেখায়। প্রধান বিয়োগটি হল যে তারা পূর্ববর্তী অভিজ্ঞতার সাধারণীকরণের কোনও মডেল বা নিয়মগুলি তৈরি করে না - একটি সমাধান বেছে নেওয়ার ক্ষেত্রে তারা উপলব্ধ ঐতিহাসিক ডেটা সমগ্র অ্যারের উপর ভিত্তি করে, তাই বিশেষভাবে, কারণগুলির ভিত্তিতে এটি বলতে অসম্ভব সিবিআর সিস্টেম তাদের উত্তর নির্মাণ করা হয়।

আরেকটি বিয়োগ সালিসি মধ্যে অবস্থিত, যা একটি "প্রক্সিমিটি" পরিমাপ নির্বাচন করার সময় CBR সিস্টেমগুলিকে অনুমতি দেয়। এই পরিমাপ থেকে, উদাহরণগুলির সেটগুলির পরিমাণ, যা একটি সন্তোষজনক শ্রেণীবিভাগ বা পূর্বাভাস বা পূর্বাভাস অর্জনের জন্য মেমরিতে সংরক্ষণ করা দরকার [7] এই পরিমাপের উপর নির্ভর করে।

সিবিআর ব্যবহার করে সিস্টেমের উদাহরণ, - কেট টুলস (অ্যাককোসোসফ্ট, ফ্রান্স), প্যাটার্ন স্বীকৃতি ওয়ার্কবচ (ইউনিকো, মার্কিন যুক্তরাষ্ট্র)।

4.5। সিদ্ধান্ত গাছ

সিদ্ধান্তের গাছগুলি ডেটা মাইনিং কাজগুলির সবচেয়ে জনপ্রিয় পন্থাগুলির মধ্যে একটি। তারা "যদি ... তারপর ..." (যদি-) একটি গাছের দৃশ্য ধারণ করার নিয়ম শ্রেণিবদ্ধ করার একটি অনুক্রমিক কাঠামো তৈরি করে। একটি সিদ্ধান্ত নেওয়ার জন্য, কোন শ্রেণীটি কিছু বস্তু বা পরিস্থিতির বৈশিষ্ট্য দেয়, এটি তার রুট দিয়ে শুরু হওয়া এই গাছের নোডগুলিতে দাঁড়িয়ে থাকা প্রশ্নগুলির উত্তর দিতে হবে। প্রশ্নগুলি "প্যারামিটার মান এক্স এর চেয়ে বড়" ফর্ম আছে। যদি উত্তরটি ইতিবাচক হয় তবে নিম্নোক্ত স্তরের ডান নোডের রূপান্তর, যদি নেতিবাচক হয় তবে বাম নোডের কাছে; তারপর আবার প্রশ্ন সংশ্লিষ্ট নোডের সাথে যুক্ত।

পদ্ধতির জনপ্রিয়তা স্বচ্ছতা এবং পরিষ্কারতার সাথে যুক্ত। কিন্তু সিদ্ধান্তগুলি গাছগুলি মূলত ডেটাতে "সেরা" (সর্বাধিক সম্পূর্ণ এবং সঠিক) নিয়মগুলি খুঁজে পেতে সক্ষম নয়। তারা লক্ষণীয় দৃষ্টিভঙ্গি এবং "cling" এর সাদৃশ্য নীতি বাস্তবায়ন করে এবং এই নিদর্শনগুলির টুকরাগুলি কেবলমাত্র লজিক্যাল আউটপুটের বিভ্রম তৈরি করে।

একই সময়ে, বেশিরভাগ সিস্টেম এই পদ্ধতিটি ব্যবহার করে। সবচেয়ে বিখ্যাত See5 / C5.0 (রিচার্টি, অস্ট্রেলিয়া), Clementine (ইন্টিগ্রেল সমাধান, যুক্তরাজ্য), SIPINA (লিয়ন অফ ইউনিভার্সিটি, ফ্রান্স), আইডিআইএস (ইনফরমেশন ডিসকভারি, মার্কিন যুক্তরাষ্ট্র), জ্ঞানীগিরি (অ্যাঙ্গস, কানাডা)। এই সিস্টেমের খরচ 1 থেকে 10 হাজার ডলার থেকে পরিবর্তিত হয়।

  কম (<)।

চিত্র 6. জ্ঞানী Ggekeer সিস্টেম ব্যাংকিং তথ্য প্রক্রিয়া

4.6। বিবর্তনীয় প্রোগ্রামিং

আমরা Polyianalyst - গার্হস্থ্য উন্নয়ন সিস্টেমের উদাহরণ ব্যবহার করে এই পদ্ধতির বর্তমান অবস্থাটিকে চিত্রিত করি, যা ডেটা মাইনিং বাজারে সাধারণ স্বীকৃতি পেয়েছে। এই সিস্টেমে, অন্যান্য ভেরিয়েবল থেকে টার্গেট পরিবর্তনশীলতার নির্ভরতাটির ফর্ম সম্পর্কে হাইপোথিসিস কিছু অভ্যন্তরীণ প্রোগ্রামিং ভাষাতে প্রোগ্রাম হিসাবে প্রণয়ন করা হয়। প্রোগ্রামের জগতে বিবর্তন হিসাবে বিল্ডিং প্রোগ্রামের প্রক্রিয়া তৈরি করা হয়েছে (এই পদ্ধতিটি জেনেটিক অ্যালগরিদমগুলির তুলনায় সামান্য)। যখন সিস্টেমটি একটি প্রোগ্রাম খুঁজে বের করে, তখন কম বা কম সন্তোষজনকভাবে ব্যয়বহুল নির্ভরশীলতা প্রকাশ করে, এটিতে ক্ষুদ্র পরিবর্তনগুলি তৈরি করতে শুরু করে এবং সঠিকতা বৃদ্ধি করে এমন নির্মিত উপদেষ্টাদের মধ্যে নির্বাচন করে। সুতরাং, সিস্টেমটি "বৃদ্ধি পায়" প্রোগ্রামগুলির বিভিন্ন জেনেটিক লাইন যা পছন্দসই নির্ভরতার প্রকাশের নির্ভুলতার মধ্যে একে অপরের সাথে প্রতিদ্বন্দ্বিতা করে। Polyianalyst বিশেষ মডিউলটি সিস্টেমের অভ্যন্তরীণ ভাষা থেকে ব্যবহারকারীর-বোধগম্য ভাষা (গাণিতিক সূত্র, টেবিল ইত্যাদি) থেকে পাওয়া নির্ভরতাগুলি অনুবাদ করে।

বিবর্তনীয় প্রোগ্রামিংয়ের আরেকটি দিকটি নির্দিষ্ট প্রজাতির ফাংশনগুলির রূপে বাকি থেকে টার্গেট ভেরিয়েবলের নির্ভরতার জন্য অনুসন্ধানের সাথে যুক্ত। উদাহরণস্বরূপ, এই ধরনের সবচেয়ে সফল অ্যালগরিদমগুলির মধ্যে একটি - আর্গুমেন্টগুলির গ্রুপ অ্যাকাউন্টিং পদ্ধতি (এমএসইউ) আসক্তিটি পলিনোমিয়ালগুলির জন্য অনুসন্ধান করা হয়। বর্তমানে, রাশিয়াতে বিক্রি করা এমএসএসএস কোম্পানি ওয়ার্ড সিস্টেম গ্রুপের নিউরোশেল সিস্টেমে প্রয়োগ করা হয়।

সিস্টেমের খরচ $ 5,000 পর্যন্ত।

4.7। জেনেটিক আলগোরিদিম

ডেটা মাইনিং জেনেটিক অ্যালগরিদম প্রধান সুযোগ নয়। তারা বিভিন্ন সমন্বয়কারী কাজ এবং অপ্টিমাইজেশান কাজগুলি সমাধান করার একটি শক্তিশালী উপায় হিসাবে বিবেচিত হতে হবে। তবুও, জেনেটিক অ্যালগরিদম ডেটা মাইনিংয়ের স্ট্যান্ডার্ড টুলবক্স পদ্ধতিতে অন্তর্ভুক্ত করা হয়েছে, তাই তারা এই পর্যালোচনাটিতে অন্তর্ভুক্ত।

জেনেটিক অ্যালগরিদম নির্মাণের প্রথম পদক্ষেপটি ডাটাবেসের মূল লজিক্যাল নকশার এনকোডিং, যা ক্রোমোসোম হিসাবে উল্লেখ করা হয় এবং এই ধরনের নিদর্শনগুলির সম্পূর্ণ সেটটি ক্রোমোসোম জনসংখ্যা বলা হয়। পরবর্তীতে, বিভিন্ন ক্রোমোসোমের তুলনা করার একটি পদ্ধতি নির্বাচন ধারণাটি বাস্তবায়নের জন্য চালু করা হয়েছে। জনসংখ্যা প্রজনন পদ্ধতি, পরিবর্তনশীলতা (mutations), জেনেটিক রচনা ব্যবহার করে প্রক্রিয়া করা হয়। এই পদ্ধতিগুলি জৈবিক প্রক্রিয়াগুলি অনুকরণ করে। তাদের মধ্যে সবচেয়ে গুরুত্বপূর্ণ: পৃথক ক্রোমোসোমেস, ট্রানজিশন (ক্রসলিঙ্কার) র্যান্ডম ডেটা মিউটেশনগুলি এবং ব্যক্তিগত পিতামাতার ক্রোমোসোমগুলিতে রয়েছে জেনেটিক উপাদানটির পুনঃবিবেচনা (হেটার্সেক্সিয়াল প্রজনন) এবং জিন মাইগ্রেশন। বিবর্তনের প্রতিটি পর্যায়ে পদ্ধতির কাজ চলাকালীন, জনসংখ্যা ক্রমবর্ধমান নিখুঁত ব্যক্তিদের সাথে প্রাপ্ত হয়।

জেনেটিক আলগোরিদিমগুলি সুবিধাজনক কারণ তারা সমান্তরাল সহজ। উদাহরণস্বরূপ, আপনি একটি প্রজন্মকে বিভিন্ন গোষ্ঠীতে ধ্বংস করতে পারেন এবং তাদের প্রতিটি স্বাধীনভাবে তাদের সাথে কাজ করতে পারেন, কয়েকটি ক্রোমোসোম দ্বারা সময়-সময়ে বিনিময় করতে পারেন। জেনেটিক আলগোরিদিম সমান্তরাল অন্যান্য পদ্ধতি আছে।

জেনেটিক আলগোরিদিম একটি সংখ্যা shortcomings আছে। ক্রোমোসোম নির্বাচন মানদণ্ড এবং ব্যবহৃত পদ্ধতিগুলি হিউরিস্টিক এবং "সেরা" সমাধানটি খুঁজে পাওয়ার নিশ্চয়তা থেকে অনেক দূরে। বাস্তব জীবনে যেমন, বিবর্তন কোন অননুমোদিত শাখায় "সাঁতার কাটতে পারে। এবং, এর বিপরীতে, দুটি অ-সম্ভাব্য বাবা-মা হিসাবে উদাহরণ দেওয়া সম্ভব, যা জেনেটিক অ্যালগরিদমের বিবর্তন থেকে বাদ দেওয়া হবে, একটি অত্যন্ত দক্ষ বংশধরকে উৎপাদন করতে সক্ষম। এটি বিশেষ করে জটিল অভ্যন্তরীণ সংযোগগুলির সাথে অত্যন্ত পণ্য কাজ সমাধানের মধ্যে উল্লেখযোগ্য হয়ে উঠেছে।

একটি উদাহরণ হল কোম্পানী ওয়ার্ড সিস্টেম গ্রুপের জেনেলান্টার সিস্টেম। তার খরচ প্রায় $ 1000।

4.8। সীমিত সততা আলগোরিদিম

সীমিত সততা অ্যালগরিদমগুলি 60 এর দশকের মাঝামাঝি সময়ে প্রস্তাবিত হয়েছিল। তথ্য লজিক্যাল নিদর্শন খুঁজে বের করার জন্য Bongard। তারপরে, বিভিন্ন ধরণের এলাকায় বিভিন্ন কাজ সমাধান করার সময় তারা তাদের কার্যকারিতা প্রদর্শন করেছে।

এই অ্যালগরিদমগুলি ডাটা উপগোষ্ঠীগুলিতে সহজ যৌক্তিক ইভেন্টগুলির সমন্বয়ের ফ্রিকোয়েন্সিগুলি গণনা করে। সহজ যৌক্তিক ঘটনা উদাহরণ: এক্স = একটি; এক্স <একটি; এক্স একটি; একটি <x <b et al।, যেখানে x কোন প্যারামিটার, "A" এবং "B" - ধ্রুবক। সীমাটি সহজ যৌক্তিক ইভেন্টগুলির সমন্বয়ের দৈর্ঘ্য (এম বঙ্গার্ডে এটি 3 এর সমান ছিল)। গণনা ফ্রিকোয়েন্সি বিশ্লেষণের উপর ভিত্তি করে, একটি নির্দিষ্ট সংমিশ্রণের উপসংহারে একটি নির্দিষ্ট সংমিশ্রণের উপসংহারে শ্রেণীবদ্ধকরণ, পূর্বাভাস ইত্যাদির জন্য একটি সমিতি প্রতিষ্ঠার জন্য তৈরি করা হয়।

এই পদ্ধতির সবচেয়ে প্রাণবন্ত আধুনিক প্রতিনিধি উইজসফ্ট এন্টারপ্রাইজের উইজ হাওয়ার সিস্টেম। যদিও আব্রাহাম ময়দান ব্যবস্থার লেখক উইজোথির কাজের উপর ভিত্তি করে অ্যালগরিদমের সুনির্দিষ্টতা প্রকাশ করেন না, তবে সিস্টেমের পুঙ্খানুপুঙ্খ পরীক্ষার ফলাফল অনুসারে, সীমিত সততা উপস্থিতি সম্পর্কে সিদ্ধান্ত নেওয়া হয়েছিল (ফলাফলগুলি নির্ভর করে গবেষণাটি অধ্যয়ন করা হয়েছিল তাদের বিশ্লেষণ পরামিতি, ইত্যাদি সময়)।

লেখক উইজ যখন যুক্তি দেন যে তার সিস্টেম সনাক্ত করে সবকিছু যুক্তি যদি-তারপর তথ্য নিয়ম থাকে। আসলে, এটা, অবশ্যই, তাই না। প্রথমত উইজি সিস্টেমে যদি রুল-এর মধ্যে সংমিশ্রণের সর্বাধিক দৈর্ঘ্য 6, এবং, দ্বিতীয়ত, অ্যালগরিদমের কাজের শুরু থেকেই, সহজ যৌক্তিক ইভেন্টগুলির জন্য একটি হিউরিস্টিক অনুসন্ধান উত্পাদিত হয়, যা সমগ্র আরও বিশ্লেষণ নির্মিত হয়। WizWhy এর এই বৈশিষ্ট্যগুলি উপলব্ধি করা, সহজতম টেস্ট টাস্ক অফার করা কঠিন ছিল না যে সিস্টেমটি সমাধান করতে পারে না। আরেকটি বিন্দু - সিস্টেমটি শুধুমাত্র একটি অপেক্ষাকৃত ছোট ডেটা মাত্রার জন্য একটি গ্রহণযোগ্য সময়ের জন্য একটি সিদ্ধান্ত নিয়েছে।

যাইহোক, উইকবার সিস্টেম আজ ডেটা মাইনিং পণ্য বাজারে নেতাদের এক। এই ভিত্তিতে বর্জিত হয় না। অন্যান্য সমস্ত অ্যালগরিদমের তুলনায় বাস্তব কাজগুলি সমাধান করার সময় সিস্টেমটি ক্রমাগত উচ্চতর কর্মক্ষমতা প্রদর্শন করে। সিস্টেমের খরচ প্রায় 4000 ডলার, বিক্রয় সংখ্যা 30000।

  কম (<)।

চিত্র 7. উইকবার সিস্টেম কিছু কৃষি বিভাগের কম ফলন ব্যাখ্যা করার নিয়ম আবিষ্কার করেছে

4.9। বহুমাত্রিক তথ্য কল্পনা জন্য সিস্টেম

গ্রাফিক ডেটা প্রদর্শনের জন্য এই বা এর অর্থ সমস্ত ডেটা মাইনিং সিস্টেম দ্বারা সমর্থিত। একই সময়ে, একটি খুব চিত্তাকর্ষক বাজার শেয়ার এই ফাংশনে বিশেষভাবে বিশেষ করে সিস্টেম দ্বারা দখল করা হয়। এখানে একটি উদাহরণ প্রোগ্রাম ডেটামিনার 3 ডি স্লোভাক ফার্ম মাত্রা 5 (5 র্থ পরিমাপ)।

যেমন সিস্টেমে, ব্যবহারকারী ইন্টারফেসের বন্ধুত্বের উপর ফোকাস, যা আপনাকে বিশ্লেষণের সূচকগুলি, ডাটাবেসের বস্তুর ছড়িয়ে থাকা চার্টের বিভিন্ন পরামিতিগুলির সাথে যুক্ত করার অনুমতি দেয়। এই পরামিতিগুলির মধ্যে তার নিজস্ব অক্ষ, মাপ এবং চিত্রটির গ্রাফিক উপাদানগুলির অন্যান্য বৈশিষ্ট্যগুলির সাথে রঙ, আকৃতি, অভিযোজন অন্তর্ভুক্ত। উপরন্তু, তথ্য ভিজ্যুয়ালাইজেশন সিস্টেম স্কেলিং এবং ইমেজ ঘূর্ণায়মান জন্য সুবিধাজনক সরঞ্জাম দিয়ে সজ্জিত করা হয়। কল্পনা সিস্টেমের খরচ কয়েক শত ডলার পৌঁছাতে পারে।

  কম (<)।

চিত্র 8. তথ্য ভিজ্যুয়ালাইজেশন সিস্টেম ডেটামিনার 3 ডি

5. সারাংশ

  1. ডেটা মাইনিং সিস্টেমের বাজারটি সূচকীয়ভাবে উন্নয়নশীল। এই বিকাশে, প্রায় সব প্রধান কর্পোরেশন অংশ নেয়। বিশেষ করে, মাইক্রোসফ্ট সরাসরি এই বাজারের বড় সেক্টরকে নেতৃত্ব দেয় (একটি বিশেষ পত্রিকা প্রকাশ করে, সম্মেলন পরিচালনা করে, নিজস্ব পণ্য বিকাশ করে)।
  2. ডেটা মাইনিং সিস্টেম দুটি প্রধান নির্দেশে ব্যবহৃত হয়: 1) ব্যবসায়িক অ্যাপ্লিকেশনের জন্য একটি বিশাল পণ্য হিসাবে; 2) অনন্য গবেষণা (জেনেটিক্স, রসায়ন, ঔষধ, ইত্যাদি) বহন করার জন্য সরঞ্জাম হিসাবে। বর্তমানে, ভর পণ্য খরচ $ 1000 থেকে $ 10,000। উপলব্ধ তথ্য দ্বারা বিচার, ভর পণ্য ইনস্টলেশনের সংখ্যা, আজ হাজার হাজার পৌঁছেছেন। ডেটা মাইনিং নেতারা কর্পোরেট ডেটা গুদামগুলিতে এমবেডেড অ্যাপ্লিকেশন হিসাবে তাদের ব্যবহার করে এই সিস্টেমের ভবিষ্যতকে যুক্ত করে।
  3. ডেটা মাইনিং পদ্ধতির প্রাচুর্য থাকা সত্ত্বেও, অগ্রাধিকারটি ধীরে ধীরে ক্রমবর্ধমানভাবে যদি-তারপরে নিয়মগুলি যৌক্তিক অনুসন্ধান অ্যালগরিদমগুলির দিকে বিতাড়িত হয়। তাদের সাহায্যের সাথে, পূর্বাভাস, শ্রেণীবিভাগ, চিত্র স্বীকৃতি, ডাটাবেস সেগমেন্টেশন, ডেটা থেকে ডেটা থেকে ডেটা এক্সট্রাকশন, ডেটাবেসের ব্যাখ্যা, ডাটাবেসের সংস্থাগুলির প্রতিষ্ঠা ইত্যাদি কাজগুলি কার্যকর এবং এই ধরনের অ্যালগরিদমগুলির ফলাফল কার্যকর এবং সহজে ব্যাখ্যা।
  4. একই সময়ে, নিদর্শন সনাক্ত করার জন্য যৌক্তিক পদ্ধতির প্রধান সমস্যা গ্রহণযোগ্য সময়ের জন্য বিদ্যমান বিকল্পগুলির সমস্যা। সুপরিচিত পদ্ধতিগুলি কৃত্রিমভাবে এমন একটি বস্ট (বারক, উইজহের অ্যালগরিদমগুলি সীমাবদ্ধ করে বা সমাধানগুলির গাছ তৈরি করে (কার্ট, চাইড, আইডি 3, SEE5, SIPINA অ্যালগরিদম ইত্যাদি), যা অনুসন্ধানের দক্ষতার মৌলিক সীমাবদ্ধতা থাকে যদি থের নিয়ম। অন্যান্য সমস্যাগুলি লজিক্যাল নিয়মগুলি খোঁজার জন্য পরিচিত পদ্ধতিগুলি খুঁজে পাওয়া যায় নি এবং এই ধরনের নিয়মগুলির সর্বোত্তম রচনাটি খুঁজে বের করার ফাংশনটি সমর্থন করে না। এই সমস্যাগুলির একটি সফল সিদ্ধান্ত নতুন প্রতিযোগিতামূলক উন্নয়নের বিষয় হতে পারে।

সাহিত্য.

  1. Awazaan S. A., Buchstab ভি এম।, Yunukov I. S., Meshalkin L. D. ফলিত পরিসংখ্যান: শ্রেণীবিভাগ এবং মাত্রা হ্রাস। - এম।: অর্থ ও পরিসংখ্যান, 1989।
  2. ডেটা মাইনিংয়ের মাধ্যমে জ্ঞান আবিষ্কার: জ্ঞান আবিষ্কার কি "- ট্যান্ডেম কম্পিউটার ইনকর্পোরেটেড, 1996।
  3. শহিদুল এন .. বুদ্ধিমান তথ্য বিশ্লেষণের জন্য পণ্য। - সফ্টওয়্যার বাজার, N14-15_97, গ। 32-39।
  4. কে। ই। জেনারেল সিস্টেম থিওরি বোল্ডিং - বিজ্ঞান // ম্যানেজমেন্ট সায়েন্স, ২, 1956 এর কঙ্কাল।
  5. গিক জে, ভ্যান। ফলিত সাধারণ সিস্টেম তত্ত্ব। - এম।: মীর, 1981।
  6. Kiselev এম, Solomatin ই .. ব্যবসা এবং অর্থ জ্ঞান জ্ঞান তহবিল। - ওপেন সিস্টেম, "4, 1997, পি। 41-44।
  7. ড্যুক ভি। এ। উদাহরণ একটি পিসি উপর তথ্য প্রক্রিয়াকরণ। - সেন্ট পিটার্সবার্গে: পিটার, 1997।

লেখক: V.dyuk.

ডেটা মাইনিং বৃহত্তর তথ্য অ্যারেগুলিতে পূর্বে অজানা নকশার জন্য অনুসন্ধান পরিকল্পিত ডেটা বিশ্লেষণ করার একটি উপায়। এই নিদর্শন কার্যকরী পরিচালনার সিদ্ধান্তগুলি এবং ব্যবসায়িক প্রক্রিয়াগুলি অপ্টিমাইজ করা সম্ভব করে তোলে।

এই নিবন্ধটি ডেটা মাইনিং প্রযুক্তির প্রয়োগের ক্ষেত্র সম্পর্কে বলবে।

ডেটা মাইনিং অ্যাপ্লিকেশন এলাকায়

ডেটা মাইনিং পদ্ধতিগুলি সক্রিয়ভাবে ই-কমার্স, ফিনটেকে ব্যবহৃত হয়। ডেটা মাইনিং সরঞ্জাম সরঞ্জামগুলি বিশ্লেষককে বিভিন্ন ধরণের সমস্যার সমাধান করার সুযোগ দেয়, উদাহরণস্বরূপ:

  • গ্রাহকদের চাহিদা এবং ইচ্ছা নির্ধারণ করা;

  • সর্বাধিক লাভ আনতে গ্রাহকদের সনাক্তকরণ;

  • আনুগত্য বৃদ্ধি, আকর্ষণ এবং গ্রাহকদের অধিষ্ঠিত;

  • পণ্য ও পরিষেবাদি প্রচারের জন্য খরচ কার্যকারিতা বিশ্লেষণ।

ডেটা মাইনিং প্রযুক্তি কাজ

ডেটা মাইনিং প্রযুক্তি নিম্নলিখিত কাজগুলি সম্পাদন করে:

টাস্ক শ্রেণীবিভাগ - গবেষণা প্রতিটি বস্তুর জন্য বিভাগের সংজ্ঞা। Fintech এর ক্ষেত্রে যেমন একটি কাজ সম্ভাব্য ঋণ গ্রহীতার ক্রেডিট যোগ্যতা মূল্যায়ন হবে। এটি অ-ক্রেডিটযোগ্য গ্রাহকদের সাথে কাজ করার সময় তহবিলের ক্ষতির ঝুঁকিগুলি হ্রাস করতে সহায়তা করবে;

সমস্যা পূর্বাভাস , অর্থাৎ, একটি নির্দিষ্ট সংখ্যাসূচক ক্রম নতুন সম্ভাব্য মান চিহ্নিত করা হয়। ই-কমার্সে, এই কাজটি ঋতু এবং প্রবণতার উপর নির্ভর করে প্রাক-সেটের দামের জন্য সমাধান করা হয়। এই কারণে, আপনি বিক্রয় স্তরের পূর্বাভাস দিতে পারেন;

ক্লাস্টারিং সমস্যা (সেগমেন্টেশন) - কোন লক্ষণের জন্য গ্রুপে অনেক বস্তুর ভাঙ্গন। উদাহরণস্বরূপ, বয়স, লিঙ্গ বা পছন্দগুলি দ্বারা ক্রেতাদের অনলাইন স্টোরে ডেটা বিভাগের প্রতিটি গোষ্ঠীর জন্য বিশেষ পরামর্শ তৈরি করতে সহায়তা করে;

ইন্টারকানেকশন নির্ধারণের কাজ - অনেক সেট মধ্যে বস্তুর অবজেক্ট অবজেক্টের ফ্রিকোয়েন্সি সনাক্ত করা। এই পদ্ধতিটি বিশেষ করে, ভোক্তা ঝুড়িটির গঠন নির্ধারণ করে এবং অনলাইন দোকানে সম্পর্কিত পণ্য সম্পর্কিত তথ্য বসানোটিকে অপটিমাইজ করতে সহায়তা করে;

ক্রম টাস্ক বিশ্লেষণ - ঘটনা ক্রম মধ্যে নিদর্শন সনাক্তকরণ। এই বিশ্লেষণটি পৃষ্ঠাগুলি ট্র্যাক করতে ব্যবহার করা যেতে পারে যা দর্শকরা প্রায়শই সাইট ভিউটিকে বাধা দেয়। ডেটা দিয়ে কাজ করার এই পদ্ধতিটি আপনাকে সাইটের ত্রুটিগুলি দূর করতে এবং তার উপস্থিতি বাড়ানোর অনুমতি দেয়;

বিচ্যুতি বিশ্লেষণ কাজ - আদর্শ থেকে উল্লেখযোগ্যভাবে ভিন্ন তথ্য নির্ধারণ করা। এই বিশ্লেষণটি ব্যাংক কার্ডের সাথে প্রতারণামূলক অপারেশনগুলি সনাক্ত করতে FINTECH এ ব্যবহৃত হয়। এটি আপনাকে নির্ভরযোগ্য গ্রাহক সুরক্ষা নিশ্চিত করার অনুমতি দেয়।

প্রশিক্ষণ তথ্য মাইনিং

ডেটা মাইনিং ডেটা বিশ্লেষণ পরিচালনার কার্যক্রম পরিচালনার জন্য প্রয়োজনীয় দক্ষতাগুলির মধ্যে একটি; অতএব, এইচডিএসই এইচএসই তাদের পেশাদার স্তরের বৃদ্ধি করতে চায় এমন সকলকে আমন্ত্রণ জানায়, যার মধ্যে তাত্ত্বিক এবং ব্যবহারিক প্রশিক্ষণ সংগ্রহের জন্য এবং দক্ষ এবং অ-তুচ্ছ ব্যবস্থাপনা সমাধান প্রাপ্ত করার জন্য আধুনিক ডিজিটাল প্রযুক্তি ব্যবহার করে তথ্য প্রক্রিয়া।

আপনি আমাদের ওয়েবসাইটে এই প্রোগ্রামে প্রশিক্ষণের জন্য সাইন আপ করতে পারেন।

← তালিকা ফিরে

ডেটা মাইনিং - তথ্য উত্পাদন প্রযুক্তি

1. ডেটা মাইনিং কি?

ডেটা মাইনিং "খনির" হিসাবে অনুবাদ করে

অথবা "তথ্য খনন"। প্রায়ই ডেটা মাইনিং পরবর্তী

শব্দ আছে "ডাটাবেস জ্ঞান সনাক্তকরণ

তথ্য "(ডেটাবেসে জ্ঞান আবিষ্কার) এবং

"বুদ্ধিমান তথ্য বিশ্লেষণ"। তারা হতে পারেন

  • তথ্য একটি সীমাহীন ভলিউম আছে
  • গণনা প্রতিশব্দ তথ্য মাইনিং। সব উত্থান
  • ফলাফল নির্দিষ্ট এবং বোধগম্য হতে হবে।
  • এই পদ নতুন পালা সঙ্গে যুক্ত করা হয়

তহবিল এবং তথ্য প্রক্রিয়াকরণ পদ্ধতি উন্নয়ন। 1990 এর দশকের প্রথম দিকে, এমন ব্যক্তিদের চিত্র এবং ফ্যাক্টর বিশ্লেষণের স্বীকৃতি দেওয়ার ধারণা ছিল না বিশেষ প্রয়োজন এই পরিস্থিতির পুনর্বিবেচনার প্রয়োজন

এলাকায়। সবকিছু অংশ হিসাবে নিজেকে গিয়েছিলাম Fragments. নির্দেশাবলী প্রয়োগ পরিসংখ্যান বলা হয় তথ্য উপবিভাগ (উদাহরণস্বরূপ, দেখুন, [1])। তত্ত্ববিদ সঞ্চালিত হয়

সম্মেলন এবং সেমিনার চিত্তাকর্ষক লিখেছেন

Olap।

ডেটা মাইনিং।

নিবন্ধ এবং monographs abulted

বিশ্লেষণাত্মক গণনা।

একই সময়ে, অনুশীলনকারীদের সবসময় জানত

যে তাত্ত্বিক ব্যায়াম প্রয়োগ করার চেষ্টা করে

অধিকাংশ ক্ষেত্রে বাস্তব সমস্যা সমাধানের জন্য

ফলহীন হতে চালু। কিন্তু উদ্বেগের জন্য

সময় না পারে না হওয়া পর্যন্ত অনুশীলনকারীদের

চিত্র 1. তথ্য থেকে প্রাপ্ত জ্ঞান মাত্রা

বিশেষ মনোযোগ দিতে - তারা প্রধান সমাধান

তার ব্যক্তিগত প্রক্রিয়াকরণ সমস্যা

ছোট স্থানীয় ডাটাবেস। - এবং কল রং। সাথে

রেকর্ডিং এবং স্টোরেজ প্রযুক্তি উন্নতি

মানুষের উপর তথ্য বিশাল প্রবাহ আঘাত

একটি বিস্তৃত এলাকায় তথ্য আকরিক।

কোন এন্টারপ্রাইজ কার্যকলাপ (বাণিজ্যিক, উৎপাদন, চিকিৎসা, বৈজ্ঞানিক, ইত্যাদি) এখন নিবন্ধন এবং রেকর্ড দ্বারা সংসর্গী তার কার্যক্রম সব বিবরণ। কি করতে হবে এই তথ্য? এটা যে ছাড়া পরিষ্কার হয়ে ওঠে উত্পাদনশীল পুনর্ব্যবহারযোগ্য কাঁচা তথ্য স্ট্রিম প্রয়োজনীয় ল্যান্ডফিল না কেউ গঠন। জন্য আধুনিক প্রয়োজনীয়তা নির্দিষ্টতা যেমন পুনর্ব্যবহারযোগ্য নিম্নরূপ: তথ্য বৈচিত্র্যময় (পরিমাণগত, এই তথ্য? এটা যে ছাড়া পরিষ্কার হয়ে ওঠে উচ্চ মানের, পাঠ্যক্রম)

বৃষ্টি তথ্য প্রক্রিয়াকরণ সরঞ্জাম উচিত ব্যবহার করা সহজ

ঐতিহ্যগত গণিত পরিসংখ্যান, একটি দীর্ঘ সময়ের জন্য দাবি

প্রধান তথ্য বিশ্লেষণ টুল, Frankly arisen মুখে সংরক্ষিত

সমস্যা। প্রধান কারণ - কনসেপ্ট

নমুনা দ্বারা গড় অপারেশন নেতৃস্থানীয়

কল্পিত মান উপর (টাইপ গড় রোগীর তাপমাত্রা হাসপাতালে, মাঝখানে

রাস্তায় বাড়ির উচ্চতা প্রাসাদ গঠিত এবং শ্যাক, ইত্যাদি)। গাণিতিক পরিসংখ্যান পদ্ধতি

প্রধানত জন্য দরকারী হতে প্রমাণিত আগাম প্রণয়ন অনুমান চেক করে (যাচাই-চালিত ডেটা মাইনিং) এবং "মোটা" অনুসন্ধানের জন্য বিশ্লেষণ যে অপারেশন ভিত্তিতে তোলে বিশ্লেষণাত্মক প্রক্রিয়াকরণ তথ্য (অনলাইন বিশ্লষণী প্রক্রিয়াকরণ, .

OLAP)।

আধুনিক প্রযুক্তি ডেটা মাইনিং ভিত্তিতে (আবিষ্কার-চালিত ডেটা মাইনিং) টেমপ্লেট ধারণা pasted

(নিদর্শন) প্রতিফলিত

তথ্য মাল্টিডাইমেনশনাল সম্পর্ক। এইগুলো টেমপ্লেট নিদর্শন হয়,

  • অদ্ভুত যে
  • কম্প্যাক্টভাবে বোধগম্যভাবে প্রকাশ করা যেতে পারে মানুষ আকৃতির। অনুসন্ধান টেমপ্লেট উত্পাদিত পদ্ধতি একটি priori সীমাবদ্ধ নয় নমুনা এবং ফর্ম গঠন সম্পর্কে অনুমান
  • মান বিশ্লেষণ বিশ্লেষণ সূচক। যখন যেমন একটি অনুসন্ধান জন্য কাজ উদাহরণ
  • ডেটা মাইনিং ব্যবহার টেবিলে দেওয়া হয়। এক. টেবিল 1. OLAP এবং ডেটা মাইনিং পদ্ধতি ব্যবহার করার সময় টাস্ক ওয়ার্ডিং এর উদাহরণ
  • গড় কি কি ধূমপান এবং অ ধূমপান জন্য আঘাত?
  • সঠিক মানুষের বিবরণ বিষয়ক টেমপ্লেট
  • বর্ধিত আঘাত? গড় আকার কি
  • বিদ্যমান গ্রাহকদের টেলিফোন অ্যাকাউন্ট সাবেক গ্রাহকদের অ্যাকাউন্টের সাথে তুলনা
  • (একটি টেলিফোন কোম্পানির সেবা থেকে প্রত্যাখ্যান)? আপনি চরিত্রগত
  • সম্ভবত গ্রাহকদের প্রতিকৃতি যারা সম্ভবত টেলিফোন সেবা পরিত্যাগ করা যাচ্ছে

কোম্পানি?

গড় মান কি চুরি করা দৈনিক কেনাকাটা এবং চুরি করা হয় না

ক্লাস্টারিং ক্রেডিট কার্ড?

সংঘ Stereotypical আছে

জালিয়াতি ক্ষেত্রে জন্য কেনাকাটা স্কিম ক্রেডিট কার্ড?

গুরুত্বপূর্ণ অবস্থান ডেটা মাইনিং - চেয়েছিলেন টেমপ্লেট nontriviality। এটা

পাওয়া যায় যে পাওয়া টেম্পলেট প্রতিফলিত করা উচিত অ সুস্পষ্ট, অপ্রত্যাশিত (অপ্রত্যাশিত) নিয়মিততা

ডেটা তথাকথিত লুকানো গঠিত জ্ঞান (লুকানো জ্ঞান)। সচেতনতা সমাজে এসেছিলেন

যে কাঁচা তথ্য (কাঁচা তথ্য) একটি গভীর স্তর রয়েছে জ্ঞান, যা একটি উপযুক্ত খনন সঙ্গে যা করতে পারেন

বাস্তব nuggets সনাক্ত করা হয় (Fig। 1)। ডেটা মাইনিং সংজ্ঞা

সাধারণভাবে, ডেটা মাইনিং প্রযুক্তি যথেষ্ট সঠিকভাবে Grigory Piatetsky-Shapiro নির্ধারণ করে -

এই দিক প্রতিষ্ঠাতা এক:

ডেটা মাইনিং।

এই মানব ক্রিয়াকলাপের বিভিন্ন ক্ষেত্রে সিদ্ধান্ত গ্রহণের জন্য প্রয়োজনীয় অজানা, অ-তুচ্ছ, কার্যত দরকারী এবং সাশ্রয়ী মূল্যের ব্যাখ্যাগুলির কাঁচা ডেটাতে সনাক্ত করার প্রক্রিয়া।

  • ডেটা মাইনিং প্রযুক্তির মূল এবং উদ্দেশ্য নিম্নরূপ বর্ণনা করা যেতে পারে: এটি
  • প্রযুক্তি যে বড় পরিমাণে তথ্য অনুসন্ধান করার জন্য ডিজাইন করা হয়
  • অ-সুস্পষ্ট, উদ্দেশ্য এবং অনুশীলন নিদর্শন দরকারী। অ-সুস্পষ্ট -

এর অর্থ হল নিয়মিত পদার্থগুলি স্ট্যান্ডার্ড পদ্ধতি দ্বারা সনাক্ত করা হয় না।

তথ্য প্রক্রিয়াকরণ বা বিশেষজ্ঞ। উদ্দেশ্য - এই যে মানে

সনাক্ত নিদর্শন সম্পূর্ণরূপে বাস্তবতা সঙ্গে সম্পূর্ণরূপে মেনে চলবে

2.1। কিছু ডেটা মাইনিং ব্যবসা অ্যাপ্লিকেশন

খুচরা বিক্রয়
ব্যাংকিং.
টেলিযোগাযোগ
বীমা.
বিশেষজ্ঞ মতামত থেকে পার্থক্য, যা সবসময় বিষয়ী। কার্যত.

খুচরা বিক্রয়

দরকারী - এই উপসংহার একটি নির্দিষ্ট মান আছে যে মানে

  • ক্রয় ঝুড়ি বিশ্লেষণ ব্যবহারিক আবেদন খুঁজুন। (Grigory Piatetsky-Shapiro)
  • অস্থায়ী টেমপ্লেট অধ্যয়ন ঐতিহ্যগত তথ্য বিশ্লেষণ পদ্ধতি (পরিসংখ্যান পদ্ধতি) এবং প্রধানত OLAP প্রধানত
  • ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করা হচ্ছে অগ্রিম প্রণয়ন অনুমান চেক করার জন্য ভিত্তিক (যাচাই-চালিত

ব্যাংকিং.

ডেটা মাইনিং) এবং "রুক্ষ" এক্সপ্লোরেশন বিশ্লেষণে, যা কার্যকরির ভিত্তিতে তৈরি করে

  • বিশ্লেষণাত্মক প্রক্রিয়াকরণ, OLAP), যে সময় ডেটা মাইনিংয়ের প্রধান বিধানগুলির মধ্যে একটি হিসাবে - অ-সুস্পষ্ট নিদর্শনগুলির জন্য অনুসন্ধান করুন।
  • গ্রাহকদের বিভাজন ডেটা মাইনিং সরঞ্জাম স্বাধীনভাবে যেমন নিয়মিত এবং খুঁজে পেতে পারে
  • ক্লায়েন্ট পরিবর্তন পূর্বাভাস এছাড়াও স্বাধীনভাবে সম্পর্ক সম্পর্কে অনুমান নির্মাণ। যেহেতু এটি

টেলিযোগাযোগ

নির্ভরশীলতার সাথে সম্পর্কিত হাইপোথিসিসের শব্দটি সবচেয়ে কঠিন কাজ,

  • অন্যান্য বিশ্লেষণ পদ্ধতির তুলনায় ডেটা মাইনিং সুবিধা সুস্পষ্ট।
  • গ্রাহক আনুগত্য সনাক্তকরণ মৌলিক ধারণা

বীমা.

জেনেরিক এবং প্রজাতি ধারণা

  • জালিয়াতি সনাক্তকরণ - ডেলি ধারণা
  • ঝুঁকি বিশ্লেষণ জেনেরিক

ব্যবসা অন্যান্য অ্যাপ্লিকেশন

, কিন্তু

  • স্বয়ংচালিত শিল্প উন্নয়ন তার বিভাগ সদস্য হয়
  • গ্যারান্টি নীতি দেখুন
  • ঘন ঘন উড়ন্ত গ্রাহকদের প্রচার এই ধরনের, একে অপরের সাথে অসঙ্গতিপূর্ণ,

2.2। বিশেষ অ্যাপ্লিকেশন

ঔষধ
সেগুলো. তার ভলিউম অনুযায়ী intersecting না (সাধারণ উপাদান না থাকার)।
ফলিত রসায়ন

ঔষধ

আমরা defering ধারণা উদাহরণ দিতে:

আণবিক জেনেটিক্স এবং জেনেটিক ইঞ্জিনিয়ারিং

শক্তি উৎস উপর নির্ভর করে

বিদ্যুৎ উৎপাদন কেন্দ্র (

ফলিত রসায়ন

র্যাঙ্ক

) উপর বিভক্ত (

3. নিদর্শন ধরনের

) জলবিদ্যুৎ শক্তি গাছপালা,

Helioilectric স্টেশন, Geothermal, বায়ু এবং তাপ (বিভিন্ন জন্য

সংঘ তাপীয় পারমাণবিক শক্তি গাছপালা রয়েছে)।

তথ্য sequences. - এই সরবরাহকারীদের দ্বারা সরবরাহিত untreated উপাদান।

মাধ্যম শ্রেণীবিভাগ তথ্য এবং উপর ভিত্তি করে তথ্য গঠন ভোক্তাদের দ্বারা ব্যবহৃত

ক্লাস্টারিং তথ্য।

সিস্টেমের সব ধরণের জন্য ভিত্তি পূর্বাভাস একটি বস্তু

4. ডেটা মাইনিং সিস্টেমের ক্লাস

বৈশিষ্ট্য একটি সেট হিসাবে বর্ণনা করে। বস্তু হিসাবে পরিচিত হয়

রেকর্ডিং, কেস, উদাহরণ, লাইন স্ট্রিং, ইত্যাদি

চিত্র 4. ডেটা মাইনিং জন্য জনপ্রিয় পণ্য

4.1। স্বাধীন ভিত্তিক বিশ্লেষণাত্মক সিস্টেম

বৈশিষ্ট্য

4.2। পরিসংখ্যানগত প্যাকেজ

- একটি বস্তু characterizing সম্পত্তি। উদাহরণস্বরূপ: চোখের রঙ

মানুষ, জল তাপমাত্রা, ইত্যাদি .atribut এছাড়াও পরিবর্তনশীল কল করুন, ক্ষেত্র

টেবিল, পরিমাপ, চরিত্রগত।

সাধারণ সমষ্টিগত

4.3। নিউরাল নেটওয়ার্ক

(জনসংখ্যা) - পুরো সামগ্রিকতা অধ্যয়নরত

গবেষক আগ্রহী বস্তু।

নমুনা

চিত্র 5. বহুবচন স্নায়ু

4.4। অনুরূপ ক্ষেত্রে উপর ভিত্তি করে যুক্তি সিস্টেম

(নমুনা) - সাধারণ জনসংখ্যার অংশ সংজ্ঞায়িত

পদ্ধতি অধ্যয়ন এবং সম্পত্তির সম্পর্কে সিদ্ধান্ত গ্রহণের উদ্দেশ্যে নির্বাচিত পদ্ধতি এবং

সাধারণ জনসংখ্যার বৈশিষ্ট্য।

অপশন

4.5। সিদ্ধান্ত গাছ

- সাধারণ জনসংখ্যার সংখ্যাসূচক বৈশিষ্ট্য।

পরিসংখ্যান

নমুনা সংখ্যাসূচক বৈশিষ্ট্য।

হাইপোথিসিস

4.6। বিবর্তনীয় প্রোগ্রামিং

- জ্ঞান আংশিকভাবে যুক্তিসঙ্গত প্যাটার্ন, হয়

বিভিন্ন পরীক্ষামূলক ঘটনা মধ্যে যোগাযোগের জন্য, বা সত্য ব্যাখ্যা বা

সিস্টেমের খরচ $ 5,000 পর্যন্ত।

4.7। জেনেটিক আলগোরিদিম

ঘটনা গ্রুপ। হাইপোথিসিস একটি উদাহরণ: জীবন প্রত্যাশা এবং মধ্যে

মানের সঙ্গে একটি সংযোগ আছে। এই ক্ষেত্রে, গবেষণা উদ্দেশ্য হতে পারে

একটি নির্দিষ্ট পরিবর্তনশীল পরিবর্তন ব্যাখ্যা, এই ক্ষেত্রে - সময়কাল

জীবন। অনুমান যে একটি হাইপোথিসিস আছে

নির্ভরশীল পরিবর্তনশীল

4.8। সীমিত সততা আলগোরিদিম

(জীবন প্রত্যাশা) কিছু কারণের উপর নির্ভর করে পরিবর্তিত হয় (গুণমান

পুষ্টি, জীবনধারা, বাসস্থান জায়গা, ইত্যাদি), যা

স্বাধীন চলক

যাইহোক, পরিবর্তনশীল প্রাথমিকভাবে নির্ভরশীল বা স্বাধীন নয়। সে

এটি একটি নির্দিষ্ট হাইপোথিসিস শব্দের পরে যেমন হয়ে যায়। নির্ভরশীল পরিবর্তনশীল সবকিছু এক হাইপোথিসিস মধ্যে অন্য স্বাধীন হতে পারে।

পরিমাপ করা

4.9। বহুমাত্রিক তথ্য কল্পনা জন্য সিস্টেম

- অধ্যয়ন বৈশিষ্ট্য সংখ্যা নির্ধারণ করার প্রক্রিয়া

একটি নির্দিষ্ট নিয়ম অনুযায়ী বস্তু।

চিত্র 8. তথ্য ভিজ্যুয়ালাইজেশন সিস্টেম ডেটামিনার 3 ডি

5. সারাংশ

ডেটা প্রস্তুতি প্রক্রিয়ার মধ্যে, বস্তুটি পরিমাপ করা হয় না, তবে এর বৈশিষ্ট্যগুলি।

স্কেল

- নিয়ম, যা বস্তু নির্ধারিত হয় অনুযায়ী

সংখ্যা। পাঁচ ধরনের পরিমাপের স্কেল রয়েছে: নামমাত্র, অর্ডিনাল,

ব্যবধান, আপেক্ষিক এবং dichotomous।

নূন্যতম মাপ

সাহিত্য.

(নামমাত্র স্কেল) - শুধুমাত্র স্কেল ধারণকারী
বিভাগ; এটিতে ডেটা অর্ডার করা যাবে না, তারা হতে পারে না
কেউ গাণিতিক কর্ম। নামমাত্র স্কেল গঠিত
শিরোনাম, বিভাগ, শ্রেণীবিভাগ এবং সাজানোর বস্তুর জন্য নাম বা
কিছু সাইন উপর পর্যবেক্ষণ। যেমন একটি স্কেল উদাহরণ: পেশা, শহর
আবাসন, বৈবাহিক অবস্থা। শুধুমাত্র যেমন অ্যাপ্লিকেশন এই স্কেল জন্য প্রযোজ্য।
অপারেশন: সমানভাবে (=), সমান নয় ()।

কমিউনিটি স্কেল (অর্ডিনাল স্কেল) - যা সংখ্যা স্কেল

বস্তুর আপেক্ষিক অবস্থান মনোনীত বস্তু বরাদ্দ করুন, কিন্তু না

তাদের মধ্যে পার্থক্য আকার। পরিমাপ র্যাঙ্ক এটা সম্ভব করে তোলে

পরিবর্তনশীল মান। অর্ডিনাল স্কেলে পরিমাপ তথ্য রয়েছে

শুধুমাত্র নিম্নলিখিত মানগুলির ক্রম অনুসারে, কিন্তু আপনাকে বলার অনুমতি দেয় না "কত

মান আরো ভিন্ন ", অথবা" এটি কত ছোট তা ভিন্ন "। যেমন একটি স্কেল উদাহরণ:

স্থান (1, ২, 3 য়), যা প্রতিযোগিতায় প্রাপ্ত দল, ছাত্র সংখ্যা

অগ্রগতি রেটিং (প্রথম, 23rd, ইত্যাদি), এটি অজানা কিভাবে এক

.

একটি সফল ছাত্র শুধুমাত্র র্যাংকিং তার সংখ্যা পরিচিত হয়। এই স্কেল জন্য ব্যবধান স্কেলপ্রযোজ্য.
শুধুমাত্র এই ধরনের অপারেশন: সমান (=), সমান নয় (), আরো (>),
(ব্যবধান স্কেল) - স্কেল, মধ্যে পার্থক্য  যা মান গণনা করা যেতে পারে, কিন্তু তাদের সম্পর্ক আছে না

Add a Comment