প্রকরণীয় বিশ্লেষণের গোড়ার পাঠ

আজ আমরা অন্য রকম একটা গল্প দিয়ে আমাদের যাত্রা শুরু করব। আমরা সবাই জানি কবিগুরু রবীন্দ্রনাথ ঠাকুরের নোবেল প্রাইজ মেডেলটা চুরি হয়ে গেছে। ধরুন সেটা খুঁজে পাওয়া গেল। খুঁজে পাওয়া মেডেলটা আসলেই হারানো মেডেল কিনা সেটা আমরা বুঝব কিভাবে? খুব ভালো উপায় হল, যদি সেটা অন্য একটা নোবেল মেডেলের মিলিয়ে দেখা হয় তবে খুব সহজেই বুঝতে পারা যাবে। যেই মেডেলটার সাথে আমরা মিলিয়ে দেখব সেটাকে আমরা রেফারেন্স মেডেল ধরে খুঁজে পাওয়া মেডেলটাকে নিয়ে পরিক্ষা নিরীক্ষা করলে তখন নিম্নের যে কোন একটা সিধান্ত উপনীত হতে পারবঃ

১। আসল মেডেল (১০০% মিল আছে)

১। নকল মেডেল (কোন মিল নেই)

৩। আসল নাকি নকল সেটা বুঝা যাচ্ছে না (মেডেলটা যেহেতু অনেক হাত ঘুরে এসেছে, তাই হয়ত তার রঙটা একটু ফিকে হয়ে গেছে বা দুই একটা স্থানে ট্যাব খেয়ে গেছে)। এক্ষেত্রে দেখতে হবে, মিল নাকি অমিল – কোনটার দিক বেশি ভারী।গল্প থেকে আসি একটু অন্য দিকে।

আমরা কেন সিকোয়েন্স এলাইমেন্ট করি

আমরা এমনিতেই জৈব ডেটার (biological data) সমুদ্রে হাবুডুবু খাচ্ছি। উপরন্তু প্রতিদিন নূতন নূতন ডেটা তৈরি হচ্ছে। ধরুন, আপনি ল্যাবে কিছু ব্যাকটেরিয়ার ডি.এন.এ সিকুএন্সিং (সিকুএন্সিং করা মানে হল, A,T, C, G এই চারটা বর্ণমালা কিভাবে ক্রমসোমে সাজানো আছে সেটা নির্ণয় করা)করেছেন কিন্তু এইগুলো আসলে কোন ধরনের ব্যাকটেরিয়া তা আপনি জানেন না। মানে হল, তাদের পরিচয় আপনি জানেন না। সেটা জানার উপায় হল, যদি সেইগুলোর সিকুয়েন্সকে এমন কিছু ব্যাকটেরিয়ার সিকুয়েন্সের সাথে তুলনা করেন যাদের পরিচয় আমাদের জানা। যাদের পরিচয় আমরা জানি, তাদেরকে আমরা রেফারেন্স হিসেবে ধরে নিচ্ছি। ধরুন,

রেফারেন্স সিকুয়েন্সঃ “ATGCGTACGTGTCATACTGACGTACGTTGAGTA”

ল্যাব থেকে পাওয়া একটা সিকুয়েন্সঃ “ATGCGAACCATTCATACACGCTT”

উপরের গল্পের মত এখন মিলিয়ে দেখতে হবে, কোন মিল আছে নাকি? যদি মিল থাকলে, তবে কতটুকু মিল আছে, কোন কোন জায়গায় মিল আছে। মিল খুঁজে বের করার প্রক্রিয়াকে ক্রম প্রান্তিকরণ (Sequence Alignment) বলা হয়। সুতরাং, ক্রম প্রান্তিকরণ (Sequence Alignment )হচ্ছে একটা প্রক্রিয়া যার মাধ্যমে ডি.এন.এ বা আর.এন.এ বা প্রোটিনের দুই বা ততোধিক ক্রম বা সিকুয়েন্স (sequence) এর মধ্যে কোন মিল/সাদৃশ্য আছে কিনা সেটা দেখা হয়। ক্রমান্বয়ে সাজানোর উদ্দেশ্য হল: সিকুয়েন্সগুলোর মধ্যে গাঠনিক (structural) বা কার্যগত (functional) মিল আছে কিনা। এমনও তো হতে পারে যে, দুইটা সিকুয়েন্স এর সৃষ্টির সময় একই রকম ছিল কিন্তু সময়ের সাথে সাথে সেটা পরিবর্তন হয়ে দুইটা ভিন্ন চেহারা ধারণ করেছে। যাকে আমরা বলি বিবর্তন (evolution)। সেটা খুঁজে বের করার জন্যও এলাইন করা হয়।

সিকোয়েন্স ভ্যারিয়েশন এনালাইসিস

ধরা যাক, আমাদের হাতে দুটি কাল্পনিক ডিএনএ অনুক্রম এসে পড়েছে, ক্রম–১ ও ক্রম–২। আমরা প্রথমে অনুক্রম সারিবন্ধকরণ বা সিকোয়েন্স এলাইনমেন্ট করে দেখলাম। অনুক্রম সারিবদ্ধকরণের অ–আ–ক–খ লেকচার তিনে আলোচনা করা হয়েছে। আপনাদের হয়তো খেয়াল আছে অনুক্রম সারিবদ্ধকরণের মাধ্যমে দুইটি ডিএনএ অনুক্রমের মধ্যে মিল কতটুুকু তা বের করা হয়। তো অনুক্রম সারিবদ্ধকরণের পর আমরা দেখলাম যে ক্রম–১ আর ক্রম–২ এর মধ্যে বেশিরভাগই মিলে যাচ্ছে — অর্থাৎ অনুক্রম দুইটি হোমোলগাস বা একই রকম। তবে কিছু কিছু জায়গায় সামান্য অমিল আছে। অমিলগুলো এতোটাই কম যে আমরা ধরে নিলাম ডিএনএ অনুক্রম দুইটি আসলে একই প্রজাতির দুইটি সদস্য থেকে পাওয়া। তারপর আমরা ঠিক করলাম এই অনুক্রম দুইটির মধ্যে পার্থক্য আসলে কতটুকু তা বের করবো।

প্রকরণ কোথ্থেকে আসে?

প্রতিটি মানুষ একে অপরের চেয়ে ভিন্ন। এ ভিন্নতা হতেপারে চেহারা, গায়ের বর্ণ, চুলের প্রকৃতি, চোখের রঙ ইত্যাদি অজস্র বিভিন্ন বিষয়ে। এমনকি একই পিতামাতার সন্তানদের মধ্যে অনেক ভিন্নতা থাকে। এইসব প্রকাশিত বৈশিষ্ট্য (বা ফেনোটাইপ) মূলত নির্ভর করে মানুষের বংশগতীয় উপাদানের রকমফেরের (জেনোটাইপ) উপর। বংশগতীয় উপাদান মানে শেষ পর্যন্ত ডিএনএ অনুক্রম (সিকোয়েন্স) – জীবনের নীল–নকশা।এমনকি একই ভ্রুণ থেকে জন্ম নেয়া জমজদের জিনোম অনুক্রমেও কিছু ভিন্নতা পরিলক্ষিত হয় [১]। পৃথিবীর যেকোন দুইজন মানুষের জিনোমে ০.১ – ০.৪% বংশগতীয় পার্থক্য দেখা যায় [১]। ০.১% বংশগতীয় পার্থক্যের মানে হলো প্রতি ১০০০ বেসপেয়ারে ১টি করে বেসের পার্থক্য থাকবে। প্রশ্ন হলো, এই পার্থক্যগুলোর উৎস কি?

এক কথায় এই প্রশ্নের উত্তর হলো মিউটেশন বা পরিব্যাক্তি। কোষের ভেতর যখন ডিএনএ–কে নকলীকরণ (রেপ্লিকেশন) করে নতুন ডিএনএ তৈরি করা হয়, তখন কিছু না কিছু ভুল হয়ে যায়। এই ভুল ঠিক করার জন্য কোষে সাধারণত প্রুফরিডিঙের ব্যবস্থা থাকে। তারপরেও কিছু ভুল শোধরানো যায় না। এছাড়াও অতিবেগুণী রশ্মি কিংবা বিভিন্ন ক্ষতিকর রাসায়নিকের প্রভাবেও এই ভুলের পরিমাণ বেড়ে যায়। তাই মূল এবং নতুন তৈরি ডিএনএ–র মধ্যে কিছু কিছু পার্থক্য সুচিত হয়।

সাদাচোখে জীবদেহের কোষগুলোকে আমরা দুই ভাগে ভাগ করি। দেহ কোষ এবং জনন কোষ। দেহ কোষে পরিব্যাক্তির প্রভাব প্রজননের মাধ্যমে পরবর্তী প্রজন্মে যায় না। তবে জনন কোষে মিউটেশনের ফলে পরিবর্তিত ডিএনএ চলে যায় পরবর্তী প্রজন্মে। বেশিরভাগ মিউটেশন নিরপেক্ষ। তবে কিছু কিছু মিউটেশন জীবের জন্য বেশ ক্ষতিকর। আর সামান্য কিছু মিউটেশন হয়তো জীবের জন্য ভালো হয়। এই ভালো মিউটেশন জীবকে পরিবেশে টিকে থাকার জন্য সহযোগিতা করে [২]। বেশিরভাগ সময় এই মিউটেশনগুলো ডিএনএ অনুক্রমের একটিমাত্র নিউক্লিওটাইডে হয়। এজন্য এদেরকে বলে একক মিউটেশন (পয়েন্ট মিউটেশন)। একক মিউটেশনে ডিএনএ অনুক্রমের একটি নিউক্লিওটাইড বেসকে সরিয়ে দিয়ে অন্য বেস বসে যায় (যেমন A এর জায়গায় T)। এজন্য একক মিউটেশনকে অনেক সময় বেস প্রতিস্থাপন (সাবস্টিটিউশন) মিউটেশন বলে।

একটি জনপুঞ্জ বা পপুলেশন বিবেচনা করা যাক। এই জনপুঞ্জ হতে পারে পদ্মার ইলিশ মাছের। ইলিশ মাছের অমৃতসম–স্বাদের কথা মনে পড়ছে? আশা করি বাংলাদেশের ভাবী কোন বিজ্ঞানী ইলিশ মাছের এই অমৃতসম–স্বাদের জন্য দায়ী জিনটি বের করে ফেলবেন। ধরে নেই, আমাদের এই অনুকল্পীয় (হাইপোথেটিকাল) জিনের নাম ক্রম–ই। এই ক্রম–ই আসলে যে একটি ডিএনএ অনুক্রম তা পাঠক ধরে ফেলেছেন নিশ্চয়ই। পদ্মার ইলিশ জনপুঞ্জে বিভিন্ন ইলিশের বিভিন্ন ক্রম–ই ডিএনএ অনুক্রমে কিছুটা পার্থক্য পাওয়া যাবে। এই বিভিন্নতাকে আমরা বলবো পলিমর্ফিজম। ক্রম–ইর যদি দশ ধরনের পলিমর্ফিজম থাকে, তাহলে একেক ধরনকে বলবো একেকটি অ্যালিল। এই বিভিন্নতার কারণে জনপুঞ্জের বিভিন্ন সদস্যের মাঝে যে পার্থক্য তাকেই বলছি প্রকরণ বা ভ্যারাইটি।

একই প্রজাতীর মধ্যে এসব একক মিউটেশনকে একটা সাধারণ নামে ডাকা হয়, তা হলো SNP বা একক–নিউক্লিউটাইড–বিভিন্নতা (সিঙ্গল নিউক্লিওটাইড পলিমর্ফিজম)। এই SNP-র উচ্চারণ হলো ‘স্নিপ‘ । দুইটি মানুষের জিনোম অনুক্রমে যে সামগ্রীক পার্থক্য, তার মধ্যে এই স্নিপের পরিমাণ বেশ বড়ই বলা চলে।

চলুন নিচের উদাহরণটা দেখা যাক:

ক্রম–১: GTCCTTCAATCATCACGGGACT

ক্রম–২: AACCTTCAACCATCTCCGGACC

স্নিপ ম্যাপ: XX————–X——-X—X——-X

উপরের উদাহরণে দুইটি ডিএনএ অনুক্রমকে সারিবদ্ধকরণ করা হয়েছে। দুইটি অনুক্রমের মাঝে ছয়টি অঞ্চল পাওয়া যায়, যেখানে বিভিন্নতা বা পলিমর্ফিজম উপস্থিত। একদম নিচের লাইনটি খুব সরল একটি SNP ম্যাপ হিসেবে কাজ করছে। ওই লাইনে দিয়ে বোঝা যাচ্ছে যে ডিএনএ–র কোন কোন অঞ্চলে বিভিন্নতা বিদ্যমান।

তবে মিউটেশনই কিন্তু প্রকরণ সৃষ্টির একমাত্র পদ্ধতি নয়। প্রকরণের উদ্ভব হতে পারে রিকম্বিনেশন, ইনসার্শন, ডিলিশন, সর্ট ট্যান্ডেম রিপিট (STR) ইত্যাদি কারণে। জটিলতা এড়ানোর জন্য এদের নিয়ে আমরা এইমুহুর্তে আলোচনা করবো না।

প্রতিস্হাপন হার

একক মিউটেশন নিয়ে যেহেতু বেশ কিছুক্ষণ কথাবার্তা আমরা বলেছি, এটি নিয়ে কিছু হিসেব–নিকেশের পদ্ধতি চলুন জেনে নেই। আমরা জানি কোন জীবে সবসময় মিউটেশন হচ্ছে। এই মিউটেশনগুলো হারিয়ে যাবে যদি কিনা ওই জীবটি আর বংশবৃদ্ধি না করে। অবশ্য মিউটেশন জনন কোষে তৈরি না হলেও মিউটেশন হারিয়ে যাবে। ‘হারিয়ে যাওয়ার‘ অর্থ হলো মিউটেশনটি ওই প্রজাতির মধ্যে আর ছড়াবে না। ওই জীবটি বংশবৃদ্ধি করলে মিউটেশনবাহী সদস্যের সংখ্যা ওই প্রজাতিতে বাড়বে। বংশধররা আরো বংশবৃদ্ধির সাথে সাথে নির্দিষ্ট সময়ের পর দেখা যাবে হয়তো ওই জীবের সমগ্র প্রজাতির মধ্যে মিউটেশনটি ছড়িয়ে গেছে। অর্থাৎ ওই প্রজাতির জন্য মিউটেশনটি উপকারী ছিলো। বংশানুক্রমে মিউটেশনের ছড়িয়ে যাওয়া মানে একধরনের স্থায়ীত্ব পাওয়া। প্রতিস্থাপন হার (সাবস্টিটিউশন রেট)হলো কোন প্রজাতির ডিএনএ–র একটি নির্দিষ্ট অঞ্চলে সময়ের সাথে কতগুলো স্থায়ী মিউটেশন (ফিক্সড মিউটেশন) জড়ো হয় তার হিসেব। যদি মিউটেশনগুলো নিরপেক্ষ হয়, মানে এই মিউটেশনের কারণে জীবের কোন ক্ষতিও হয় না, লাভও হয় না তাহলে মিউটেশন রেট আর প্রতিস্থাপন হারের মাঝে একটা দারুণ সম্পর্ক দেখা যায় – দুটোই সমান হয়ে যায়।

বংশগতীয় দূরত্ব

এই লেখাটি শুরু করেছিলাম কাল্পনিক দুইটি ডিএনএ অনুক্রমের উদাহরণ দিয়ে। তাদের কথা আবার বিবেচনা করা যাক। ক্রম–১ ও ক্রম–২ দুজনের মাঝে পার্থক্য সামান্য, বেশিরভাগই মিলে যায়। বিবর্তনীয় তত্ত্ব অনুযায়ী ডিএনএ–র এই দুইটি ক্রমের উদ্ভব একটি সাধারণ আদি–ডিএনএ অনুক্রম থেকে। সাধারণ আদি–অনুক্রম থেকে উদ্ভবের সময় তাদের মধ্যে এলোমেলো (ড়্যান্ডম) প্রতিস্থাপন মিউটেশন হয়েছে। এই মিউটেশনের কারণেই তাদের মধ্যে এখন সামান্য পার্থক্য। আমরা যদি ক্রম–১ ও ক্রম–২ এর মধ্যে মিউটেশনগুলো গুনে ফেলি তাহলে একটা হিসেব পাবো যে এদের মধ্যে পার্থক্য কতটুকু। ডিএনএ–র দুটো কাছাকাছি অনুক্রমের মধ্যে পার্থক্য কতটুকু তার হিসেবই হলো জেনেটিক ডিস্ট্যান্স বা বংশগতীয় দূরত্ব। আগে দেখেছি ক্রম–১ ও ক্রম–২ এর মধ্যে পার্থক্য হলো ছয় জায়গায়। দুইটি অনুক্রমেরই দৈর্ঘ্য হলো ৩৬ বেসপেয়ার। তার মানে দুইটির মধ্যে বংশগতীয় দূরত্বের হার হলো বাইশের মধ্যে ছয়, ২/৩৬।

কিন্তু না, বংশগতীয় দূরত্ব হিসেব করাটা এতো সহজ না আসলে। ঘটনা আরো জটিল। দুইটি অনুক্রম বাইরে থেকে দেখে আমাদের মনে হচ্ছে যে এদের মধ্যে পার্থক্য মাত্র ২। কিন্তু প্রকৃত বংশগতীয় পার্থক্য আরো বেশিও হতে পারে। নিচের উদাহরণটা দেখুন। একটি ডিএনএ অনুক্রম পরপর সাতটি প্রজন্ম কিভাবে বিবর্তিত হয়েছে তা দেখানো হয়েছে। একই অনুক্রমে মাত্র চারটি প্রজন্মে মিউটেশন হয়েছে ৪টি। কিন্তু আমি যদি কেবল প্রথম ও শেষেরটা তুলনা করি তাহলে আপাত দৃশ্যমান মিউটেশন ২টি। পাঠক খেয়াল করুন, প্রথম উদাহরণের একটি আদি–ডিএনএ অনুক্রম থেকে উদ্ভব হওয়া ক্রম–১ ও ক্রম–২ এর মধ্যে কতগুলো প্রজন্ম চলে গেছে সেটা কিন্তু আমরা জানি না। মধ্যবর্তী প্রজন্মের সংখ্যা বেশি হলে প্রকৃত মিউটেশন বেশি হবে। প্রজন্মের সংখ্যা কম হলে মিউটেশন কম হবে। প্রতিস্থাপনীয় হারের সুবিধাটা হলো প্রজন্ম থেকে প্রজন্মান্তরে এই হারটি মোটামুটি নির্দিষ্ট থাকে। মানে প্রতিটি প্রজন্মে নির্দিষ্ট কিছু প্রতিস্থাপনীয় মিউটেশন জড়ো হবেই। দুইটি অনুক্রমের মধ্যে আপাত দৃশ্যমান পার্থক্য কম হলে প্রকৃত পার্থক্য সামান্য বেশি হবে। কিন্তু আপাত দৃশ্যমান পার্থক্য বেশি হলে প্রকৃত পার্থক্য আরো বেশি হবে বলে আমরা আশা করতে পারি। কারণ মধ্যবর্তী প্রজন্মগুলোতে কিছু মিউটেশন হয়ে গেছে যেগুলো হয়তো এখন আর পর্যবেক্ষণ করা যাবে না।

বংশগতীয় দূরত্ব নিয়ে কাজ করার সময় আমরা সবসময় প্রকৃত পার্থক্যটাই হিসেব করতে চাইবো।আমরা জানি না দুইটি অনুক্রমের মধ্যে কতগুলো প্রজন্ম পেরিয়ে গেছে। কিন্তু একটা গাণিতিক মডেল দাঁড় করানো যেতে পারে। আমরা যদি ধরে নেই যে এই মিউটেশনগুলো এলোমেলো, তাহলে সম্ভাবনার গণিত (প্রোবাবিলিটি) এক্ষেত্রে ব্যাবহার করা যায়। এজন্য অনেকগুলো প্রতিষ্ঠিত গাণিতিক এলগরিদম রয়েছে। আমরা শুরু করার জন্য জুকস–ক্যান্টর মডেলটি নিয়ে একটুখানি আলোচনা করবো।

প্রজন্ম থেকে প্রজন্মে একটি অনুক্রম কিভাবে পরিবর্তিত হয় তা একটি মার্কভীয় পদ্ধতি হিসেবে বিবেচনা করা যায়। মার্কভীয় পদ্ধতি অনুযায়ী একটি প্রজন্মে কোন অনুক্রমে কি কি মিউটেশন যুক্ত হতে পারে সেই সম্ভাবনা কেবল পূর্ববর্তী প্রজন্মে অনুক্রমটি কেমন ছিলো তার উপরেই নির্ভর করবে।প্রথম উদাহরণে কিন্তু আমরা জানি না যে মধ্যবর্তী প্রজন্মগুলোতে অনুক্রমটি কেমন ছিলো। তারমানে এখানে অজানা অবস্থায় মার্কভের নীতি বা হিডেন মার্কভ মডেল ব্যাবহার করে প্রকৃত বংশগতীয় দূরত্ব হিসেব করা সম্ভব।

জুকস–ক্যান্টর মডেল ধরে নেয় যে যাবতীয় প্রতিস্থাপনের সম্ভাবনা সমান। মানে একটি অনুক্রমে A>T (মানে A এর জায়গায় T), A>G, A>C, T>A, T>G, T>C, G>A, G>T, G>C, C>A, C>G, C>T ইত্যাদি প্রতিস্থাপন সমান সম্ভাবনায় এলোমেলো ভাবে হবে। প্রকৃতপক্ষে আমরা জানি যে ট্রানজিশন মিউটেশন ট্রান্সভার্সনের চাইতে বেশি হয়ে থাকে।

কোন গাণিতিক ব্যাখ্যায় না গিয়ে বলা যায়, দুইটি ডিএনএ অনুক্রমের মধ্যে আপাত বংশগতীয় দুরত্বের হার d হলে প্রকৃত বংশগতীয় দূরত্বের হার হবে K। এই K খুঁজে বের করা যায় নিচের সমীকরণ দিয়ে:

K = (-3/4)*ln{1 – (4d/3)}

চলুন পাইথনে একটি প্রোগ্রাম লিখি জুক–ক্যান্টর সিমুলেশনের জন্য। সিমুলেশনের শর্তগুলো এরকম:

১. একটি ডিএনএ অনুক্রম, যার দৈর্ঘ্য ১০০০ বেস পেয়ার।

২. ধরে নেই প্রতিটি প্রজন্মে এক হাজারের মধ্যে একটি বেসে এলোমেলোভাবে (র্যান্ডম) মিউটেশন হবেই। তারমানে মিউটেশনের হার ০.১%।

৩. এবারে ২০০০ প্রজন্ম পর্যন্ত ডিএনএ অনুক্রমটির এলোমেলো মিউটেশনগুলো তৈরি করা হয়।

৪. প্রতি দশ প্রজন্ম অন্তর অন্তর পাওয়া বিবর্তিত ডিএনএ অনুক্রমটির সাথে মূল অনুক্রমের মিউটেশন কতগুলো তা হিসেব করা হয়। অর্থাৎ আপাত দৃশ্যমান বংশগতীয় দূরত্ব (d) হিসেব করা হয়।

৫. পাশাপাশি প্রতি দশ প্রজন্ম অন্তর অন্তর আপাত বংশগতীয় দূরত্বগুলোকে জুকস–ক্যান্টর মডেল অনুসারে ঠিক (K) করে নেয়া হয়।

এই সিমুলেশনের আউটপুট হিসেবে লেখচিত্র দেখা যাচ্ছে। উপরেরটি খেয়াল করুন। সেখানে লাল রেখায় প্রকৃত প্রতিস্থাপন দেখানো হয়েছে। আর নীল রেখায় আপাত মিউটেশনের হিসেব দেখানো হয়েছে। এটা নিশ্চয়ই বোঝা যাচ্ছে যে আপাত হিসেব, প্রকৃতের চাইতে অনেক কম। যেমন যেখানে প্রকৃত প্রতিস্থাপন হলো ১০০০, সেখানে আপাত প্রতিস্থাপন হলো ৫০০–৬০০র মাঝামাঝি।

আমরা যদি আপাত মিউটেশনকে জুকস–ক্যান্টরিয় সমীকরণের মধ্যে ফেলে প্রকৃত দূরত্ব অনুমান করি, তাহলে ১০০০তম প্রজন্মে মোটামুটি ১০০০ এর কাছাকাছি–ই হিসেব দেখাবে।

প্রকরণীয় বিশ্লেষণের গোড়ার পাঠ

Discover more from Arafat Rahman

Comments

Leave a ReplyCancel reply

Learn Python for Bioinformatics

প্রকরণীয় বিশ্লেষণের গোড়ার পাঠ

Share this:

Discover more from Arafat Rahman

Comments

Leave a ReplyCancel reply

Learn Python for Bioinformatics