আমরা সার্চ ইঞ্জিন ব্যবহার করে এক পলকেই প্রয়োজনীয় হাজার হাজার তথ্য হাতের লাগালেই পেয়ে যাই। কখনো এটা ভাবিনি যে, এই তথ্য কোথা থেকে আসে বা কিভাবে আসে? এই প্রশ্নের উত্তর সবাই সহজে বলবে, আমাদের ওয়েব ব্রাইজারের মাধ্যমে গুগল এ সব তথ্য দিয়ে থাকে। তাহলে প্রশ্ন হচ্ছে গুগল এ সমস্ত তথ্য কোথা থেকে পায়? আজকে আমি আপনাদের দেখাব গুগল কিভাবে আপনাদের এই তথ্য দিয়ে থাকে এবং কিভাবে আপনার প্রিয় ব্লগটিও সার্চ ইঞ্জিনের মাধ্যমে সবার সামনে হাজির করে থাকে।
সার্চ ইঞ্জিন কি?
সার্চ ইঞ্জিন কিভাবে কাজ করে?
এগুলো পড়তে পারেন-
উদাহরণঃ ধরুন আপনার কম্পিউটারের হার্ড ডিস্কটি কম্পিউটারের সাথে সংযুক্ত না রেখে অন্য কোথাও রেখে দিলেন। তাহলে আপনার ঐ হার্ড ডিস্কের ফাইল বা গানগুলো কিভাবে দেখবেন? এই কাজটি করার জন্য প্রয়োজন হবে আপনার ঐ হার্ড ডিস্কটি বিশেষ প্রযুক্তির মাধ্যমে অর্থাৎ নেটওয়ার্ক সার্ভার তৈরি করে ইন্টারনেটের সাথে কানেক্ট করা। কেবল তখনই আপনি হার্ড ডিস্কটি আপনার কম্পিউটারের সাথে সংযুক্ত না করেও ঐ ফাইলগুলো দেখতে পাবেন। ঠিক তেমনি প্রত্যেকটি সার্চ ইঞ্জিনের এ ধরণের বিশাল বিশাল হার্ড ডিস্কের সমন্বয়ে তৈরি করা সার্ভার রয়েছে। যেগুলোতে প্রত্যেকটি সার্চ ইঞ্জিন ইন্টারনেটের সকল তথ্য তাদের ঐ হার্ড ডিস্কে মজুদ করে রাখে এবং সেখান থেকেই সাবার সামনে সার্চ কোয়ারী অনুযায়ী তথ্য প্রদান করে। এখন আপনার মনে হয়ত আরেকটি প্রশ্ন জাগবে যে, কিভাবে সার্চ ইঞ্জিন এসব তথ্য সংগ্রহ করে?
কিভাবে সার্চ ইঞ্জিন তথ্য সংগ্রহ করে?
আপনাদের মধ্যে যারা আমার মত কম্পিউটার ও ইন্টারনেট সম্পর্কে কম বুঝেন, তারা নরমালি ভেবে থাকেন যে, যখন গুগলে কোন কিছু লিখে সার্চ করা হয় তখন গুগল তাদের তৈরি করা তথ্য হতে আপনাকে বিভিন্ন তথ্য দেখায়। আসলে গুগল আমাদেরকে যেসব তথ্য দেখায় সেটির একটিও তাদের তৈরি নয়। আপনি হয়ত এ কথাটি শুনার পর অবাক হচ্ছেন! এখানে অবাক হওয়ার কিছুই নেই। এ বিষয়টি আমি আপনাদেরকে আরো সহজভাবে বুঝানোর চেষ্টা করছি।বর্তমানে এমন কিছু নেই যেটি গুগলে সার্চ করলে পাওয়া যাবে না। একটি পিপড়া থেকে শুরু করে মহাকাশ গবেষনার মত কঠিন ও জঠিল বিষয়ে গুগলে সার্চ দিলে গুগল আপনাকে মুহুর্তে তথ্য দিয়ে দেবে। মোট কথা গুগলের কাছে নেই বলতে কোনকিছু নেই।
এগুলো পড়তে পারেন-
- কিভাবে Google তাদের Search Results আপডেট করে?
- কিভাবে একটি ব্লগ/ওয়েবসাইট গুগল সার্চ ইঞ্জিনে সাবমিট করতে হয়?
- কিভাবে একটি ব্লগ Bing এবং Yahoo সার্চ ইঞ্জিনে সাবমিট করতে হয়?
- অফ পেজ এসইও: কমপ্লিট গাইডলাইন!
- কিভাবে Blogger ব্লগে Google Analytics যুক্ত করতে হয়?
আপনি এটা নিশ্চয় জানেন যে, অনলাইনে বর্তমানে কোটি কোটি ওয়েবসাইট ও ব্লগ রয়েছে। প্রতিদিন লক্ষ লক্ষ নতুন ওয়েবসাইট বাড়ছে। এ মহাবিশ্বে যত মানুষ রয়েছে, তারাই এসব ব্লগ ও ওয়েবসাইট তৈরি করছে। প্রত্যেকটি ওয়েবসাইটের মালিক তার জ্ঞান ও অভীজ্ঞতা নিজ নিজ ওয়েবসাইটে লিখছে। আমার ব্লগটিও কোটি কোটি ওয়েবসাইটের মধ্যে একটি। এখানে সার্চ ইঞ্জিন বা গুগল সার্চ ইঞ্জিন যেটা করছে সেটা হচ্ছে যে, এক ধরনের ওয়েব সফটওয়ার বা ক্রলার বা বট এর সাহায্যে পুরো বিশ্বের কোটি কোটি ওয়েবসাইটের তথ্য তাদের তথ্য ভান্ডারে বা ওয়েব সার্ভারে জমা করে নিচ্ছে। পরবর্তীতে আপনি আমি যখন গুগল সার্চ ইঞ্জিনে বা অন্য কোন সার্চ ইঞ্জিনে কোন কিছু লিখে সার্চ করে তখন সার্চ ইঞ্জিন তাদের তথ্য ভান্ডারে মজুদ রাখা তথ্য হতে যেটি সবচাইতে ভালো সেটি আমাদের সামনে ধারাবাকিভাবে শো করে। তখন গুগল সার্চ ইঞ্জিন হতে সেই ওয়েবসাইটের লিংকে ক্লিক করে আমাদের প্রয়োজনীয় তথ্য দেখে নেই। আসলে গুগলে প্রদর্শিত সেই ওয়েবসাইটগুলোর মালিক গুগল নয়। গুগল এখানে পরের ঘাড়ে চড়ে নিজের ব্যবসা চালিয়ে যাচ্ছে। এটাকে এক ধরনের জ্ঞানের খেলা বলতে পারেন।
সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ
সাধারণত একটি সার্চ ইঞ্জিন তথ্য সংগ্রহ করার কাজটি তিনটি ধাপে করে থাকে। যেমন- ক্রলিং, ইনডেক্সিং ও ফলাফল প্রদান।ক্রলিং
প্রথম ধাপে সার্চ ইঞ্জিন তার ক্রলার বা বট-কে বিশ্বের প্রতিটি ওয়েবসাইটে তথ্য সংগ্রহ করার জন্য পাঠায়। দ্বিতীয় ধাপে ওয়েব ক্রলার বা বট প্রত্যেকটি ওয়েবসাইটের কনটেন্ট বা পোস্ট crawl করে। একটি ওয়েবসাইটের পোস্টের ভীতরে যত ধরনের লেখা, ইমেজ ও ভিডিও থাকে সেগুলো ক্রল করার মাধ্যমে তথ্য ভান্ডারে ইনডেক্স হয়।প্রত্যেকটি সার্চ ইঞ্জিনের এক ধরনের Web Crawlers সফটওয়ার রয়েছে। সার্চ ইঞ্জিনের ভাষায় এগুলিকে “রোবট বা বট” বলা হয়ে থাকে। এই Web Crawlers ইন্টারনেটের যত ওয়েবসাইট রয়েছে সেগুলির প্রত্যেকটি লিংক প্রতিনিয়তই ভিজিট করে। প্রতিবার একটি সাইট ভিজিট করার সময় ঐ সাইটের নতুন লিংকগুলো সংগ্রহ করে এবং Dead Link সার্ভার হতে মুছে দেয়। এভাবে প্রতিটি সাইট প্রতিনিয়তই Crawl হতে থাকে এবং নিত্য নতুন তথ্য তাদের সার্চ ইঞ্জিনের সার্ভারে মজুদ হতে থাকে।
ইনডেক্সিং
যেকোনো সার্চ ইঞ্জিনের ক্রলার বা রোবট ক্রল করার মাধ্যমে পেজকে ইনডেক্স করে নেয়। ইনডেক্স বিষয়টি বুঝানোর জন্য ছোট্ট একটি উদাহরণ দিচ্ছি। ধরুন- আপনার একটি মোবাইলের দোকান আছে। আপনার দোকানে শুধুমাত্র এক ধরনের মোবাইল না রেখে বিভিন্ন কোম্পানির মোবাইল বিক্রি করেন (যেমন- সামসং, শায়মি, অপ্প ইত্যাদি)। এ ক্ষেত্রে আপনি সব ধরনের ফোন একসাথে এলামেলো করে না রেখে ফোনের কোয়ালিটি ও কোম্পানি অনুসারে আলাদা আলাদা সাজিয়ে রাখবেন। তাহলে কাস্টমারের চাহিদা অনুসারে সহজে যেকোন মোবাইল কাস্টমারদের দেখাতে পারবেন।ঠিক একইবাবে এই পুরো বিশ্বে যত ওয়েবসাইট বা ব্লগ রয়েছে প্রত্যেকটা ওয়েবসাইটের মালিক আলাদা আলাদা বিষয়ে লিখে থাকেন। এখানে সার্চ ইঞ্জিন বট সবগুলো ওয়েবসাইটের বিষয় অনুসারে তাদের তথ্য ভান্ডারে আলাদা আলাদা সাজিয়ে রাখে। তারপর কোন ব্লগ তাদের তথ্য ভান্ডারের সবার উপরে রাখবে সেটা ওয়েবসাইটের মানের উপর নির্ভর করে। মূলত সার্চ ইঞ্জিনের এই প্রক্রিয়াটিকে ইনডেক্সিং বলা হয়। ইনডেক্সিং এর ভীতরে অনেকগুলো বিষয় থাকে। যেগুলো এখনে বর্ণনা করে শেষ করা যাবে না।
ফলাফল প্রদান
আমরা যখন কোন কিওয়ার্ড লিখে গুগল সার্চ ইঞ্জিনে বা অন্য কোন সার্চ ইঞ্জিনে সার্চ করি তখন সার্চ ইঞ্জিন বট তার ডাটাবেস থেকে ইনডেক্স করা লক্ষ লক্ষ পোস্ট থেকে রিলেভেন্ট রেজাল্ট আলগোরিদমের রেঙ্কিং ফ্যাক্টর বিবেচনা করে রেজাল্ট দেখায়। এই তিনটি প্রসেস মেনটেইন করার জন্য গুগলের হাজার হাজার কর্মী রয়েছে।কিভাবে একটি পোস্ট সার্চ রেজাল্টে আসে?
এ বিষয়টি একজন ব্লগার বা ওয়েব ডেভেলপার এর জন্য খুবই গুরুত্বপূর্ণ। কারণ একটি সাইট Crawl হওয়ার পরে এটি সার্চ ইঞ্জিনের হার্ড ডিস্কে মজুদ হয় কিন্তু এটি সার্চ ইঞ্জিনে প্রদর্শন করবে কি না বা স্থায়িভাবে মজুদ রাখা হবে কি না তা নির্ভর করবে Index হওয়ার উপর। আপনার ব্লগের লিংকটি যদি Index হয় তবেই আপনার লিখাটি সার্চ ইঞ্জিনে প্রকাশ হবে। এই Index হওয়া ডিপেন্ড করে আপনার আর্টিকেলের মানের উপর। আপনার লিখাটি যদি ভালমানেরে এবং ইউনিক হয় তাহলে অবশ্যই Index হবে এবং আর্টিকেলটি সার্চ ইঞ্জিনে সবার শীর্ষে থাকবে। আর যদি Index না হয় তাহলে Web Crawlers এটিকে তার মজুদ করা তথ্য হতে মুছে দেবে।বিশ্বের কয়েকটি জনপ্রিয় সার্চ ইঞ্জিন
বর্তমান বিশ্বে হাজার হাজার সার্চ ইঞ্জিন রয়েছে। তন্মধ্যে Google, Bing, Yahoo, Baidu, Yandex, DuckDuckGo, Ask.com, AOL.com, WolframAlpha, Internet Archive উল্লেখযোগ্য। এগুলোর মধ্যে Google, Bing, Yahoo, Baidu, Yandex হচ্ছে সবচাইতে জনপ্রিয়। আর সবগুলো সার্চ ইঞ্জিনের মধ্যে গুগল সার্চ ইঞ্জিন হচ্ছে জনপ্রিয়তার শীর্ষে। সার্চ ইঞ্জিন মার্কেটের প্রায় ৯১.৯৮ ভাগ গুগল নিজে একাই দখল করে রেখেছে।গুগল সার্চ ইঞ্জিন
Google LLC বা গুগল লিমিটেড লায়াবেলিটি কোম্পানি ইন্টারনেটভিত্তিক সেবা ও পণ্যে বিশেষায়িত একটি আমেরিকান বহুজাতিক প্রযুক্তি কোম্পানি। স্ট্যানফোর্ড বিশ্ববিদ্যালয়ে পিএইচডি ছাত্র থাকাকালীন ল্যারি পেজ ও সের্গেই ব্রিন ১৯৯৮ সালে গুগল নির্মান করেন। গুগলের ১৪ শতাংশ শেয়ার তাদের এবং বিশেষ সুপারভোটিং ক্ষমতার মাধ্যমে ৫৬ শতাংশ স্টকহোল্ডারকে নিয়ন্ত্রণ করে।সেপ্টেম্বর ৪, ১৯৯৮ সালে তারা গুগলকে প্রাইভেট কোম্পানি হিসেবে অন্তর্ভুক্ত করে। গুগল আগস্ট ১৯, ২০০৪ সালে ইনিশিয়াল পাবলিক অফারিং (আইপিও) দেয় ও গুগলপ্লেক্স নামে মাউন্টেইন ভিউতে তাদের নতুন সদরদপ্তরে স্থানান্তরিত হয়।আগস্ট ২০১৫ সালে গুগল এর বিভিন্ন কার্যক্রম আলফাবেট ইনকর্পোরেটেড নামে সমন্বিত করার পরিকল্পনার কথা জানায়। আলফাবেটের প্রধান অধীনস্থ সংগঠন হিসেবে আলফাবেটের ইন্টারনেট কার্যক্রম পরিচালনা করবে। পুনগঠনের সমাপনী অংশ হিসেবে সুন্দর পিচাই গুগলের প্রধান নির্বাহী কর্মকর্তা হিসেবে ল্যারি পেজকে প্রতিস্থাপন করেন। (ল্যারি পেজ এখন আলফাবেটের প্রধান নির্বাহী কর্মকর্তা)