ছবিতে নিখুঁত লেখার নতুন সক্ষমতা চ্যাটজিপিটির
কৃত্রিম বুদ্ধিমত্তাভিত্তিক ছবি তৈরির ক্ষেত্রে বড় পরিবর্তন এনেছে চ্যাটজিপিটির নতুন সংস্করণ। আগে যেখানে এআই তৈরি ছবিতে লেখার ভুল সহজেই চোখে পড়ত, এখন তা অনেকটাই নির্ভুল। নতুন মডেল এমনভাবে লেখা তৈরি করছে, যা সরাসরি ব্যবহারযোগ্য।
কিছুদিন আগেও ছবি তৈরি মডেল দিয়ে কোনো রেস্তোরাঁর মেনু বানাতে গেলে অদ্ভুত বানানের খাবারের নাম দেখা যেত। খাবারের নামে ভুল ছিল স্বাভাবিক। কিন্তু এখন চ্যাটজিপিটির নতুন ‘ইমেজেস ২.০’ মডেল দিয়ে তৈরি মেনু বাস্তব রেস্তোরাঁয় ব্যবহারযোগ্য মনে হয়। গ্রাহকের পক্ষে এটি কৃত্রিমভাবে তৈরি বুঝে ওঠা কঠিন।
আগের সংস্করণে এই ধরনের বানান ভুল বেশি দেখা যেত। কারণ, ঐসব মডেল মূলত ডিফিউশন পদ্ধতিতে কাজ করত। এতে এলোমেলো নয়েজ থেকে ছবি পুনর্গঠন করা হয়। ফলে ছবির ভেতরের লেখা খুব ছোট অংশ হওয়ায় সেটিকে ঠিকভাবে শেখা কঠিন ছিল।
বিশেষজ্ঞদের মতে, ডিফিউশন মডেল পুরো ছবির প্যাটার্ন শেখায় বেশি গুরুত্ব দিত। লেখার মতো সূক্ষ্ম অংশ সেখানে গুরুত্ব কম পেত। তাই বানান ভুল বেশি দেখা যেত।
নতুন প্রজন্মের মডেলে গবেষকেরা অটো-রিগ্রেসিভ পদ্ধতির মতো প্রযুক্তি ব্যবহার করছেন। এই পদ্ধতিতে ছবির প্রতিটি অংশ কীভাবে হবে, তা ধাপে ধাপে অনুমান করে তৈরি করা হয়। এর কাজের ধরন অনেকটা ভাষা মডেলের মতো হওয়ায় লেখার নির্ভুলতা বেড়েছে।
তবে ‘ইমেজেস ২.০’ ঠিক কোন প্রযুক্তিতে তৈরি, সে বিষয়ে নির্মাতা প্রতিষ্ঠান বিস্তারিত জানায়নি। সাম্প্রতিক এক ব্রিফিংয়ে এ প্রশ্নের উত্তরও দেওয়া হয়নি।
প্রতিষ্ঠানটি জানিয়েছে, নতুন মডেলে রয়েছে ‘ভাবনাশক্তি’ ধরনের সক্ষমতা। এটি ওয়েব থেকে তথ্য খুঁজতে পারে, একটি নির্দেশনা থেকে একাধিক ছবি তৈরি করতে পারে এবং নিজের তৈরি কাজ যাচাই করতেও পারে। ফলে বিভিন্ন আকারের বিপণন উপকরণ বা একাধিক ফ্রেমের কমিক তৈরি করা সহজ হয়েছে।
আরও একটি গুরুত্বপূর্ণ অগ্রগতি হলো, এই মডেল ল্যাটিন ভাষা ছাড়াও অন্য ভাষায় লেখাও ভালোভাবে তৈরি করতে পারে। জাপানি, কোরিয়ান, হিন্দি এবং বাংলা ভাষার লেখাও আগের তুলনায় বেশি নির্ভুলভাবে তৈরি সম্ভব।
তবে মডেলের জ্ঞানভাণ্ডার ২০২৫ সালের ডিসেম্বর পর্যন্ত সীমিত। ফলে সাম্প্রতিক ঘটনাভিত্তিক ছবি তৈরিতে কিছু সীমাবদ্ধতা থাকতে পারে।
নির্মাতা প্রতিষ্ঠানের দাবি, এই নতুন সংস্করণ ছবি তৈরিতে অভূতপূর্ব নিখুঁততা এনেছে। এটি জটিল ধারণা বোঝার পাশাপাশি ছোট লেখা, আইকন, ব্যবহারকারী ইন্টারফেস, ঘন বিন্যাস এবং সূক্ষ্ম নকশাও সঠিকভাবে তৈরি করতে পারে। সর্বোচ্চ ২কে রেজল্যুশন পর্যন্ত ছবি তৈরি সম্ভব।
যদিও এই উন্নত সক্ষমতার কারণে ছবি তৈরি আগের তুলনায় কিছুটা সময় নেয়, তবু বহু ফ্রেমের জটিল কমিকও কয়েক মিনিটে তৈরি করা যাচ্ছে।
গতকাল (মঙ্গলবার) থেকে সব ব্যবহারকারী এই সুবিধা পাচ্ছেন। তবে অর্থপ্রদানকারী ব্যবহারকারীরা আরও উন্নত মানের ছবি তৈরি করতে পারবেন। পাশাপাশি ‘জিপিটি-ইমেজ-২’ নামে একটি প্রোগ্রামিং ইন্টারফেসও উন্মুক্ত করা হয়েছে, যেখানে খরচ নির্ভর করবে ছবির মান ও রেজল্যুশনের ওপর।