
জন্য যুদ্ধ ছবিতে প্রয়োগ করা কৃত্রিম বুদ্ধিমত্তা এটা আর কেবল ভবিষ্যতের প্রতিশ্রুতি নয়: এটা এখানে, এবং এটা খুবই গুরুতর। রিংয়ের এক কোণে আমাদের আছে... চ্যাটজিপিটি ছবি ১.৫, নতুন OpenAI মডেল যা ChatGPT ইমেজগুলিকে শক্তিশালী করে; অন্যদিকে, ন্যানো কলা প্রো, দী গুগলের জনপ্রিয় ভিজ্যুয়াল জেনারেটর এবং এডিটর তার ইকোসিস্টেম জুড়ে একীভূত।প্রতিযোগিতা এতটাই তীব্র যে গুগলের অগ্রগতির পর ওপেনএআই অভ্যন্তরীণভাবে "কোড রেড" অবস্থার কথাও বলেছে।
যদি আপনি ভিজ্যুয়াল কন্টেন্ট নিয়ে কাজ করেন — তা হোক না কেন সৃজনশীল পেশাদার, বিপণনকারী, বিকাশকারী অথবা কেবল একজন শখের মানুষ— তুমি হয়তো ভাবছো যে দুটি মডেলের মধ্যে কোনটি তোমাকে ভালো ফলাফল দেবে। আসুন, শান্তভাবে কিন্তু সরাসরি আলোচনা করি, ChatGPT Image 1.5 এবং Nano Banana Pro কীভাবে গুরুত্বপূর্ণ ক্ষেত্রগুলিতে তুলনা করে: স্টাইল, ফটোরিয়ালিজম, ফর্ম্যাট, রেজোলিউশন, গতি, দাম, সম্পাদনা, রেফারেন্স এবং ব্যবহারকারীর অভিজ্ঞতা।
প্রসঙ্গ: কেন ChatGPT ইমেজ 1.5 এত গুরুত্বপূর্ণ
আগমনের আগমন চ্যাটজিপিটি ছবি ১.৫ এটি কোনও ছোটখাটো আপডেট নয়। OpenAI এটিকে তার নতুন ফ্ল্যাগশিপ ভিজ্যুয়াল মডেল হিসেবে উপস্থাপন করেছে, যা ChatGPT ইমেজ ট্যাব এবং API উভয়ের মাধ্যমেই উপলব্ধ। অফিসিয়াল বার্তাটি স্পষ্ট: এমন ছবি যা নির্দেশাবলী, সূক্ষ্ম সম্পাদনা এবং প্রজন্মকে আরও ঘনিষ্ঠভাবে অনুসরণ করে। চার গুণ পর্যন্ত দ্রুত আগের সংস্করণের তুলনায়।
এই লঞ্চটিও খুব নাজুক সময়ে এসেছে। গুগলের চাপের পর মিথুন 3 এবং এর ফ্ল্যাগশিপ ভিজ্যুয়াল জেনারেটর - ডাকনাম ন্যানো ব্যানানা - দিয়ে ওপেনএআই এক ধরণের ক্র্যাশ প্ল্যান সক্রিয় করেছে। লঞ্চের মতো বৃহত্তর পদক্ষেপের সমান্তরালে জিপিটি-২কোম্পানিটিকে এটা প্রমাণ করতে হবে যে তারা কেবল ভাষা মডেলেই নয়, দৃশ্যমান ক্ষেত্রেও নেতৃত্ব দিতে পারে।
অতএব, GPT ইমেজ 1.5 কেবল শুরু থেকে ছবি তৈরির মধ্যেই সীমাবদ্ধ নয়: এটি ভিত্তি হয়ে ওঠে চ্যাটজিপিটি ছবিঅ্যাপ এবং ওয়েবসাইটের মধ্যে একটি ডেডিকেটেড ট্যাব যা সত্য হিসাবে কাজ করে "সৃজনশীল স্টুডিও" চ্যাটজিপিটিতে একীভূতসেখান থেকে আপনি তৈরি করতে, সম্পাদনা করতে, শৈলী প্রয়োগ করতে, প্রস্তাবিত প্রম্পটগুলি নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং এমনকি অনুপ্রেরণার জন্য ডিজাইন করা একটি ফিডের মাধ্যমে নতুন ধারণা আবিষ্কার করতে পারেন।
স্টাইল আনুগত্য: আপনার অনুরোধ করা স্টাইলকে কে সবচেয়ে বেশি সম্মান করে
চিত্র মডেলগুলি মূল্যায়নের জন্য সবচেয়ে উদ্ঘাটনকারী পরীক্ষাগুলির মধ্যে একটি হল তাদের অনুসরণ করার ক্ষমতা পরীক্ষা করা নির্দিষ্ট ফটোগ্রাফিক স্টাইলদুটি মডেলের মধ্যে সবচেয়ে স্পষ্ট তুলনার মধ্যে একটি ছিল খুব বিস্তারিত প্রম্পট: লস অ্যাঞ্জেলেসের স্কেটবোর্ডিং সহ একটি ল্যান্ডস্কেপ, যাকে 90 এর দশকের শেষের দিকের ডকুমেন্টারি স্ট্রিট ফটোগ্রাফি হিসাবে বর্ণনা করা হয়েছে, 35 মিমি ফিল্মে, কোডাক পোর্ট্রা ৪০০ প্যালেটলাইকা এম-টাইপ ক্যামেরা, প্রাকৃতিক আলো, নরম বৈপরীত্য, নিঃশব্দ বাস্তবসম্মত রঙ, দৃশ্যমান ফিল্ম গ্রেন, প্রান্তে সামান্য কোমলতা এবং, খুব গুরুত্বপূর্ণভাবে, কোনও HDR বা আধুনিক ডিজিটাল শার্পিং নেই।
সেই পরীক্ষায়, ChatGPT ইমেজ ১.৫ শুধুমাত্র তিনি স্টাইলের মূল উপাদানটি তৈরি করেছিলেন: এমবেডেড ফিল্ম গ্রেইন এবং কোডাক পোর্ট্রা ৪০০ ফিল্ম রোল থেকে আরও জৈব অপটিক্যাল চেহারা আশা করা যায়। ফলস্বরূপ ছবিটি নরম প্রান্তগুলিকে সম্মান করে, ডিজিটাল হাইপার-শার্পনেসের অনুপস্থিতি এবং সেই তথ্যচিত্রটি ৯০ এর দশকের শেষের দিকের সাধারণ অনুভূতি।
ন্যানো ব্যানানা প্রো, তার পক্ষ থেকে, একটি দৃষ্টিনন্দন চিত্র তৈরি করেছে, তবে স্পষ্টতই আরও ন্যূনতম নান্দনিকতার সাথে। ডিজিটাল এবং ধারালোছবিটি খুব পরিষ্কার এবং তীক্ষ্ণ ছিল, অ্যানালগ গ্রেইন এবং প্রম্পটে যা লেখা ছিল তা সামান্য অসম্পূর্ণ টেক্সচারের অভাব ছিল। অন্য কথায়, আরও গভীর শৈলীগত স্তরে, গুগলের মডেলটি তার লক্ষ্য থেকে বিচ্যুত হয়েছিল: এটি 35 মিমি ফিল্মের একটি বিশ্বস্ত অনুকরণের চেয়ে একটি ভাল আধুনিক চিত্র ছিল।
এই ধরণের কেস থেকে বোঝা যায় যে ChatGPT Images 1.5-এ একটি জটিল স্টাইল নির্দেশাবলীর আরও ভালো আনুগত্যএটি বিশেষ করে ফটোগ্রাফার, শিল্প পরিচালক বা স্রষ্টাদের জন্য প্রাসঙ্গিক যারা নির্দিষ্ট যুগ, ইমালশন বা অ্যানালগ কর্মপ্রবাহ পুনরায় তৈরি করতে চান।
মোবাইল ফটোগ্রাফিতে ফটোরিয়ালিজম: আইফোন পরীক্ষা
আরেকটি গুরুত্বপূর্ণ দৃশ্যকল্প হল আধুনিক আলোকবাস্তববাদ, যেখানে উভয় মডেলেরই একটির শৈলী অনুকরণ করার ক্ষমতা একটি আধুনিক স্মার্টফোন দিয়ে তোলা ছবিব্যবহৃত প্রম্পটটি ছিল: মার্চের ঠান্ডা সকালে আমস্টারডামের একটি শান্ত বারান্দায় একজন তরুণীর একটি আলোক-বাস্তববাদী ছবি, যেখানে মাঠের গভীরতা অগভীর এবং একটি আইফোন দিয়ে তোলা।
এই তুলনায়, ফলাফল স্পষ্টতই এর দিকে ঝুঁকেছে ন্যানো কলা প্রোগুগল মডেলের তৈরি ছবিটি সত্যিই মোবাইল ফোন দিয়ে তোলা ছবির মতো দেখাচ্ছিল: স্মার্টফোন ক্যামেরার সাথে সামঞ্জস্যপূর্ণ তীক্ষ্ণতা এবং ঝাপসা ভাব, বিশ্বাসযোগ্য রচনা এবং এমন একটি পরিবেশ যা প্রম্পটে অনুরোধ করা ঠান্ডা, শেষের দিকের শীতের অনুভূতিকে ভালোভাবে প্রকাশ করেছে।
এছাড়াও, ন্যানো বানানা একটি বিশদ বিবরণ যোগ করেছেন যা নিখুঁত না হলেও, তার প্রাসঙ্গিক সচেতনতার কথা ভালোভাবে বলে: তিনি অন্তর্ভুক্ত করেছেন একটি আসল আমস্টারডাম ক্যাফের পোস্টারসঠিক অবস্থানটি সঠিক ছিল না, তবে এটি শহরের একটি খাঁটি স্থানীয় প্রতিষ্ঠানে থাকার অনুভূতি প্রকাশ করেছিল, যা দৃশ্যের বাস্তবতাকে আরও জোরদার করেছিল।
অন্যদিকে, ChatGPT Images 1.5, একটি সহ একটি ছবি তৈরি করেছে আরও "এআই" দিকপ্রশিক্ষিত চোখের জন্য সূক্ষ্ম কিন্তু লক্ষণীয় ত্রুটিগুলি সহ: কিছু সামান্য প্লাস্টিকের মতো টেক্সচার, কম প্রাকৃতিক ঝাপসা, এবং সামগ্রিক পরিবেশ যা একটি আসল আইফোন ছবির সাথে পুরোপুরি মিশে যায়নি। সহজ কথায়: ন্যানো বানানা অনেক বেশি বিশ্বাসযোগ্য স্মার্টফোনের নান্দনিকতা অর্জন করেছে।
আংশিক উপসংহার: যদি আপনার অগ্রাধিকার হয় উৎপন্ন করা বিশ্বাসযোগ্য মোবাইল ফোনের ছবি (নেটওয়ার্ক, প্রচারণার প্রোটোটাইপ, প্রসঙ্গে পণ্যের মকআপ ইত্যাদির জন্য), ন্যানো ব্যানানা বর্তমানে তাৎক্ষণিক বাস্তবতার ক্ষেত্রে এক ধাপ এগিয়ে বলে মনে করে।
আকৃতির অনুপাত: ফর্ম্যাটের নমনীয়তা গুগলের পক্ষে কাজ করে
স্টাইলের বাইরে, পেশাদার উৎপাদনে, নিম্নলিখিত বিষয়গুলি অত্যন্ত গুরুত্বপূর্ণ: ফর্ম্যাট নমনীয়তাএখানে, ন্যানো ব্যানানা প্রো মোটের জন্য নেটিভ সাপোর্ট প্রদান করে ৮টি আকৃতির অনুপাত ভিন্ন:
- 1:1 (বর্গক্ষেত্র)
- 3:2 (ক্লাসিক ল্যান্ডস্কেপ)
- 2:3 (সাধারণ উল্লম্ব)
- 4:3
- 3:4
- 16:9 (স্ট্যান্ডার্ড প্যানোরামিক)
- 9:16 (গল্প এবং ছোট ছবির জন্য উল্লম্ব)
- 21:9 (আল্ট্রা প্যানোরামিক)
অন্যদিকে, ChatGPT Images 1.5 শুধুমাত্র এর সাথে সামঞ্জস্যপূর্ণতা প্রদান করে ৮টি আকৃতির অনুপাতযদিও এটি মৌলিক বিষয়গুলো অন্তর্ভুক্ত করে, তবে ন্যানো ব্যানানার বৈচিত্র্যের তুলনায় এটি কম, বিশেষ করে যদি আপনার নির্দিষ্ট প্রয়োজনীয়তা (ব্যানার, রিল, ডিসপ্লে বিজ্ঞাপন, ওয়ালপেপার ইত্যাদি) সহ একাধিক ডিজিটাল প্ল্যাটফর্মের সাথে খাপ খাইয়ে নেওয়া সামগ্রীর প্রয়োজন হয়।
দৈনন্দিন ব্যবহারে, এই সীমাবদ্ধতার অর্থ হল ChatGPT Images 1.5 এর সাথে আপনাকে আরও ঘন ঘন কেটে পুনর্গঠন করুনঅন্যদিকে ন্যানো ব্যানানার সাহায্যে আপনি সরাসরি পছন্দসই চূড়ান্ত ফর্ম্যাটে তৈরি করতে পারেন, সময় সাশ্রয় করতে পারেন এবং উল্লেখযোগ্য ফ্রেমিং ক্ষতি এড়াতে পারেন।
সর্বোচ্চ রেজোলিউশন: আউটপুট মানের দিক থেকে কে সবচেয়ে এগিয়ে যায়
শর্তাবলী সমাধান, ন্যানো কলা প্রো আবার নেতৃত্ব নেয় প্রযুক্তিগত সম্ভাবনাChatGPT Images 1.5 অনুমতি দেয়:
- সংক্রান্ত সিদ্ধান্ত 1K বর্গাকার বিন্যাসের জন্য।
- আনুমানিক রেজোলিউশন 1,5K ল্যান্ডস্কেপ বা পোর্ট্রেট ফর্ম্যাটের জন্য।
ন্যানো ব্যানানা প্রো, তার পক্ষ থেকে, সমর্থন:
- 1K বেস।
- 2K সর্বোচ্চ মানসম্মত কাজের রেজোলিউশন হিসেবে।
- 4K প্রক্রিয়াগুলির মাধ্যমে সমন্বিত আপস্কেলিং, যেখানে উচ্চতর সংজ্ঞা প্রয়োজন সেখানে ব্যবহারের জন্য ডিজাইন করা হয়েছে (মুদ্রণ, বড় পর্দা, আক্রমণাত্মক ক্রপিং, ইত্যাদি)।
এর মানে হল, অনেক ক্ষেত্রে একই খরচে, ন্যানো কলা অফার করছে আরও পিক্সেল এবং পোস্ট-এডিটিং এর জন্য আরও জায়গা।যেসব কাজের জন্য জুম করার সময় বড় করা বা চরম পরিষ্কারের প্রয়োজন হয়, সেখানে ১K/১.৫K থাকা বা ২K/৪K পর্যন্ত যেতে সক্ষম হওয়ার মধ্যে পার্থক্য তুচ্ছ নয়।
জেনারেশনের গতি: ওপেনএআই-এর তত্ত্ব বনাম কাঁচা সংখ্যা
OpenAI দাবি করে যে ChatGPT Images 1.5 হল চারগুণ পর্যন্ত দ্রুত আগের সংস্করণের তুলনায়। বাস্তবে, ন্যানো ব্যানানার তুলনায়, তুলনাটি রেজোলিউশনের উপর নির্ভর করে, তবে টেবিলের তথ্য স্পষ্ট।
থেকে প্রস্থানের জন্য 1K:
- চ্যাটজিপিটি ইমেজ 1.5: প্রতি ছবিতে ৩০ থেকে ৪৫ সেকেন্ডের মধ্যে।
- ন্যানো কলা প্রো: ১০ থেকে ১৫ সেকেন্ডের মধ্যে।
অন্য কথায়, ন্যানো কলা প্রায় ১ হাজার তিন গুণ দ্রুত চ্যাটজিপিটি ইমেজ ১.৫। যেখানে জিপিটি আধা মিনিট বা তার বেশি সময় নেয়, সেখানে গুগলের মডেল মাত্র ১০ সেকেন্ডেরও বেশি সময়ে ফলাফল প্রদান করে, যা অনেক বৈচিত্র্য পুনরাবৃত্তি করার সময় খুব লক্ষণীয়।
আমরা যদি যাই উচ্চতর রেজোলিউশন:
- চ্যাটজিপিটি ইমেজ 1.5: ১.৫ কিলোমিটার পর্যন্ত, ৫০ থেকে ৬০ সেকেন্ড সময় সহ।
- ন্যানো কলা প্রো৩০ থেকে ৬০ সেকেন্ডে ২K, এবং স্কেলিং এর মাধ্যমে কয়েক মিনিটে ৪K।
এখানে চাবিকাঠি যে ন্যানো কলা ২ হাজারে পৌঁছেছে প্রায় একই সময়ে GPT-এর ১.৫K ছবি তৈরি করতে হয়। স্টুডিও, এজেন্সি, অথবা পণ্য দল যাদের প্রচুর পরিমাণে ছবির প্রয়োজন, তাদের জন্য এই সমন্বয় উচ্চ রেজোলিউশন এবং কম অপেক্ষা এটা খুবই জোরালো যুক্তি।
API মূল্য নির্ধারণ: একই অর্থের জন্য কে বেশি অফার করে
API-এর মাধ্যমে প্রতি ব্যবহারের খরচের ক্ষেত্রে, গল্পটি পুনরাবৃত্তি হয়: ন্যানো কলা অফার করে একই সূচক মূল্যে উচ্চতর রেজোলিউশনউপলব্ধ তুলনা অনুসারে:
- পাড়া 1KChatGPT Images 1.5 এবং Nano Banana Pro প্রায় একই পরিসরে কাজ করে প্রতি ছবি $০.১৫-$০.১৭.
- En 2KChatGPT Images 1.5 এর কোন বিকল্প নেই, যেখানে Nano Banana সেই পরিসর বজায় রাখে $৩৯-৪৪.
- পাড়া 4K (আপস্কেলিংয়ের মাধ্যমে), ন্যানো কলা এর আশেপাশে অবস্থিত $৩৯-৪৪ প্রতি ছবিতে।
ব্যবহারিক অর্থে অনুবাদ করলে, ন্যানো ব্যানানা এপিআই আপনাকে দেয় ChatGPT Images 1.5 1K এর জন্য যে দাম দেয়, তাতে 2Kএটি গুগলের সমাধানটিকে তাদের জন্য একটি ভালো মূল্যের বিকল্প করে তোলে যারা অনেক ছবি তৈরি করেন অথবা মুদ্রণ বা উচ্চ-ঘনত্বের প্রদর্শনের জন্য উপাদানের প্রয়োজন হয়।
সম্পাদনা ক্ষমতা: মূলের প্রতি নির্ভুলতা এবং শ্রদ্ধা
OpenAI-এর এই নতুন ভিজ্যুয়াল প্রজন্মের একটি দুর্দান্ত বিপ্লব হল নির্দিষ্ট উপাদানের সুনির্দিষ্ট সম্পাদনাঐতিহাসিকভাবে, চিত্র মডেলগুলির দৃশ্যের শুধুমাত্র একটি অংশ পরিবর্তন করতে গুরুতর সমস্যা ছিল: আপনি একটি নির্দিষ্ট সমন্বয়ের জন্য জিজ্ঞাসা করতেন এবং সিস্টেমটি চিত্রের অর্ধেকটি পুনরায় ব্যাখ্যা করত।
চ্যাটজিপিটি ইমেজ সহ 1.5ChatGPT Images ঠিক বিপরীত প্রতিশ্রুতি দেয়: আপনি বলতে পারেন, উদাহরণস্বরূপ, "শুধু মুখের ভাব পরিবর্তন করুন" অথবা "ফ্রেমিং স্পর্শ না করে আলো পরিবর্তন করুন" এবং মডেলটি সক্ষম বৈশিষ্ট্য এবং গঠন অক্ষত রাখতেমুখের বৈশিষ্ট্য, আলো, টোন, ফ্রেমিং... সবকিছুই সংরক্ষিত থাকে যদি না আপনি প্রম্পটে ভিন্ন কিছু নির্দেশ করেন।
ওপেনএআই জোর দিয়ে বলে যে সিস্টেমটি এখন আপনি কী পরিবর্তন করতে চান এবং আপনি কী পরিবর্তন করতে চান উভয়ই অনেক ভালোভাবে বোঝে। এটি পরিবর্তন করা উচিত নয়বাস্তবে, এটি অনুমতি দেয় কর্মপ্রবাহ যেমন:
- কোনও চরিত্রের মুখের নকশা নতুন করে না সাজিয়ে তার অভিব্যক্তি সামঞ্জস্য করা।
- শুধুমাত্র পোশাক, সাইনবোর্ড বা যানবাহনের রঙ পরিবর্তন করুন।
- ফ্রেমিং এবং কম্পোজিশন বজায় রেখে সামগ্রিক আলো পরিবর্তন করুন।
- দৈনন্দিন দৃশ্যগুলোকে রূপান্তরিত করা সিনেমার পোস্টার অথবা মূল বিষয়বস্তুর প্রতি শ্রদ্ধা রেখে অন্য কোনও স্টাইলের চিত্র।
অন্যদিকে, ন্যানো ব্যানানা প্রোও সমর্থন করে সাধারণ সম্পাদনা এবং ব্যবহারকারীর অভিপ্রায়ের প্রতি বেশ নির্ভরযোগ্যভাবে সাড়া দেয়যেসব পরীক্ষায় রাতের গাড়ির ছবিকে দিনের দৃশ্যে রূপান্তরিত করার কথা ছিল, সেখানে দুটি মডেলই ভালো পারফর্ম করেছে, যদিও কিছু বিশ্লেষক নান্দনিক দৃষ্টিকোণ থেকে গুগলের ফলাফলকে কিছুটা উন্নত বলে মনে করেছেন।
তুলনা সারণীতে, GPT ইমেজ 1.5 এবং ন্যানো কলা উভয়কেই বিবেচনা করা হয়েছে। তারা শক্তিশালী সম্পাদনা এবং উদ্দেশ্যের প্রতি ভালো আনুগত্য প্রদান করেঅতএব, এই অংশটি তুলনামূলকভাবে সমান দেখাচ্ছে, নতুন ChatGPT Images ইন্টারফেসের মধ্যে সূক্ষ্ম নিয়ন্ত্রণের ক্ষেত্রে GPT একটি সুবিধা অর্জন করছে।
রেফারেন্স ছবির ব্যবহার: বিশ্বস্ততা বনাম পরিমাণ
পেশাদার কাজের জন্য আরেকটি গুরুত্বপূর্ণ ক্ষেত্র হল ব্যবস্থাপনা রেফারেন্স ছবিপ্রতিটি মডেলের বিভিন্ন সুবিধা রয়েছে।
ChatGPT Images 1.5 সর্বোচ্চ পর্যন্ত কাজ করার অনুমতি দেয় পাঁচটি রেফারেন্স ছবি এবং সর্বোপরি, এটি স্তরের উপর স্পষ্ট নিয়ন্ত্রণ প্রদান করে বিশ্বস্ততা আপনি কি মডেলটিকে তাদের অনুসরণ করতে চান? অর্থাৎ, আপনি কি রেফারেন্সের একটি খুব বিশ্বস্ত পুনরুৎপাদন ("উচ্চ বিশ্বস্ততা") চান নাকি একটি মুক্ত ব্যাখ্যা চান যা কেবল সাধারণ নান্দনিকতা গ্রহণ করে তা আপনি সামঞ্জস্য করতে পারেন।
অন্যদিকে, ন্যানো ব্যানানা প্রো তার ভলিউমের জন্য আলাদা: এটি পর্যন্ত সমর্থন করে ১৪টি রেফারেন্স ছবি একটি মাত্র অনুরোধে। এটি একাধিক উৎস থেকে শৈলী, ভঙ্গি, অবস্থান এবং উপাদানগুলিকে একত্রিত করার দরজা খুলে দেয়, এতগুলি পুনরাবৃত্তি একসাথে শৃঙ্খলিত না করেই।
এই পার্থক্যগুলির সামগ্রিক ব্যাখ্যা হল, দৃশ্যমান রেফারেন্সে, একটি শক্তির ভারসাম্যবিশ্বস্ততা নিয়ন্ত্রণে GPT উৎকৃষ্ট, অন্যদিকে ন্যানো ব্যানানা যুগপত রেফারেন্সের সংখ্যার দিক থেকে উৎকৃষ্ট। আপনি সাদৃশ্যকে সূক্ষ্মভাবে সুরক্ষিত করতে চান নাকি অনেক ইনপুট একত্রিত করতে চান তার উপর নির্ভর করে, একটি বা অন্যটি আরও উপযুক্ত হতে পারে।
চ্যাটজিপিটি ইমেজেসের নতুন ইন্টারফেস: চ্যাটের মধ্যে একটি সৃজনশীল স্টুডিও
মডেলের ক্ষমতার বাইরেও, OpenAI ChatGPT-এর মধ্যে চিত্রগুলির সাথে কীভাবে ইন্টারঅ্যাক্ট করতে হয় তা পুনর্কল্পনা করেছে। এখন একটি ছবি নামক নির্দিষ্ট ট্যাব, ওয়েব সংস্করণ এবং মোবাইল অ্যাপ উভয় ক্ষেত্রেই অ্যাক্সেসযোগ্য, যা অভিজ্ঞতাকে একটি সাধারণ টেক্সট বক্সের চেয়ে সৃজনশীল স্টুডিওর কাছাকাছি কিছুতে রূপান্তরিত করে।
সেই ট্যাব থেকে আপনি করতে পারেন:
- কাজ শুরু করুন ব্যক্তিগত চিত্রের উপর ভিত্তি করেসেটা কোনও প্রতিকৃতি, কোনও পণ্যের ছবি, অথবা কোনও দৈনন্দিন দৃশ্যই হোক না কেন।
- অন্বেষণ করা ফিল্টার এবং পূর্বনির্ধারিত শৈলী জটিল প্রম্পট না লিখেই আপনাকে অনুপ্রাণিত করার জন্য।
- সিস্টেম দ্বারা ইতিমধ্যেই প্রদত্ত প্রম্পটগুলি থেকে পরামর্শগুলি ব্যবহার করুন, যা সৃজনশীল টেমপ্লেট হিসাবে কাজ করে।
- স্ক্র্যাচ থেকে তৈরি করুন, ইতিমধ্যে যা তৈরি হয়েছে তা সম্পাদনা করুন, অথবা সম্পূর্ণ ভিন্ন প্রেক্ষাপটে একই ডাটাবেসকে পুনরায় কল্পনা করুন।
ওপেনএআই পণ্য পরিচালকরা এই বিভাগটিকে একটি হিসাবে বর্ণনা করেন ChatGPT-এর মধ্যে "সৃজনশীল স্টুডিও" স্থাপন করা হয়েছেএটি এমনভাবে ডিজাইন করা হয়েছে যাতে আপনাকে ডিজাইনার হতে হবে না বা উন্নত কমান্ডে দক্ষ হতে হবে না। এটি হল আপনি কী দেখতে চান তা নির্দেশ করা, দ্রুত পরিবর্তনের সাথে খেলা (গতির উন্নতির সুযোগ নেওয়া), এবং ফলাফলগুলি অন্বেষণ করা, যেন আপনি কোনও ফটোশুটে বিভিন্ন সেট পরীক্ষা করছেন।
সৃজনশীল রূপান্তর: সাধারণ সেলফি থেকে সিনেমার দৃশ্যে
GPT ইমেজ 1.5 সহ ChatGPT ইমেজেস ন্যানো ব্যানানার সাথে সরাসরি প্রতিযোগিতা করতে চায় এমন একটি ক্ষেত্র হল বাস্তব ছবির উপর ভিত্তি করে সৃজনশীল রূপান্তরএই ধারণাটি ইতিমধ্যেই গুগলের মডেলের অন্যতম শক্তি ছিল, যা সাধারণ প্রতিকৃতিগুলিকে বিজ্ঞাপন, সিনেমাটিক দৃশ্য বা স্টাইলাইজড চিত্রে রূপান্তর করার মতো জিনিসগুলিকে অনুমতি দেয়।
নতুন OpenAI মডেলের সাথে, আপনাকে যা করতে হবে তা হল একটি ছবি আপলোড করুন —উদাহরণস্বরূপ, একটি পূর্ণ-শরীরের প্রতিকৃতি — এবং এর সাথে গভীর অথচ সুসংগত পরিবর্তন অর্জনের জন্য তুলনামূলকভাবে সহজ প্রম্পট যুক্ত করুন। কিছু বাস্তব-বিশ্বের উদাহরণ যা পরীক্ষিত হয়েছে তার মধ্যে রয়েছে:
- একজন সাধারণ মানুষের ছবি তুলুন এবং জিজ্ঞাসা করুন: "২০২৫ সালের শীতকালে টাইমস স্কয়ারে এটি স্থাপন করুন, যেখানে পোশাক এবং আশেপাশের পরিবেশ বছরের সেই সময়ের জন্য বিশ্বাসযোগ্য।".
- এটিকে একটিতে সরান সাইবারপাঙ্কের নান্দনিকতার সাথে বৃষ্টির রাতে জাপানি শহরনিয়ন আলো, পিচের উপর প্রতিফলন এবং একটি ভবিষ্যৎমুখী পরিবেশ সহ।
- এটি একটি মধ্যে পরিণত ঐতিহ্যবাহী বর্ম এবং কাতানা সহ জাপানি সামুরাই, একটি বাস্তবসম্মত ঐতিহাসিক প্রেক্ষাপটে যেখানে আধুনিক উপাদানের কোন চিহ্ন নেই।
- উৎপন্ন a নব্বইয়ের দশকের ইউরোপীয় ধাঁচের বিজ্ঞাপন নায়ক হিসেবে তার পূর্ণাঙ্গ দেহের ভাবমূর্তি ব্যবহার করে।
এই সমস্ত ক্ষেত্রে, ChatGPT Images 1.5 বজায় রাখার চেষ্টা করে ব্যক্তির চাক্ষুষ পরিচয় দৃশ্যের প্রেক্ষাপট, পোশাক এবং বর্ণনার সুর নাটকীয়ভাবে পরিবর্তিত হয়। OpenAI দ্বারা দেখানো অন্যান্য উদাহরণের ক্ষেত্রেও একই রকম কিছু ঘটে, যেখানে বিষয়, কুকুর এবং পরিবেশকে অত্যন্ত বিস্তারিত প্রম্পটের সাথে সামঞ্জস্যপূর্ণ সিনেমাটিক ছবিতে একত্রিত করা হয়।
ছবির মধ্যে নির্ভুলতা এবং লেখা বৃদ্ধি পায়
নতুন ওপেনএআই মডেলের আরেকটি গুরুত্বপূর্ণ উন্নতি হল নির্দেশাবলীর নির্ভুলতাঅনেক মানুষ নির্দিষ্ট বিবরণ জিজ্ঞাসা করার ("শার্ট লাল, টুপি হলুদ, ট্রাফিক সাইনবোর্ডের নম্বর ১৫ এ পরিবর্তন করুন...") হতাশার সম্মুখীন হয়েছেন এবং এমন ফলাফল পেয়েছেন যেখানে অর্ডারের কিছু অংশ উপেক্ষা করা হয়েছে, অথবা ভুলভাবে প্রয়োগ করা হয়েছে।
ChatGPT Images 1.5 এর মাধ্যমে, OpenAI দাবি করে যে এই ধরণের ত্রুটি উল্লেখযোগ্যভাবে হ্রাস পেয়েছে। আপনি যদি বিস্তারিত নির্দেশাবলী প্রদান করেন, তাহলে টুলটি আরও ভালভাবে সক্ষম হবে... প্রতিটি নির্দিষ্ট উপাদানকে সম্মান করুন: পোশাকের রঙ, চিহ্নের সংখ্যা, একটি নির্দিষ্ট পরিবেশের সাথে একটি ফ্রেমে একাধিক বিষয়ের সমন্বয়, ইত্যাদি।
অধিকন্তু, চিত্র মডেলগুলির জন্য ঐতিহাসিকভাবে সবচেয়ে সমস্যাযুক্ত ক্ষেত্রগুলির মধ্যে একটিতে কর্মক্ষমতা শক্তিশালী করা হয়েছে: ছবিতে এমবেড করা টেক্সট তৈরি করাপোস্টার, বিজ্ঞাপন, প্রচারমূলক উপাদান বা রচনা ডিজাইনের জন্য এটি অত্যন্ত গুরুত্বপূর্ণ যেখানে লিখিত বার্তাটি ছবি বা চিত্রের মতোই গুরুত্বপূর্ণ।
একটি উল্লেখযোগ্য নান্দনিক পরিবর্তনও রয়েছে: সেই চেহারা "হলুদ এবং ক্রিমি" ChatGPT-এর পূর্ববর্তী সংস্করণগুলি দ্বারা তৈরি অনেক ছবি তৈরির ইঙ্গিতটি উল্লেখযোগ্যভাবে হ্রাস পেয়েছে। আপনি যদি স্পষ্টভাবে এই ধরণের উষ্ণ সুরের অনুরোধ না করেন, তবে নতুন আউটপুটগুলি আরও নিরপেক্ষ এবং বৈচিত্র্যময় হতে থাকে, যার ফলে এক নজরে সনাক্ত করা কঠিন হয়ে পড়ে যে সেগুলি OpenAI মডেল থেকে এসেছে।
প্রাপ্যতা, গোপনীয়তা এবং সংযম
জিপিটি ইমেজ ১.৫ স্থাপন করা হচ্ছে সকল ChatGPT ব্যবহারকারীদের জন্য, বিনামূল্যের প্ল্যান সহওয়েব এবং মোবাইল অ্যাপ উভয় ক্ষেত্রেই। আপনি যদি অ্যাপটি ব্যবহার করেন, তাহলে সম্ভবত আপনি এটি খোলার সাথে সাথেই ছবি তৈরি শুরু করার জন্য একটি প্রম্পট দেখতে পাবেন, সাথে সাইডবারে নতুন ছবি বিভাগটিও থাকবে।
এই বিভাগটি কেবল আপনার তৈরি করা সমস্ত চিত্রকেই গোষ্ঠীভুক্ত করে না, বরং এতে অন্তর্ভুক্ত রয়েছে শৈলী পরামর্শ এবং উদাহরণ শুরু থেকে প্রম্পট ডিজাইন না করেই শুরু করার জন্য। আপনি আপনার পছন্দের ভিজ্যুয়াল স্টাইল বেছে নিতে পারেন, একটি ছবি আপলোড করতে পারেন অথবা একটি সেলফি তুলতে পারেন, এবং বাকি কাজ সিস্টেমকে করতে দিতে পারেন, পরে আপনার পছন্দ না হওয়া যেকোনো কিছু সামঞ্জস্য করতে পারেন।
ডেটা প্রক্রিয়াকরণের ক্ষেত্রে, OpenAI নির্দেশ করে যে সম্পাদনা একচেটিয়াভাবে করা হয় আপনার আপলোড করা ছবি এবং আপনার প্রদত্ত লেখাগুলিএই নির্দিষ্ট ক্রিয়াকলাপগুলির জন্য এটি আপনার অনুমতি ছাড়া বাহ্যিক উৎস ব্যবহার করে না। কোম্পানিটি তার নিরাপত্তা স্তরটি কার্যকরভাবে বজায় রাখে। বিষয়বস্তু নিয়ন্ত্রণ এবং প্রযুক্তিগত সীমাতবে, এটি ভিজ্যুয়াল মডেলকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত ডেটাসেটগুলি সুনির্দিষ্টভাবে নির্দিষ্ট করে না।
গুগল ইকোসিস্টেমে ন্যানো কলা: ইন্টিগ্রেশন এবং বাস্তব-বিশ্বের ব্যবহার
এদিকে, ন্যানো কলা — জেমিনি ২.৫ ফ্ল্যাশ ইমেজের জন্য একটি জনপ্রিয় ডাকনাম — জেনারেটর এবং সম্পাদক হিসেবে খ্যাতি অর্জন করেছে দ্রুত এবং ব্যবহার করা সহজগুগল ক্রমান্বয়ে এটিকে জেমিনি, গুগল ফটোস, সার্চ নিজেই এবং মেসেজের মতো পণ্যের সাথে একীভূত করছে, যার ফলে এটি দৈনন্দিন ব্যবহারকারীর অভিজ্ঞতায় স্বাভাবিকভাবেই উপস্থিত হচ্ছে।
এর ফলে ন্যানো কলা কেবল একটি স্বতন্ত্র হাতিয়ার হিসেবেই কাজ করে না, বরং একটি গুগল ইকোসিস্টেমের মধ্যে ক্রস-কাটিং অংশমোবাইল ছবি রিটাচ করা, ওয়ার্কস্পেস ডকুমেন্টের জন্য রিসোর্স তৈরি করা, অথবা ওয়েব কন্টেন্টের জন্য ছবি তৈরি করা লক্ষ লক্ষ ব্যবহারকারীর কাছে খুবই সহজলভ্য হয়ে ওঠে যারা সরাসরি কখনও কোনও AI "ল্যাব" পৃষ্ঠা অ্যাক্সেস করতে পারে না।
পাবলিক বেঞ্চমার্কে, যেমন LMArena টেক্সট-টু-ইমেজ র্যাঙ্কিংন্যানো ব্যানানা প্রো সংক্ষিপ্ত সময়ের জন্য চার্টের শীর্ষে ছিল, যদিও প্রকাশের কয়েক মিনিটের মধ্যেই জিপিটি ইমেজ ১.৫ শীর্ষস্থান দখল করে। তবে, ব্যবহারকারী এবং মিডিয়া আউটলেটগুলির দ্বারা ভাগ করা ব্যবহারিক উদাহরণগুলিতে, প্রকৃত ফলাফলগুলি আরও সূক্ষ্ম: এমন কিছু ক্ষেত্রে রয়েছে যেখানে ন্যানো ব্যানানা এখনও উন্নত বলে মনে হয়, বিশেষ করে তাৎক্ষণিক ফটোরিয়ালিজমে, এবং অন্যান্য ক্ষেত্রে যেখানে জিপিটি আরও বেশি নিয়ন্ত্রণ বা স্টাইলিস্টিক সমৃদ্ধি প্রদর্শন করে।
এই পরিস্থিতিতে, যা দেখা যাচ্ছে তা হল খুব ঘনিষ্ঠ প্রতিযোগিতা: GPT ইমেজ 1.5 সূক্ষ্ম নিয়ন্ত্রণ, জটিল শৈলী আনুগত্য এবং সমন্বিত সৃজনশীল স্টুডিওতে উৎকৃষ্ট।যদিও ন্যানো ব্যানানা প্রো গতি, রেজোলিউশন, ফর্ম্যাট বৈচিত্র্য এবং স্মার্টফোনের মতো বাস্তবতার ক্ষেত্রে উজ্জ্বল।একটি বা অন্যটি বেছে নেওয়া নির্ভর করবে আপনি প্রযুক্তিগত নমনীয়তা এবং গুগলের সাথে একীকরণকে বেশি মূল্য দেন কিনা, নাকি ChatGPT ইকোসিস্টেম, নতুন উন্নত সম্পাদনা বিকল্প এবং OpenAI-এর প্রস্তাব দ্বারা প্রদত্ত নিয়ন্ত্রণের স্তরের উপর।
