ChatGPT Images 1.5: এটি OpenAI-এর ছবির ক্ষেত্রে বড় অগ্রগতি।

  • চ্যাটজিপিটি ইমেজেস জিপিটি ইমেজ ১.৫ মডেলটি চালু করেছে, যা চারগুণ দ্রুত এবং উন্নত নির্দেশনা ট্র্যাকিং সহ।
  • নতুন এই টুলটি আপলোড করা ছবিগুলিতে সুনির্দিষ্ট সম্পাদনা করার সুযোগ দেয়, আলো, রচনা এবং মুখের বৈশিষ্ট্য বজায় রাখে।
  • ছবির মধ্যে এবং অনেক মুখ বা ছোট বিবরণ সহ জটিল দৃশ্যে টেক্সট তৈরিতে উল্লেখযোগ্য উন্নতি।
  • OpenAI ChatGPT-তে নিজস্ব চিত্র বিভাগ চালু করেছে, যা এখন API-এর মাধ্যমে বেশিরভাগ ব্যবহারকারীর জন্য উপলব্ধ।

চ্যাটজিপিটি ছবি

কৃত্রিম বুদ্ধিমত্তা-চালিত চিত্র তৈরি প্রযুক্তি জায়ান্টদের মধ্যে প্রতিযোগিতার সবচেয়ে দৃশ্যমান প্রদর্শনীগুলির মধ্যে একটি হয়ে উঠেছে। OpenAI পদক্ষেপ নেওয়ার সিদ্ধান্ত নিয়েছে একটি গভীর আপডেট সহ চ্যাটজিপিটি ছবি, এর সমন্বিত ভিজ্যুয়াল ক্রিয়েশন সিস্টেম, এমন একটি প্রেক্ষাপটে যেখানে গুগলের ন্যানো ব্যানানা প্রো-এর মতো মডেলগুলি বেশিরভাগ আলোচনার উপর আধিপত্য বিস্তার করছিল।

এই লঞ্চের মাধ্যমে, ChatGPT-এর পিছনের কোম্পানিটি চায় যে তাদের টুলটি একটি সাধারণ চ্যাট অ্যাড-অনের বাইরে গিয়ে একটি পূর্ণাঙ্গ বৈশিষ্ট্য হিসেবে কাজ করবে। একটি প্রকৃত সমন্বিত সৃজনশীল স্টুডিও, দ্রুততর, আরও নির্ভুল এবং একটি ইন্টারফেস সহ যা স্ক্র্যাচ থেকে ডিজাইন করা হয়েছে যাতে টেক্সটের মধ্যে সীমাবদ্ধ না থেকে ছবিগুলির সাথে কাজ করা যায়।

নতুন GPT ইমেজ 1.5 মডেল: গতি এবং নির্ভুলতা এর বৈশিষ্ট্য

আপডেটের মূল কথা হল জিপিটি চিত্র ১.৫ওপেনএআই-এর নতুন ফ্ল্যাগশিপ ছবির মডেল। কোম্পানির দাবি, এটি ভিজ্যুয়াল কন্টেন্ট তৈরি করতে পারে চার গুণ দ্রুত পূর্ববর্তী সংস্করণের তুলনায়, এমন কিছু যা বাস্তবে বিশেষ করে পিক আওয়ারে এবং মোবাইল ডিভাইসে লক্ষণীয়, যেখানে আগে অ্যাপ্লিকেশন পরিবর্তন করার সময় প্রক্রিয়াটি ব্যাহত হওয়া বা চিরতরে সময় নেওয়া অস্বাভাবিক ছিল না।

কর্মক্ষমতা ছাড়াও, মূল উন্নতি নির্দেশাবলী ট্র্যাকিংয়ের মধ্যে রয়েছে। সিস্টেমটি নির্দেশাবলী আরও সঠিকভাবে ব্যাখ্যা করে। জটিল ইঙ্গিত এবং সুনির্দিষ্ট স্থানিক সম্পর্কযাতে শুধুমাত্র একটি বস্তু পরিবর্তন, আলো সামঞ্জস্য করা, অথবা কোনও ব্যক্তির পোশাক পরিবর্তন করার মতো অনুরোধগুলি দৃশ্যের বাকি অংশে আর অপ্রত্যাশিত পরিবর্তন না আনে।

OpenAI ব্যাখ্যা করে যে GPT ইমেজ 1.5 কে গুরুত্বপূর্ণ ইমেজ উপাদানগুলিকে স্থির রাখার জন্য প্রশিক্ষিত করা হয়েছে, যেমন মুখের পরিচয়, সামগ্রিক গঠন, অথবা রঙের প্যালেটবেশ কয়েক দফা শৃঙ্খলিত সম্পাদনার পরেও। এই বিষয়টি পেশাদার ব্যবহারের জন্য বিশেষভাবে প্রাসঙ্গিক, যেখানে দৃশ্যমান ধারাবাহিকতা কোনও ইচ্ছা নয়, বরং একটি প্রয়োজনীয়তা।

স্পট এবং চেইন এডিটিং: শুধুমাত্র গুরুত্বপূর্ণ বিষয়গুলি পরিবর্তন করুন

পূর্ববর্তী মডেলগুলি যে ক্ষেত্রগুলিতে ব্যর্থ হয়েছিল তার মধ্যে একটি ছিল নির্দিষ্ট এলাকার লক্ষ্যবস্তু সম্পাদনাটুপি পরিবর্তন করা, আলো সামঞ্জস্য করা, অথবা পটভূমিতে কোনও উপাদান যুক্ত করা পুরো দৃশ্যটিকে রিমিক্স করতে পারে। নতুন চ্যাটজিপিটি ইমেজগুলি সরাসরি এই সমস্যার সমাধান করে।

মডেলটি সক্ষম উপাদান যোগ করুন, অপসারণ করুন, একত্রিত করুন, মিশ্রিত করুন এবং স্থানান্তর করুন একই চিত্রের মধ্যে, অন্যান্য সমস্ত গুরুত্বপূর্ণ উপাদান স্থিতিশীল রেখে। বাস্তবে, এর অর্থ হল: শার্টের রঙ পরিবর্তন করা, টুপি পরিবর্তন করা, ট্র্যাফিক সাইন সামঞ্জস্য করা, অথবা পরিবেশের বাকি অংশ বিকৃত না করে একটি ট্রাককে ফায়ার ট্রাকে রূপান্তর করা।

ফোন কলের ক্ষেত্রে আচরণও জোরদার করা হয়েছে চেইন সংস্করণএখন পর্যন্ত, তৃতীয় বা চতুর্থ পরিবর্তনের ফলে সাধারণত মডেলটি ছবিটিকে সম্পূর্ণরূপে "পুনর্নির্মাণ" করে ফেলত। GPT ইমেজ 1.5 এর সাহায্যে, টুলটি স্টাইল, ভঙ্গি এবং দৃশ্যকে আরও নির্ভরযোগ্যভাবে সংরক্ষণ করে, যাতে আপনি প্রতিটি পরিবর্তনের সাথে স্ক্র্যাচ থেকে শুরু না করে একই ভিত্তিতে পুনরাবৃত্তি করতে পারেন।

সৃজনশীল রূপান্তর: সেলফি থেকে সিনেমার পোস্টারে

প্রযুক্তিগত নির্ভুলতার বাইরেও, OpenAI ChatGPT ইমেজগুলিকে স্বতন্ত্রভাবে সৃজনশীল ক্ষেত্রের দিকে ঠেলে দিচ্ছে। এই সিস্টেমটি ব্যবহারকারীদের তাদের নিজস্ব ছবি আপলোড করতে এবং তুলনামূলকভাবে সহজ প্রম্পটের মাধ্যমে কয়েক সেকেন্ডের মধ্যে ছবিটি পেতে দেয়। বিশ্বাসযোগ্য রূপান্তরিত সংস্করণনব্বইয়ের দশকের বিজ্ঞাপন থেকে শুরু করে শীতের মাঝামাঝি টাইমস স্কোয়ারের একটি দৃশ্য অথবা সাইবারপাঙ্ক নান্দনিকতার জাপানি শহর।

মডেলটি পুনঃনির্মাণ করতেও সক্ষম নির্দিষ্ট শৈল্পিক শৈলী, যেমন ক্লাসিক সিনেমার পোস্টার, অ্যানিমে-ধাঁচের চিত্র, অথবা ঐতিহাসিক চেহারার রচনা, মূল ব্যক্তির মূল বৈশিষ্ট্যগুলিকে সম্মান করে। ধারণাটি হল ব্যবহারকারী নিজেকে খুব ভিন্ন প্রেক্ষাপটে "দেখতে" পারেন, এই অনুভূতি হারানো ছাড়াই যে এটি একই ব্যক্তি।

এই পদ্ধতিটি ন্যানো কলার মতো মডেলগুলি ইতিমধ্যে যা অফার করেছে তার কথা মনে করিয়ে দেয়, কিন্তু ওপেনএআই বাজি ধরে নিজেকে আলাদা করার চেষ্টা করছে আরও নিয়ন্ত্রিত ধারণাগত রূপান্তরযেখানে সিস্টেমটি পোশাক, পরিবেশ, আলো বা যুগ পরিবর্তনের সময় যথেষ্ট দৃশ্যমান সামঞ্জস্যের সাথে বেস ছবির সারাংশ বজায় রাখে।

চ্যাটজিপিটি ইমেজেস হলুদাভ স্টাইলকে বিদায় জানায় এবং জটিল দৃশ্যগুলিকে উন্নত করে

দীর্ঘদিন ধরে, ChatGPT-এর প্রাথমিক সংস্করণগুলি ব্যবহার করে কোনও ছবি তৈরি করা হয়েছে কিনা তা সনাক্ত করা তুলনামূলকভাবে সহজ ছিল: তারা প্রাধান্য পেয়েছিল উষ্ণ টোন, ক্রিমি ফিনিশিং, এবং একটি নির্দিষ্ট হলুদ আন্ডারটোন যা এর কৃত্রিম উৎপত্তি প্রকাশ করেছে। OpenAI এবং স্বাধীন পরীক্ষা দ্বারা দেখানো অভ্যন্তরীণ তুলনা, বিকল্পগুলির সাথে তুলনা করা হয়েছে যেমন বিং ইমেজ স্রষ্টামনে হচ্ছে সেই বৈশিষ্ট্যটি পিছনে ফেলে আসা হয়েছে।

নতুন মডেলটি একটি অফার করে আরও নিরপেক্ষ এবং বৈচিত্র্যময় রঙের বর্ণালীএর ফলে ছবিগুলি প্রচলিত ছবির মতো দেখায়, যদি না ব্যবহারকারী স্পষ্টভাবে প্রম্পটে অন্যথার অনুরোধ করেন। এটি ছবিগুলিকে কম "ব্র্যান্ডেড" এবং বাস্তবতা বা বিদ্যমান ফটোগ্রাফিক উপাদানের সাথে একীকরণের প্রেক্ষাপটে আরও কার্যকর দেখাতে সাহায্য করে।

প্রতিনিধিত্বের ক্ষেত্রেও উন্নতি করা হয়েছে অনেক ছোট উপাদান সহ দৃশ্যযেমন ভিড় বা বিস্তারিত সমৃদ্ধ পটভূমি। বড় দলগুলির মুখগুলি এখন একে অপরের থেকে আরও স্বতন্ত্র, আরও প্রাকৃতিক ভঙ্গি এবং অভিব্যক্তি সহ, এবং হাতের ছাপ, ছোট স্ট্রোক বা অদ্ভুত পুনরাবৃত্তির মতো সাধারণ ত্রুটিগুলি হ্রাস পেয়েছে।

ChatGPT Images আপনাকে ছবির মধ্যে টেক্সট সন্নিবেশ করতে দেয়: পোস্টার, ইনফোগ্রাফিক্স এবং মকআপ যোগ করুন।

একটি ছবির মধ্যে পাঠযোগ্য টেক্সট তৈরি করা ঐতিহাসিকভাবে জেনারেটিভ এআই-এর অ্যাকিলিসের অন্যতম সাফল্য। ওপেনএআই দাবি করে যে জিপিটি ইমেজ ১.৫ এই ক্ষেত্রে একটি উল্লেখযোগ্য পদক্ষেপ নিয়েছে, যার সাথে অনেক বেশি সামঞ্জস্যপূর্ণ টাইপোগ্রাফি রেন্ডারিং আগের সংস্করণ তুলনায়।

মডেলটি পরিচালনা করতে পারে ঘন, ছোট ছোট টেক্সট ব্লকএটি পোস্টার, ইনফোগ্রাফিক্স, সংবাদপত্রের পৃষ্ঠার মকআপ, অথবা টেবিল এবং মার্কডাউন-টাইপ ফর্ম্যাট সহ ডিজাইন তৈরির দরজা খুলে দেয় যার পাঠযোগ্যতার স্তর নিখুঁত না হলেও, নিবিড় পুনর্নির্মাণ ছাড়াই ব্যবহারযোগ্য কিছুর কাছাকাছি।

যারা মার্কেটিং, শিক্ষা, ই-কমার্স, অথবা ডিজিটাল কন্টেন্টে কাজ করেন, তাদের জন্য এই উন্নতির অর্থ হল ভুল আকৃতির অক্ষর অথবা অসম্পূর্ণ শব্দ সংশোধন করুনযেসব প্রেক্ষাপটে প্রকাশের জন্য স্পষ্ট বার্তা সহ দৃশ্যমান উপকরণ তৈরি করার প্রয়োজন হয়, সেখানে মডেলটি নিজেই যুক্তিসঙ্গতভাবে পরিষ্কার লেখা তৈরি করে তা একটি পার্থক্যকারী বিষয় হয়ে ওঠে।

একটি নতুন ব্যবহারকারীর অভিজ্ঞতা: ChatGPT-তে একটি নিবেদিতপ্রাণ চিত্র বিভাগ

আপডেটটি মডেলের মধ্যেই সীমাবদ্ধ নয়; এটি কীভাবে ব্যবহার করা হয় তাও প্রভাবিত করে। OpenAI ChatGPT সাইডবারে একটি নতুন বৈশিষ্ট্য যুক্ত করেছে। "ছবি" নামে একটি নির্দিষ্ট বিভাগএটি মোবাইল অ্যাপ এবং ওয়েব ভার্সন উভয়ের ক্ষেত্রেই প্রযোজ্য। লক্ষ্য হল ভিজ্যুয়াল অভিজ্ঞতাকে ঐতিহ্যবাহী চ্যাট থেকে আলাদা করা এবং যারা জটিল প্রম্পটগুলির সাথে লড়াই করতে চান না তাদের জন্য নেভিগেট করা সহজ করে তোলা।

এই নতুন স্থান থেকে, ব্যবহারকারী খুঁজে পান পূর্বনির্ধারিত শৈলী, ট্রেন্ড পরামর্শ এবং টেমপ্লেট শুভেচ্ছা জানানো, পুরানো ছবি পুনরুদ্ধার করা, বিভিন্ন শৈল্পিক শৈলীর মধ্যে স্যুইচ করা, অথবা একই পণ্যের বৈচিত্র তৈরি করার মতো ঘন ঘন কাজের জন্য, এই পদ্ধতিটি প্রযুক্তিগত অভিজ্ঞতা ছাড়াই লোকেদের প্রবেশের বাধা কমিয়ে দেয়।

আরেকটি ব্যবহারিক দিক হল যে চিত্র বিভাগটি কাজ করে কেন্দ্রীভূত সংগ্রহস্থল ব্যবহারকারীর সমস্ত ভিজ্যুয়াল সৃষ্টির। সেখান থেকে পূর্ববর্তী সংস্করণগুলি পর্যালোচনা করা, নতুন বিষয়বস্তু সহ একটি শৈলী পুনরাবৃত্তি করা, অথবা ইতিমধ্যে তৈরি হওয়া চিত্র সম্পাদনা চালিয়ে যাওয়া সহজ, যা বিশেষ করে ক্রমাগত কর্মপ্রবাহের ক্ষেত্রে কার্যকর।

নজরকাড়া আনুষঙ্গিক জিনিসপত্র থেকে শুরু করে ভিজ্যুয়াল কাজের সরঞ্জাম

ওপেনএআই নিজেই স্বীকার করে যে, এখন পর্যন্ত, চ্যাটজিপিটির মধ্যে চিত্র তৈরি করা একটি টেক্সটের জন্য ডিজাইন করা ইন্টারফেসের মধ্যে অতিরিক্ত আকর্ষণীয় যা একটি শক্তিশালী দৃশ্যমান কাজের পরিবেশ হিসেবে কাজ করে। এই আপডেটের মাধ্যমে, কোম্পানিটি একটি গুণগত উল্লম্ফন করার লক্ষ্য নিয়েছে: সোশ্যাল মিডিয়ার জন্য "পরীক্ষামূলক" চিত্র থেকে বাস্তব-বিশ্বের প্রক্রিয়াগুলিতে ব্যবহারযোগ্য একটি সরঞ্জামে স্থানান্তরিত হওয়া।

ধারাবাহিকতা এবং পুনরাবৃত্তির উন্নতির সরাসরি প্রভাব পড়ে যেমন ক্ষেত্রগুলিতে ডিজাইন, মার্কেটিং, ই-কমার্স বা ব্র্যান্ডিংযেসব কোম্পানির একই সৃজনশীল ধারণাকে একাধিক ফর্ম্যাটে খাপ খাইয়ে নিতে হয়, একটি পণ্যের বৈচিত্র্য পরীক্ষা করতে হয়, অথবা শত শত পণ্য জুড়ে লোগো এবং কর্পোরেট উপাদানের ধারাবাহিকতা বজায় রাখতে হয়, তারা এই ধরণের নিয়ন্ত্রণে স্পষ্ট সুবিধা খুঁজে পায়।

ইউরোপে পরিচালিত সৃজনশীল প্ল্যাটফর্ম, যেমন ওয়েব সম্পাদক এবং ক্লাউড-ভিত্তিক ডিজাইন সরঞ্জামতারা ইতিমধ্যেই এই মডেলগুলিকে তাদের কর্মপ্রবাহে একীভূত করছে। এই ক্ষেত্রে, আরও ব্যাপক ভিজ্যুয়াল পরিবেশের প্রতি OpenAI-এর প্রতিশ্রুতি বৃহৎ কর্পোরেশনগুলিতে গ্রাফিক উপকরণ এবং অভ্যন্তরীণ যোগাযোগ দলগুলির উৎপাদন ত্বরান্বিত করতে চাওয়া SME উভয়ের জন্যই উপযুক্ত হতে পারে।

ব্যবহারকারী, ব্যবসা এবং ডেভেলপারদের জন্য ChatGPT ছবির উপলব্ধতা

OpenAI নতুন ChatGPT ইমেজ চালু করা শুরু করেছে প্ল্যাটফর্মের বেশিরভাগ ব্যবহারকারী, যাদের বিনামূল্যে অ্যাকাউন্ট আছে তাদের সহঅনেক ব্যবহারকারী অ্যাপটি খোলার সাথে সাথেই ইমেজ ফাংশনটি চেষ্টা করার জন্য আমন্ত্রণ জানিয়ে একটি বিজ্ঞপ্তি দেখতে পাচ্ছেন এবং এর ব্যবহারকে কেন্দ্রীভূত করার জন্য পাশের মেনুতে একটি নতুন ডেডিকেটেড ট্যাব দেখতে পাচ্ছেন।

ব্যবসায়িক খাতে, কোম্পানিটি নিশ্চিত করেছে যে ব্যবসা এবং এন্টারপ্রাইজ অ্যাকাউন্টগুলির জন্য উন্নত অ্যাক্সেস ধীরে ধীরে চালু করা হবে, যার মধ্যে ইন্টিগ্রেশনের উপর মনোযোগ দেওয়া হবে পেশাদার কর্মপ্রবাহইউরোপীয় সংস্থাগুলি যারা ইতিমধ্যেই অভ্যন্তরীণ কাজের জন্য ChatGPT ব্যবহার করছে, তাদের জন্য এর অর্থ হল একই শংসাপত্রের অধীনে তৈরি টেক্সট থেকে গ্রাফিক উপাদান পর্যন্ত এর ব্যবহার প্রসারিত করা।

সমান্তরালভাবে, GPT চিত্র 1.5 এর মাধ্যমে উপলব্ধ OpenAI APIএটি ডেভেলপারদের তাদের নিজস্ব অ্যাপ্লিকেশনের মধ্যে ইমেজ জেনারেশন এবং এডিটিং ক্ষমতা একীভূত করার সুযোগ করে দেয়। কোম্পানিটি জানিয়েছে যে ইমেজ ইনপুট এবং আউটপুটের খরচ পূর্ববর্তী মডেলের তুলনায় প্রায় ২০% কম, যা বৃহৎ আকারের প্রকল্প বা পরিষেবাগুলির জন্য একটি উল্লেখযোগ্য সুবিধা।

ন্যানো ব্যানানা প্রো এবং অন্যান্য ভিজ্যুয়াল মডেলের সাথে প্রতিযোগিতা

তীব্র প্রতিযোগিতামূলক চাপের সময়ে ওপেনএআই-এর পদক্ষেপ এসেছে। গুগল জোর দিয়েছে ন্যানো কলা প্রো শীর্ষস্থানীয় ভিজ্যুয়াল জেনারেটিভ মডেলগুলির মধ্যে একটি হিসাবে, এর সৃজনশীল সরঞ্জামগুলির বাস্তুতন্ত্রের সাথে একীভূত এবং তার সাথে সংযুক্ত মিথুন পরিবার, যা বিশ্বব্যাপী এর ব্যবহার বৃদ্ধি করেছে।

এই পরিস্থিতির ফলে কিছু প্রতিযোগী পরিষেবায় [অস্পষ্ট] পরিস্থিতি তৈরি হয়েছে। বিনামূল্যে ব্যবহারকারীদের জন্য কঠোর সীমাউদাহরণস্বরূপ, প্রতিদিন তৈরি হতে পারে এমন ছবির সংখ্যা হ্রাস করে, আংশিকভাবে উচ্চ চাহিদার কারণে। বিপরীতে, OpenAI ব্যবহারকারীদের ধরে রাখতে এবং আকর্ষণ করার জন্য বিস্তৃত নাগাল, বৃহত্তর গতি এবং আরও পরিশীলিত সম্পাদনা পরিবেশের সংমিশ্রণের উপর বাজি ধরছে বলে মনে হচ্ছে।

ইতিমধ্যে, অন্যান্য খেলোয়াড় যেমন xAI এর চ্যাটবট Grok বা বিভিন্ন চিত্র বিশেষজ্ঞরা এর জন্য চাপ দিচ্ছেন ভিজ্যুয়াল জেনারেশন একটি কেন্দ্রীয় ফ্রন্ট হয়ে ওঠে ব্যবহারকারীর মনোযোগ আকর্ষণের লড়াইয়ে। OpenAI-এর কৌশলের মধ্যে রয়েছে ChatGPT-কে একটি "অল-ইন-ওয়ান অ্যাপ্লিকেশন" হিসেবে একত্রিত করা, যেখানে অনুসন্ধান, ভয়েস, টেক্সট, ছবি এবং ভিডিও একই এন্ট্রি পয়েন্টে সহাবস্থান করে।

এই নতুন ChatGPT ইমেজের মাধ্যমে, OpenAI একটি গুরুত্বপূর্ণ পদক্ষেপ নেয় আরও পরিপক্ক ভিজ্যুয়াল টুলএকটি দ্রুত এবং আরও নির্ভুল মডেল, একটি স্বতন্ত্র ইন্টারফেস এবং সম্পাদনা ক্ষমতা স্পষ্টতই বাস্তব-বিশ্বের কাজের জন্য তৈরি, ব্যক্তিগত এবং পেশাদার উভয় ক্ষেত্রেই। স্পেন এবং ইউরোপের ব্যবহারকারী এবং ব্যবসার দৈনন্দিন জীবনে এই উন্নতিগুলি কতটা সংহত হবে তা দেখার বিষয়, তবে বার্তাটি স্পষ্ট: ছবিটি আর কেবল চ্যাটের জন্য একটি মজাদার সংযোজন নয়, বরং চ্যাটজিপিটি ইকোসিস্টেমের একটি কেন্দ্রীয় উপাদান হয়ে উঠেছে।

ChatGPT ছবি তৈরি করছে
সম্পর্কিত নিবন্ধ:
ChatGPT এখন GPT-4o দিয়ে ছবি তৈরি করে: আপনার যা জানা দরকার