人工知能絵画のいくつかの提案
Google:Imagen
Imagenウェブサイト:https://imagen.research.google/
Dall·E 2の発表からわずか1 ヶ月後、GoogleはAIシステム“Imagen”を発表した。
Imagenはテキスト-画像拡散(CLIP)モデルで、Google ResearchとGoogle Brainチームが開発したもので、“これまでにないリアリズム×深い言語理解”をキャッチフレーズに掲げている。つまり、与えられた手がかりから、テキストの意味に非常に適合し、写真のようなリアリズムを持つ画像を生成することができる。
Dall·E 2の機能には、テキストから画像を生成したり、テキストプロンプトに基づいて画像内容を変更したり、1枚の画像から類似したスタイルの複数の画像を拡張したりする機能があります。対照的に、Imagenはテキストから非常にリアルな画像を生成することに焦点を当てています。
Imagenの画像生成性能をDALL-E 2のような他のテキスト画像モデルと比較するために、GoogleはDrawBenchと呼ばれるテキスト画像モデル評価ベンチマークを作成した。これは200個のヒントテキストのリストであり,それらのヒントテキストをそれぞれ異なるモデルに入力して画像を出力し,人間が評価する. Googleによると、このベンチマークの下で、テスト参加者は一般的に“画像生成のサンプル品質と画像とテキストの一貫性の両方において、Imagenが他のモデルよりも優れている”と考えている。
DrawBenchベンチマークでは、他のモデルと比較した結果。画像クレジット:Imagen公式サイト
10秒の写真は偽物です!デザイナーの“口で絵を直す”という願いは叶うのか?
皆さん、こんにちは、私はあなたとデザインのピーナッツについて話しています~前に、AIグラフィックジェネレーター Disco Difussionをお勧めします。これは、テキストプロンプトに基づいて自動的に壮大で幻想的なアートを生成し、芸術創造のインスピレーション源として非常に適しています。
Google:Partiの
Parti公式サイト:https://parti.research.google/
Partiは、GoogleがImagenを発表した直後に発表した別のテキスト画像生成モデルである。どちらもテキストからリアルな画像を生成することに焦点を当てています。違いは、Imagenが拡散CLIPモデルであるのに対し、Partiが経路自己回帰テキスト-画像Pathways Autoregressive Text-to-Image生成モデルであることです。後者は忠実度が高く、非常にリアルな画像生成を可能にします。
公式ウェブサイトによると、Partiは一連の画像を研究してモデルを訓練し、新しい画像セットを生成します。研究できる画像の数が多ければ多いほど、より現実的な画像が生成されます。Partiは、トレーニング中に参照画像の数を3億5000万枚から200億枚に増やし、生成された画像とテキストの一致率を75.9%に高めました。
Googleは、200億の画像参照数を持つPartiが、抽象化、一般的な知識、特定の視点、文字、記号の画像を生成するのに特に優れていることを発見した。また、Partiは長く複雑なプロンプト、特に以下のようなものを処理できることがわかりました。
世界の知識を正確に表現する
多くの参加者やオブジェクトがあり、細部や相互作用があります。
特定の画像フォーマットとスタイルに準拠
Googleはまた、参加者、アクティビティ、説明、場所、フォーマットの変更にPartiがどのように反応するかを示す例として、ヒントテキストと出力画像の複数のセットを挙げている。
Googleの公式サイトでは、画像生成におけるPartiの利点を示しているが、これらの例は多くの実験結果から厳選されたものであることも認めている。また,Partiは広範な手がかり文書から高品質な出力を生成することができるが,そのモデルには,文書数や特徴の誤表示,否定や手がかり語の不在を表す誤り処理など多くの制約があることを示した
タイトル:MAKE-A-SCENE
公式プロフィール:https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/
Metaが7 月 14 日に発表した新しいAI技術“Make-A-Scene”の最大の特徴は、ユーザーが作成した大まかなスケッチをもとに、テキストのヒントと組み合わせて具体的な画像を生成できることで、画像の制御性を高めることです。
“AIが創造的表現を促進するという目標を完全に達成するためには、これらのインテリジェントモデルが生み出すコンテンツに影響を与え、制御できる必要があります。ユーザーは、音声、テキスト、ジェスチャー、さらには描画など、好きな方法で自分のアイデアを表現できる必要があります。また、使いやすく直感的であるべきです。”これは、Make-A-Sceneの紹介記事でMetaが提唱したポイントであり、Make-A-Sceneの意味をよく表しています。
Dall·E 2やImagenのようにテキストを提示するだけで画像を生成するモデルに比べて、Make-A-Sceneはより制御性の高い画像を作成します。ユーザはスケッチで最終画像をコントロールできる
延伸阅读:
暂无内容!
评论列表 (0条):
加载更多评论 Loading...