[KI] KIs für die Bilderstellung

  • Ich hab ja oben schon einige erwähnt aber nochmal in der Übersicht:

    Leonardo: Kann sehr viel verschiedene Dinge und Styles gut, von photorealistisch über CGI bis zu abstarkt. Man bekommt 150 Credits kostenlos pro Tag was für einiges an Bildern reicht. Es gibt verschiedene Modelle zur Auswahl und man kann Referenzbilder hochladen als Ergänzung zum Prompt und einige LORAs anwenden. Wenn man aboniert kann man sogar personalisierte Modelle trainieren. Es bietet auch eine Inpainting Funktion, Upscaling und seit neustem auch eine Video Funktion. (Die scheint mmn aber noch sehr ausbaufähig zu sein) Nutze da sehr gerne das Portrait Perfect oder Cinematic Kino Modell. Das Leonardo Phoenix ist ihr neustes Modell, damit hatte ich allerdings bisher nicht so tolle Ergebnisse. Die Kreativität ist auch ganz gut, was beduetet das man auch wenn der Prompt nicht sehr ausführlich oder eher abstrakt ist gute Ergebnisse bekommt.

    Flux: Der King was prompt adherence angeht. Kann sehr sehr realistische Bilder/Fotos erstellen. Nachteil ist das es ein distilled Modell ist, was bedeutet das es so gut wie unmöglich ist finetunes zu erstellen oder LORAs anzuwenden, genauso wenig wie Image Referencen möglich sind. Damit FLuc was tolles macht braucht es meist einen wirklich langen Prompt der sehr ins Detail geht. Kreativität ist hier eher gar nicht angesagt, das Modell macht das was im Prompt steht und wenn es da nicht steht macht es einfach nichts. Während also z.B. Leonardo wenn man einen Wikinger bestellt auf die Idee kommt den in einen Wald oder auf ein Schiff zu stellen wird ihn Flux, wenn man ihm ncihts anderes sagt, vor eine weiße Wand stellen. Flux ist über verschiedene WEB UIs verfügbar, es gibt vom Entwickler selbst eine Demo auf HuggingFaces. Ansonsten kann ich noch Moescape oder rubbrband empfehlen um mit Flux zu generieren. Erwähnenswert ist das Flux sehr gut Schrift kann was viele andere Modelle so gar nicht können.

    Moescape: Kommen wir dann auch zum eben erwähnten moescape. Das Ding sieht erstmal sehr merkwürdig aus, weil sie sich auf Anime spezialisieren wollen. Allerdings kann man hier trotzdem auch anderes generieren und das sogar sehr gut. Erstmal gibt es hier mit 100 Free Credits pro Tag einiges zum ausprobieren kostenlos. Dazu hat man die Wahl aus sehr vielen verschiedenen Stable Diffusion und Stable Diffusion XL Modellen sowie oben erwähnt auch Flux[Dev] und Flux[schnell]. Wegen dem Fokus der Platform gibt es hier ungefähr 200+ SD Modelle die gut für Anime geeignet sind in den verschiedensten Stilen. Es gibt aber auch genug die für anderes taugen bzw. für realistische Bilder geeignet sind. Meine empfehlungen dafür wären: Absolute Reality, epiC Photogasm++, epiC Realism und PicX Real. Was besonders an moescape ist, ist das es sehr viele Möglichkeiten der Einstellung bietet. Neben Format/Größe kann man auch direkt upscalen, verschiedene Sampler zu jedem Modell wählen, eine riseige Zahl an LORAs dazu packen und kombinieren sowie Controlnet mit verschiedenen Presets anwenden und gleichzeitig auch noch eine Image Reference verwenden. Die Kreativität liegt hier am Modell, bei Flux eher gar nicht vorhanden, bei den SD Modellen durchaus gut. (Die Beispiele sind mit SD Modellen generiert und auch mal ein Anime Bild weil das eben ihre Spezialität ist Flux ist das gleiche wie oben nur eben anderes UI)

    Kling: Ich habs ja weiter oben im Thread schon gezeigt was Kling so kann. Kling ist hauptsächlich für Videos bekannt aber es gibt auf der Seite auch einen Bildgenerator. Man bekommt auch täglich free Credits und die Bildgenerierung ist sehr günstig so das man wirklich viel generieren kann. Die Promptadherence ist ziemlich gut, aber gleichzeitig gibt es auch Kreativität bei eher unspezifischen Prompts. Man kann nicht sonderlich viel wählen an Optionen aber es gibt die Möglichkeit einer Imagereference. Eine Eigenheit von Kling ist es Personen dazu zu erfinden. Wenn man ein Bild mit 2 Personen beschreibt kommt häufig was mit 3, 4 oder mehr Personen raus. Merkwürdigerweise passiert das sogar mit einem Referenz Bild. Soweit ich es weiß und vom Style von dem was raus kommt beurteilen kann scheinen die auch ein eigenes Modell zu haben und nicht nur ein fremdes anzubieten.

    PlaygroundAI: Das ist eine komische Sache, über den Link hier kommt ihr noch zum alten Playground. Das ist eine Platform die ähnlich wie Moecape ein WebUI für Stable Diffusion Modelle bietet und auch recht viele Optionen hat. Wenn man allerdings auf https://playground.com/ geht, kommt man zu dem neuen Design Interface. Das ist ein ziemlich eigener Ansatz bei dem man ein schon bestehendes Bild wählt und dann per Prompt Veränderungen daran machen kann. Dafür scheinen sie auch ein eigenes Modell zu verwenden, denn das Model das in dem Design Interface verwendet wird kann ganz gut Schrift/Text, während die Modelle im Create Playground das so gar nicht können. Ich habe das alte Playground immer gerne genutzt, man kann/konnte dort auch recht viel for free generieren und hat einige sehr coole finetunes. (Das Black&White 3D ist absolut großartig imho) Ein interessantes Feature ist das man Bilder in die Promptzeile ziehen kann und so einen Prompt erstellt der das Bild beschreibt. Das ist großartig um einen Prompt zu bekommen wenn man was mit Flux machen möchte und möglichst nah an einer Vorlage bleiben will. (Da Flux ja keine Image Referenz kann) (Bilder mit speziell dort verfügbaren Modellen, es geht auch ähnliches wie oben bei Moescape gezeigt mit Modellen wie JuggernautXL)

    Dall-E 3: Ist über Chat GPT integriert verfügbar oder über den Microsoft Copilot. Es gibt auch einige kostenlose Nutzungen pro Tag. Dadurch das Chat GPT multiodal ist, ist die Bedienung und das Prompting hier recht einmalig, da man direkt am Ergebnis weiter arbeiten und veränderungen vornehmen kann während man bei anderen Image AIs immer nur den gleichen Prompt nochmal nehmen kann und leichte veränderungen im Prompt geben. Die Ergebnisse sind oft auch sehr gut und es kann Text einigermaßen. Was es gar nicht gut kann ist photorealistische Menschen. Soweit ich weiß ist dies allerdings eine künstliche Beschränkung die von Open AI / MS eingebaut wurde. Es ist sehr gut für Logo Designs, hat eine hohe kreativität und kann mit den richtigen Prompts durchaus auch sehr realistisch aussehen.

    Viele Mögen ja auch Midjourney sehr gerne, ich fand allerdings die Implementierung des UIs über Discord eine Katastrophe, wenn die mal ein ordentliches Web UI haben guck ichs mir nochmal an. Die Qualität der Bilder ist sehr gut und es ist mit eins der stärksten Allround Modelle, aber wie gesagt die Bedienung ist imho eine Zumutung.

    5 Mal editiert, zuletzt von IamSalvation (27. Oktober 2024 um 13:42) aus folgendem Grund: Mehr Beispiele eingefügt um einen besseren Eindruck für verschiedene Motive/Stile zu geben

  • Dall-E 3, also über Chat GPT oder Copilot. Du kannst es auch mit Flux probieren da das auch ganz gut Schrift kann, da würde ich mir aber vorher einen sehr präzisen Prompt von einem Textmodell machen lassen. Kannst zum Beispiel das Logo in ChatGPT machen und ihn dann bitten dir den verwendeten Prompt vollständig anzuzeigen und den dann in Flux werfen.

    Was auch noch gut geht ist der Design Modus von Playground, da müsstest du erstmal in den Vorlagen von dort suchen bis du etwas findest von dem dir einzelne Teile oder der Style gefällt und kannst es dann mit Prompts anpassen. Dabei kann man auch in mehreren Schritten arbeiten, z.B. erstmal den Text anpassen und dann weitere Elemente.

    Hier mal ein Beispiel:

    Basis Vorlage


    Erste Änderung: Text anpassen:

    Zweite Änderung: Motorad und Fahrer gegen Brettspiele austauschen:

    Dritte Änderung: Farben zu Grün und Lila ändern

    Letzte Anpassung: Hintergrund schwarz machen:


    Es gibt noch so ein anderes Tool das auf Text spezialisiert war, aber da fällt mir grad der Name nicht mehr ein.

    2 Mal editiert, zuletzt von IamSalvation (27. Oktober 2024 um 19:00)

  • IamSalvation :thumbsup:
    welche Bild Ki würdest du empfehlen für die Darstellung von Vampiren. Aussehen von Menschenähnlich bis zu Fratzen.
    Dall-E kann es gar nicht. Midjourne geht mit händischer Nachbearbeitung. Wichtig wäre mir das man eigene Gesichter hochladen kann.

    Meine Top Spiele


    Meine 10er: Mage Wars, Cthulhu Wars, Pax Pamir, Kemet Blut und Sand
    und 9er: Britannia, Dune Imperium, Maria, Fief-Frankreich1492, Blood Rage, Cosmic Encounter, Great Western Trail, Mischwald, Dominion

  • IamSalvation :thumbsup:
    welche Bild Ki würdest du empfehlen für die Darstellung von Vampiren. Aussehen von Menschenähnlich bis zu Fratzen.
    Dall-E kann es gar nicht. Midjourne geht mit händischer Nachbearbeitung. Wichtig wäre mir das man eigene Gesichter hochladen kann.

    Leonardo, Moescape und Kling sollten gehen. Was Gesichter angeht kannst du auch erstmal ohne bestimmtes Gesicht generieren und anschließend einen Faceswapper nutzen, macht das ganze oft einfacher weil sonst oft zu viel vom Vorlagebild genutzt wird (Hintergrund etc.)

    Hier mal ein guter "Add-on Prompt" den man hinter das hängen kann was man eigentlich möchte um die Qualität zu verbesser:

    Zitat

    Cinematic shot, high-end photography, dark atmospheric scene, volumetric lighting, high contrast, professional lighting, sharp details, moody atmosphere, subtle lens flares, dark shadows, glossy surfaces, ultra realistic textures, high production value, high-end post-production, crisp details, atmospheric haze, deep blacks, ray tracing quality lighting, backlit silhouettes, micro details,

    Sollte zum Vampirthema passen, wenn man was anderes machen möchte evtl. die spezifischeren Sachen wie "dark atmospheric scene" und "moody atmosphere" gegen passenderes austauschen.

    Und weil ich grade Zeit hatte mal mit Kling ein Beispiel für mit "add on Prompt" und ohne. Prompt in beiden fällen einfach nur "a realistic dark Vampire with animalistic face " bei dem zweiten eben mit dem Add on.

    Ohne:

    Mit

    Einmal editiert, zuletzt von IamSalvation (27. Oktober 2024 um 19:59) aus folgendem Grund: Beispiel eingefügt

  • Cooler Überblick, danke.

    Ich hab die Illustrationen für mein Spiel #mordsstory damals mit Midjourney und händischer Nachbearbeitung gemacht. Was ich daran gut fand, war dass ich mit einer Kombination aus Referenzbildern und ähnlichen Prompts eine relative Stabilität beim Stil erzielen konnte. Da ich eh Discord kannte, war was Interface keine Hürde.

    StaggerLee hat sein Spiel auch mit Midjourney illustriert.

    Da ich nicht mehr Up top Date bin, würde mich interessieren, wie "Klischeebehaftet" die oben vorgestellten Modelle aktuell sind. Werfen die bei "Archäologin" noch immer eine Lara Croft aus und bei Arzt einen grauhaarigen Mann?

  • StaggerLee hat sein Spiel auch mit Midjourney illustriert.

    Ich fand damals Midjourney super, besonders da es über Discord integriert ist und ich es dank meiner Handy-App jederzeit und überall ganz einfach nutzen konnte.

    Ich habe damals innerhalb 1 Monats über 5000 prompts abgesetzt und über 1500 Bilder für mein Spiel heruntergeladen. Hat sich für mich damals sehr gelohnt. Jetzt über den Jahreswechsel werde ich mir mal wieder einen Monat gönnen, da ich bis dahin hoffentlich mit meiner Erweiterung entsprechend weit bin.

    Ich habe sonst nur noch mit Dall-E bzw Copilot am rumspielen und fand das sehr beschränkt von den Möglichkeiten und wie ich dort mit den Prompts spielen konnte, bzw. auch über die Bilder itererieren konnte.
    Ich habe eigentlich immer ein genaues Bild im Kopf und der Stil soll auch über hunderte Karten gleich sein(oder wenigstens sehr ähnlich). Das hat in meinen Augen Midjourney sehr gut geschafft. Ich habe damals mit Version 5.1 gearbeitet. Bei Dall-E in Copilot waren die Ergebnisse sehr durchwachsen.

  • Podcastgast Zum Bias kann ich ehrlich gesagt nichts sagen, bisher ist mir da nicht viel aufgefallen. Flux ist recht extrem was "Beauty Bias" angeht. Es ist so gut wie unmöglich damit "hässliche Menschen" zu erstellen bzw. muss man sehr hart drauf prompten etwas zu bekommen das von üblichen Schönheitsidealen abweicht. Teilweise liegt das aber eben auch an den Trainingsdaten die genutzt wurden und verfügbar sind. Bei einem Model wie Stablediffusion ist sowas grundsätzlich kein Problem da sich recht einfach Finetunes erstellen lassen als neues Modell oder LORAs auf jedes Modell aufgesetzt werden können, bei einem distilled Model wie Flux kann man da so gut wie nix mehr dran machen.


    Wie oben geschrieben, vor einem Jahr war Midjourney noch absolute einsame Spitze ohne Konkurrenz. Inzwischen haben aber die alten Wettbewerber aufgeholt und es kamen neue dazu.

    Wobei MJ natürlich auch nicht schlechter geworden ist, so ist es ja nicht.

    Style halten können die meisten wenn man immer den gleichen Styleguide im Prompt anhängt.

    Als Beispiel mal angehängt ein paar aus einer großen Serie die ich mit Kling für ein Video gemacht habe.


    Generell würde mich übrigens auch Interessieren wie eure Eindrücke von den Beispielen oben sind, gibts da welche wo ihr sagt "boar geht ja gar nicht" oder welche wo ihr sagt "wow echt cool"?

  • Generell würde mich übrigens auch Interessieren wie eure Eindrücke von den Beispielen oben sind, gibts da welche wo ihr sagt "boar geht ja gar nicht" oder welche wo ihr sagt "wow echt cool"?

    bei den letzten Bildern merkt man das sie aus einer Serie sind, aber um etwas näher zu den Bildern zu sagen müsste man wissen was du mitdem jeweiligen Bild aussagen willst.

    Zu den beiden Vampiren, sie sehen natürlich gut aus bis auf die Zähne. Das könnte man natürlich mittel Photoshop selbst im nachhinein ändern.
    Was ich aber brauchen würde in naher Zukunft. Ich will einen Vampir Roman illustrieren. So auf die Art wie die illustrierte Sonderausgabe von Sakrieleg Dan Brown.
    Habe mich aber noch nicht großartig mit einer Bild Ki befasst und kommer auf die Ergebnisse mehr oder weniger zufällig.

    Meine Top Spiele


    Meine 10er: Mage Wars, Cthulhu Wars, Pax Pamir, Kemet Blut und Sand
    und 9er: Britannia, Dune Imperium, Maria, Fief-Frankreich1492, Blood Rage, Cosmic Encounter, Great Western Trail, Mischwald, Dominion

  • bei den letzten Bildern merkt man das sie aus einer Serie sind, aber um etwas näher zu den Bildern zu sagen müsste man wissen was du mitdem jeweiligen Bild aussagen willst.

    Es ging bei denen nur darum zu zeigen das andere AIs als MJ durchaus sehr gut Bilder machen können die aussehen als würden sie zusamemn gehören, z.B. für ein Brettspiel wo alles im gleichen Style sein soll.

  • Zu den beiden Vampiren, sie sehen natürlich gut aus bis auf die Zähne. Das könnte man natürlich mittel Photoshop selbst im nachhinein ändern.
    Was ich aber brauchen würde in naher Zukunft. Ich will einen Vampir Roman illustrieren. So auf die Art wie die illustrierte Sonderausgabe von Sakrieleg Dan Brown.
    Habe mich aber noch nicht großartig mit einer Bild Ki befasst und kommer auf die Ergebnisse mehr oder weniger zufällig.

    Die waren nur ein recht einfacher Prompt, über die Zähne und wie sie aussehen sollten stad da nix drin. Mit einem Prompt in dem du genau genug beschreibst wie die Zähne denn sein sollten bekommt man das auch ohne Nachbearbeitung ganz gut hin.

  • Beim aller letzten Bild wo das Maädchen mit dem Rücken zu unssteht und in die Sonne/Mond blickt. Wie geht da der Prompt das die Perso in dieser Entfernung steht? Bei mir habe ich oft ein Oberkörper Bild oder sie sind sehr fern, ich kann aber nicht steuern das sie in genau dieser Entfernung stehen.

    Meine Top Spiele


    Meine 10er: Mage Wars, Cthulhu Wars, Pax Pamir, Kemet Blut und Sand
    und 9er: Britannia, Dune Imperium, Maria, Fief-Frankreich1492, Blood Rage, Cosmic Encounter, Great Western Trail, Mischwald, Dominion

  • Ich habe mal kurz damit rumgespielt, bei mir klappt das mit der Textersetzung aber nicht besonders gut: Zum einen wird mein neuer Text nicht immer korrekt eingefügt, dann lasse ich was anderes ändern und er ändert gleichzeitig den Text oder andere Teile des Bilds, die eigentlich keinen Bezug zur Änderung haben sollten.

    Warum werden solche Generatoren nicht mit einem "echten" Texteditior kombiniert? Klar kann man auch händisch machen, aber technisch sollte das ja erstmal kein großes Problem sein. Und man müsste der KI nicht "beibringen" vernünftig mit Text umgehen zu können

  • Ja, an dieser Playground umsetzung ist einiges etwas halb gar - das kam irgendwie auch über Nacht ohne Ankündigung auf einmal.

    Wenn das Teil was du Ändern willst mehrere Schriftsätze hat kann es helfen wenn du "replace Big Text" oder small Text noch in einzelnen Schritten machst. Und je mehr Text es ist, desto schlechter wird es, einzelne Worte gehen noch recht zuverlässig, ein Satz so 50:50 alles darüber... besser selbst später mit Bildbearbeitung machen.

    Da wären wir dann auch bei einer tollen Überleitung: KI generierung kombiniert mit klassischem Editing gibts ja bei Adobe Firefly. Vielleicht mag Podcastgast dazu noch etwas mehr sagen, mit Firefly konnte ich bisher noch gar nicht Arbeiten mangels einer Adobe Lizenz. Von dem was ich gesehen habe sah das ja auch schon recht früh ziemlich gut aus grad was Inpainting anging.

  • Vielleicht mag Podcastgast dazu noch etwas mehr sagen,

    Klar.

    Ich habe das in zwei Anwendungsfällen verwendet:

    Zum einen um bei Filmstills oder Plakaten die fehlenden Ränder anzustücken. Das hat meistens sehr gut funktioniert. Also mit Photoshop generative Fill als Tool.


    Und dann habe ich versucht mit der free version (man hat wenn man einen Adobe Account anlegt ein paar frei Credits bei Firefly) Bilder von Menschen zu generieren. Das war alles zu clean, zu hübsch.

  • Bezüglich Logos mit Schrift hab ich grad selbst für meinen AI Musik Chanel ein neues Bandlogo gemacht und diesmal Flux ausprobiert.

    Hat mir auf anhieb wirklich gut gefallen.

    Zitat

    Prompt: A text logo for the band 'Osthain' in a classic Neofolk style. The text should be rustic yet elegant, with Gothic or Nordic influences. The letters are sharp and slightly weathered, incorporating natural elements like branches, leaves, or roots, subtly intertwined with the text. The logo is monochromatic, with a minimalistic but traditional look, evoking themes of nature, heritage, and mysticism.

  • IamSalvation - Wie grenzt man eigentlich im Regelfall unterschiedliche Elemente im Bild effektiv im Prompt voneinander ab ... also, dass sich gewünschte Eigenschaften von Objekt A nicht mit den Eigenschaften von Objekt B vermischt. Gerade bei langen, verschachtelten Prompts mit vielen Details und Vorgaben in der Tiefe, sind die ausgeworfenen Ergebnisse oft zu sehr vermischt ... gibt's da nen Tipp wie man dass ordentlich und eindeutig für die KI trennt? Also, mit Satzzeichen, Leerzeichen oder Klammer, oder so ... ? :/

  • Ja, das ist in der Tat oft schwieirg, besonders bei der Beschreibung mehrerer Menschen. Normal nimmt man Kommas. Klammern werden bei sTable Diffusion z.B. verwendet um einen teil des Prompts zu betonen und können auch mehrfach gesetzt werden. Da könntest du zu Beispiel dann ((((Male with Black Hair)))) machen wenn das besonders wichtig im Prompt ist.

    Oft hilft es auch die Szene am Anfang zu beschreiben mit den wichtigsten Merkmalen. Also z.B. "Group Photo of 3 people 1 male with blond hair 2 female with black hair standing in a forrest, " und dann den Rest des Bildes bzw. nochmal details zu den Personen und dem Hintergrund.


    Auf jeden fall sollte man mit Kommas aufpassen, da die eben trennend wirken, Aufzähungen der Atribute eines Elementes sollten also ohne Komma gemacht werden.

  • Warum ausschließlich? Es gibt einige Apps, aber ehrlich gesagt würde ich einfach im Browser die hier verlinkten Tools nutzen. Funktionieren auch dort alle gut. Moescape hat auch eine spezielle App, bei den anderen weiß ich nicht ob sie nur eine Mobile Version der Seite nutzen oder eine App haben.

    Grundsätzlich kannst du alle solche gehosteden KIs auf dem Handy nutzen, nur mit lokaler KI bei der das Handy selbst rechnen muss wird es schwer.

  • IamSalvation

    Kannst du mir ein bisschen helfen? Ich hab hier grad ne nackte Wand und würd da gern so 3-4 Bilder ca. 40*60 Leinwand hinhängen als "tryptychon", also zu zusammenhängend über die Bilder hinweg.

    Hab das mal realtiv planlos in Chatgpt mit "erstelle ein bild für mein brettspielzimmer als tryptychon" und find das Ergebnis und den "Stil" eigentlich schon ziemlich genial. Leider sind meine Versuche für heute schon verbraucht.

    Kannst du mir sagen wie ich dem generell beibringe, dass ich nur das tryptychon brauche und nicht ein Bild vom Bild wie es dahängt? Will das ja dann ausdrucken auf irgend so einer Druckseite.

    Oder alternativ welches der Tools sowas besser kann? Hab auch Leonardo versucht und meine Credits verbraucht, bin da aber noch nicht so zufrieden mit den Ergebnissen

  • Das macht echt Spaß damit Sachen zu erstellen. Nur die Fehler könnt er weglassen. Würfel der aus 5ern besteht und Karten, die es nicht gibt. ||

    Und natürlich wieder das Bild vom Bild, wenn auch diesmal etwas weniger :/


    Dann sag ich ihm "korrigiere die Würfel, achte auf die korrekte Anzahl der Augen auf jeder Würfelseite und korrigiere die Pokerkarten damit sie korrekten Pokerkarten entsprechen" und es wird noch schlimmer. :|

  • Dann sag ich ihm "korrigiere die Würfel, achte auf die korrekte Anzahl der Augen auf jeder Würfelseite und korrigiere die Pokerkarten damit sie korrekten Pokerkarten entsprechen" und es wird noch schlimmer.

    Das ist auch meine Erfahrung mit diesem Tools. Wenn da irgendwo Schreibfehler sind ich ich bitte darum, das zu korrigieren, dann wird der Fehler schlimmer und außerdem das ganze Bild neu generiert anstatt lediglich die gewünschte Änderung durchzuführen.

    Einmal editiert, zuletzt von Matze (6. November 2024 um 07:58)

  • Dann sag ich ihm "korrigiere die Würfel, achte auf die korrekte Anzahl der Augen auf jeder Würfelseite und korrigiere die Pokerkarten damit sie korrekten Pokerkarten entsprechen" und es wird noch schlimmer.

    Das ist auch meine Erfahrung mit diesem Tools. Wenn da irgendwo Schreibfehler sind ich ich bitte darum, das zu korrigieren, dann wird der Fehler schlimmer und außerdem das ganze Bild neu generiert anstatt lediglich die gewünschte Änderung durchzuführen.

    Weil die Tools eben keinen Sinn verstehen, sondern sich nur noch stärker auf die erwähnten Begriffe "Würfel" und "Augen" konzentrieren, wenn sie genannt werden.
    Es ist eben schwierig, einer KI zu sagen, dass sie etwas NICHT tun soll, weil sie damit sofort das Wort oder die Dinge, die sie nicht verwenden soll in ihren Kontext einbaut und darauf basierend etwas generiert.

    Ggf. kannst Du etwas machen, wenn Du so etwas wie "wenig Augen" oder spezifische Angaben für die Pokerkarten angibst: "Stelle eine Herzdame und ein Pik-As dar". Dann ist allerdings das Risiko, dass diese Dinge prominenter im Bild erscheinen. Dafür müsstest Du dann den Rest der Beschreibung noch so verlängern / erweitern, dass diese wieder mehr Fokus erhält.

    Ob das Bild neu generiert wird, kommt ganz auf die KI an - da sind einige besser als andere.

    Mögest Du in uninteressanten Zeiten leben...

  • Würfel der aus 5ern besteht und Karten, die es nicht gibt.

    Du verwechselst eine KI wieder mit echter Intelligenz. Eine KI weiß nicht, wie ein W6 aussieht. Es kennt nur Bilder mit Würfel, meist weißen Flächen und schwarzen Punkten darauf. Dass die Anzahl der Punkte etwas zu bedeuten hat, weiß es nicht. Und entsprechend generiert es halt etwas Kubusfömiges mit Punkten drauf. Ebenso bei den Pokerkarten. Es kennt nur Bilder davon und weiß, wie die Pixel angeordnet sind. Dass da aber Zahlen und Buchstaben oben in der Ecke stehen, die auch noch etwas bedeuten, weiß die KI nicht.

    Die Idee ist, dass Du den Output der KI nimmst und dann in einem Bildbearbeitungsprogramm nachbearbeitest und korrigierst. Vor allem bei solchen komplexen Bildern sind immer (noch) echte Grafiker gefragt.

    das ganze Bild neu generiert anstatt lediglich die gewünschte Änderung durchzuführen.

    Weil die KI es halt nicht anders kann. Es ist nicht so, dass er die einzelnen Objekte nacheinander per Copy&Paste in das Bild einfügt und dann Einzelteile ersetzen kann. Es generiert jedes Mal einzelne Pixel. Schau Dir mal https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev an, da siehst Du nämlich den Entstehungsprozess, wie die KI Pixel für Pixel generiert, um daraus ein Bild zu erzeugen. Ist echt faszinierend zuzuschauen.

    Gruß Dee

  • anstatt lediglich die gewünschte Änderung durchzuführen.

    Nachtrag: Leonardo kann das ganz gut. Der hat eine extra Funktion dafür bei Leonardo Phoenix. Aber eben nur im Rahmen der o.g. Möglichkeiten.

    Es ist eben schwierig, einer KI zu sagen, dass sie etwas NICHT tun soll

    Leonardo hat hier ein "negative Prompt". Habe ich aber noch nicht getestet, wie das funktioniert zu beschreiben, was Du alles nicht sehen willst.

    Gruß Dee

  • Danke für die Erläuterungen. Bin auf dem KI-Feld noch total frisch und erwarte wohl noch zu viel I in "KI" ^^

    Falls jemand noch Input hat wie man die Prompts korrekt gliedert oder ausformuliert auch gerne her damit. IamSalvation hat ja schon ein bisschen darüber geschrieben.


    Hat denn jemand ne Idee wie man ihn korrekt anspricht um wirklich was "druckbares" zu bekommen und nicht ein Bild von einem Bild?

  • Dann sag ich ihm "korrigiere die Würfel, achte auf die korrekte Anzahl der Augen auf jeder Würfelseite und korrigiere die Pokerkarten damit sie korrekten Pokerkarten entsprechen" und es wird noch schlimmer. :|

    Du könntest direkt versuchen zu beschreiben welche Zahlen der Würfel zeigen soll. Du hast leider nicht dazu geschrieben welche AI du genutzt hast, aber grad bei z.B. FLux sollte das gut funktionieren.

    Zum komplett neu erstellen hat Dee ja schon was gesagt - das ist eben der Standard. Es gibt allerdings durchaus Möglichkeiten nur einen Teil eines Bildes neu zu generieren. Meistens als Maske bei der du den zu bearbeitenden Bereich markierst. Super geht das z.B. in Moescape (unter dem erstellten Bild links der Pinsel) Allerdings nur wenn das Modell es auch supported (z.B. kein Flux). Bei Leonardo geht es über die Canvas Funktion.

    Du verwechselst eine KI wieder mit echter Intelligenz. Eine KI weiß nicht, wie ein W6 aussieht. Es kennt nur Bilder mit Würfel, meist weißen Flächen und schwarzen Punkten darauf. Dass die Anzahl der Punkte etwas zu bedeuten hat, weiß es nicht. Und entsprechend generiert es halt etwas Kubusfömiges mit Punkten drauf. Ebenso bei den Pokerkarten. Es kennt nur Bilder davon und weiß, wie die Pixel angeordnet sind. Dass da aber Zahlen und Buchstaben oben in der Ecke stehen, die auch noch etwas bedeuten, weiß die KI nicht.

    Es gibt durchaus multimodale KI die den Sinn eines Bildes verstehen kann. (siehe etliche Videos auf dem OpenAI Youtube Chanel) Also zum Beispiel ein Bild auf dem Luftballons abgebildet sind die mit einer Schnur befestigt sind und man fragt die KI was passiert wenn man die Schnur durchschneidet und sie kann aus dem Zusammenhang des Bildes korrekt deduzieren das die Luftballons dann wegfliegen würden. Oder dir bei einem Foto von Pokerkarten sagen kann wie gut die Hand ist. (Nur mal als einfaches Beispiel)

    Das Problem ist aktuell aber, das die multimodale KI zwar Bilder versteht, aber eben ein anderes Modell die Bilder erstellt. Und dieses Modell hat absolut gar kein Verständnis davon was es eigentlich tut. Selbst wenn wie bei ChatGPT die multimodale AI direkt mit dem Modell kommunizieren kann, dass das Bild erstellt muss auch das Sprachmodell dabei erstmal versuchen dem "dummen" Bilder Modell alles genau zu erklären. Ich denke aber das es in der Hinsicht noch weitere Fortschritte geben wird.

    Leonardo hat hier ein "negative Prompt". Habe ich aber noch nicht getestet, wie das funktioniert zu beschreiben, was Du alles nicht sehen willst.

    Genau wie der positive, einfach einfügen was nicht rein soll. Geht bei StableDiffusion, Leonardo und vielen anderen. Gibt auch viele "Standard Negativ Prompts", moescape verwendet z.B. auch bei vielen Modellen von vornerein einen negativ Prompt. Sowas hier zum Beispiel bei erstellen von Menschen:

    Zitat

    (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation,

  • Hat denn jemand ne Idee wie man ihn korrekt anspricht um wirklich was "druckbares" zu bekommen und nicht ein Bild von einem Bild?

    Kannst Du dafür nicht ein einzelnes, breites Bild generieren und dann zerschneiden? Die KI muss Dir doch kein Tryptychon erstellen, oder? So würde ich es machen.

    Und ich spiele gerade ein bisschen mit Prompts herum. Aktuelles Ergebnis:

    Zitat

    create an image about board games; the image should be colourful and crowded with a lot of board game components; the image style should be impressionism like and a bit of abstraction and comic style; use a lot of modern componts from games like Ark Nova, Scythe, Pandemic, Catan, Carcassone, Agricola and of course add some Meeple

    Gruß Dee

  • Hat denn jemand ne Idee wie man ihn korrekt anspricht um wirklich was "druckbares" zu bekommen und nicht ein Bild von einem Bild?

    So wie du das beschreibst nehme ich an du generierst mit Dall-e3/ChatGPT?

    Und du meinst wahrscheinlich die Ränder um das Bild herum? Es gibt da, wenn du das Bild groß machst auch die Möglichkeit eine Maske zu deffinieren. Manchmal bekommt man damit die Ränder super weg, manchmal macht man sie nur noch schlimmer. Ansonsten kannst du auch das Bild von Dall-e3 nehmen, selbst die Ränder grob wegschneiden (lieber zu viel als zu wenig) und es dann mit dem gleichen Prompt (in Chat GPT fragen das er dir den verwendeten Prompt zeigt) in Stable Diffusion (moescape) oder anderem Modell das es kann als Image to Image durchlaufen lassen. (und im Zweifel dann dort mit Inpaint/Maske wie oben erwähnt weiter bearbeiten)

  • Als weiterer Tipp: Das oben verlinkte Playground nutzen um dir einen mega ausführlichen Prompt zu einem Bild machen zu lassen das dir gefällt.

    Also wenn Dalle dir was erstellt was dir grundsätzlich gefällt aber störende Dinge hat, dieses Bild in Playground werfen zum Beschreiben lassen, wenn irgendwelche der störenden Dinge mit beschrieben werden kannst du das hinterher im Prompt ändern oder streichen.

  • Ich hab es mal mit Leonardo Phoenix versucht. Ich finde künstlerisch sieht es echt cool aus:

    Der Prompt war (mit Prompt Enhancement on):

    Zitat

    create an image about board games; the image should be colourful and crowded with a lot of board game components; the image style should be mostly impressionistic with a bit of abstraction and comic style; use modern components from games like Ark Nova, Scythe, Pandemic, Catan, Carcassone, Agricola

    Danach musste ich aber ihm noch sagen, die Spieletitel aus dem Bild zu entfernen, weil er die mit eingebracht hat. Und ich habe versucht, ihm danach noch zu sagen, dass er die Würfel auf realistische Würfel ändern soll, aber das klappt nicht.

    Gruß Dee

  • Ich wollte gerade schreiben, dass man bei dem Bild ja fast Brettspiel-Bingo spielen könnte, auf welchen realen Spielen die dargestellten Komponenten wohl basieren, aber dann habe ich Deinen Prompt gelesen :).

    Er bringt halt das "Feeling" der grafischen Gestaltung dieser Spiele ganz gut rüber und man fühlt sich irgendwie an sie erinnert.

    Mögest Du in uninteressanten Zeiten leben...