Ich hab ja oben schon einige erwähnt aber nochmal in der Übersicht:
Leonardo: Kann sehr viel verschiedene Dinge und Styles gut, von photorealistisch über CGI bis zu abstarkt. Man bekommt 150 Credits kostenlos pro Tag was für einiges an Bildern reicht. Es gibt verschiedene Modelle zur Auswahl und man kann Referenzbilder hochladen als Ergänzung zum Prompt und einige LORAs anwenden. Wenn man aboniert kann man sogar personalisierte Modelle trainieren. Es bietet auch eine Inpainting Funktion, Upscaling und seit neustem auch eine Video Funktion. (Die scheint mmn aber noch sehr ausbaufähig zu sein) Nutze da sehr gerne das Portrait Perfect oder Cinematic Kino Modell. Das Leonardo Phoenix ist ihr neustes Modell, damit hatte ich allerdings bisher nicht so tolle Ergebnisse. Die Kreativität ist auch ganz gut, was beduetet das man auch wenn der Prompt nicht sehr ausführlich oder eher abstrakt ist gute Ergebnisse bekommt.
Flux: Der King was prompt adherence angeht. Kann sehr sehr realistische Bilder/Fotos erstellen. Nachteil ist das es ein distilled Modell ist, was bedeutet das es so gut wie unmöglich ist finetunes zu erstellen oder LORAs anzuwenden, genauso wenig wie Image Referencen möglich sind. Damit FLuc was tolles macht braucht es meist einen wirklich langen Prompt der sehr ins Detail geht. Kreativität ist hier eher gar nicht angesagt, das Modell macht das was im Prompt steht und wenn es da nicht steht macht es einfach nichts. Während also z.B. Leonardo wenn man einen Wikinger bestellt auf die Idee kommt den in einen Wald oder auf ein Schiff zu stellen wird ihn Flux, wenn man ihm ncihts anderes sagt, vor eine weiße Wand stellen. Flux ist über verschiedene WEB UIs verfügbar, es gibt vom Entwickler selbst eine Demo auf HuggingFaces. Ansonsten kann ich noch Moescape oder rubbrband empfehlen um mit Flux zu generieren. Erwähnenswert ist das Flux sehr gut Schrift kann was viele andere Modelle so gar nicht können.
Moescape: Kommen wir dann auch zum eben erwähnten moescape. Das Ding sieht erstmal sehr merkwürdig aus, weil sie sich auf Anime spezialisieren wollen. Allerdings kann man hier trotzdem auch anderes generieren und das sogar sehr gut. Erstmal gibt es hier mit 100 Free Credits pro Tag einiges zum ausprobieren kostenlos. Dazu hat man die Wahl aus sehr vielen verschiedenen Stable Diffusion und Stable Diffusion XL Modellen sowie oben erwähnt auch Flux[Dev] und Flux[schnell]. Wegen dem Fokus der Platform gibt es hier ungefähr 200+ SD Modelle die gut für Anime geeignet sind in den verschiedensten Stilen. Es gibt aber auch genug die für anderes taugen bzw. für realistische Bilder geeignet sind. Meine empfehlungen dafür wären: Absolute Reality, epiC Photogasm++, epiC Realism und PicX Real. Was besonders an moescape ist, ist das es sehr viele Möglichkeiten der Einstellung bietet. Neben Format/Größe kann man auch direkt upscalen, verschiedene Sampler zu jedem Modell wählen, eine riseige Zahl an LORAs dazu packen und kombinieren sowie Controlnet mit verschiedenen Presets anwenden und gleichzeitig auch noch eine Image Reference verwenden. Die Kreativität liegt hier am Modell, bei Flux eher gar nicht vorhanden, bei den SD Modellen durchaus gut. (Die Beispiele sind mit SD Modellen generiert und auch mal ein Anime Bild weil das eben ihre Spezialität ist Flux ist das gleiche wie oben nur eben anderes UI)
Kling: Ich habs ja weiter oben im Thread schon gezeigt was Kling so kann. Kling ist hauptsächlich für Videos bekannt aber es gibt auf der Seite auch einen Bildgenerator. Man bekommt auch täglich free Credits und die Bildgenerierung ist sehr günstig so das man wirklich viel generieren kann. Die Promptadherence ist ziemlich gut, aber gleichzeitig gibt es auch Kreativität bei eher unspezifischen Prompts. Man kann nicht sonderlich viel wählen an Optionen aber es gibt die Möglichkeit einer Imagereference. Eine Eigenheit von Kling ist es Personen dazu zu erfinden. Wenn man ein Bild mit 2 Personen beschreibt kommt häufig was mit 3, 4 oder mehr Personen raus. Merkwürdigerweise passiert das sogar mit einem Referenz Bild. Soweit ich es weiß und vom Style von dem was raus kommt beurteilen kann scheinen die auch ein eigenes Modell zu haben und nicht nur ein fremdes anzubieten.
PlaygroundAI: Das ist eine komische Sache, über den Link hier kommt ihr noch zum alten Playground. Das ist eine Platform die ähnlich wie Moecape ein WebUI für Stable Diffusion Modelle bietet und auch recht viele Optionen hat. Wenn man allerdings auf https://playground.com/ geht, kommt man zu dem neuen Design Interface. Das ist ein ziemlich eigener Ansatz bei dem man ein schon bestehendes Bild wählt und dann per Prompt Veränderungen daran machen kann. Dafür scheinen sie auch ein eigenes Modell zu verwenden, denn das Model das in dem Design Interface verwendet wird kann ganz gut Schrift/Text, während die Modelle im Create Playground das so gar nicht können. Ich habe das alte Playground immer gerne genutzt, man kann/konnte dort auch recht viel for free generieren und hat einige sehr coole finetunes. (Das Black&White 3D ist absolut großartig imho) Ein interessantes Feature ist das man Bilder in die Promptzeile ziehen kann und so einen Prompt erstellt der das Bild beschreibt. Das ist großartig um einen Prompt zu bekommen wenn man was mit Flux machen möchte und möglichst nah an einer Vorlage bleiben will. (Da Flux ja keine Image Referenz kann) (Bilder mit speziell dort verfügbaren Modellen, es geht auch ähnliches wie oben bei Moescape gezeigt mit Modellen wie JuggernautXL)
Dall-E 3: Ist über Chat GPT integriert verfügbar oder über den Microsoft Copilot. Es gibt auch einige kostenlose Nutzungen pro Tag. Dadurch das Chat GPT multiodal ist, ist die Bedienung und das Prompting hier recht einmalig, da man direkt am Ergebnis weiter arbeiten und veränderungen vornehmen kann während man bei anderen Image AIs immer nur den gleichen Prompt nochmal nehmen kann und leichte veränderungen im Prompt geben. Die Ergebnisse sind oft auch sehr gut und es kann Text einigermaßen. Was es gar nicht gut kann ist photorealistische Menschen. Soweit ich weiß ist dies allerdings eine künstliche Beschränkung die von Open AI / MS eingebaut wurde. Es ist sehr gut für Logo Designs, hat eine hohe kreativität und kann mit den richtigen Prompts durchaus auch sehr realistisch aussehen.
Viele Mögen ja auch Midjourney sehr gerne, ich fand allerdings die Implementierung des UIs über Discord eine Katastrophe, wenn die mal ein ordentliches Web UI haben guck ichs mir nochmal an. Die Qualität der Bilder ist sehr gut und es ist mit eins der stärksten Allround Modelle, aber wie gesagt die Bedienung ist imho eine Zumutung.