Мои постоянные читатели знают, что я активный пользователь нейросетки от Яндекса Шедеврум, с большим интересом смотрю, что и как там можно делать, регулярно выкладываю пусть любительскую, но всё же аналитику работы этой сети. На длительном отрезке неизбежно вылезают все ошибки, это неизбежно, и тогда можно делать хотя бы предварительные выводы, для которых было рано на старте проекта. Так всегда и везде - не надо торопиться. Подождите, посмотрите, подумайте, оцените.
Вот и я не спешил, собирал потихоньку картинки. Не открою Америку утверждением, что сервис, который принято называть Искусственным Интеллектом, таковым не является. Я просто покажу доказательства так, как сам представляю. Всегда надо начинать с определений, иначе любой диспут бесполезен. О чём мы говорим? Что считать интеллектом? Ну, как минимум, способность анализировать результат и корректировать исполнение. Есть ли интеллект у дятла? Ещё какой! Попробуйте посмотреть на кору дерева, понять, могут ли под ней быть жуки да личинки, и выковырять их. А можем ли предположить наличие интеллекта у Шедеврума? Какой у него самый распространённый косяк? Лишние конечности.
Я ему задаю девушку, получаю в ответ:
Он смотрит на меня честными глазами и спрашивает - Окэй или не окэй? Сразу вспоминается анекдот из строительного техникума:
- Вася, ты умножил семь рабочих на семь мешков цемента и заказал в снабжении сорок семь мешков?
- Да, а что?
- Хороший ты парень, Вася, но тупой.
Меня абсолютно не интересуют, по каким алгоритмам работает Шед, это пусть программисты тужатся, да пыжатся. Нейросетка сделала трёхногую, трёхрукую девушку и ПРЕДЛОЖИЛА на рассмотрение. Я прекрасно понимаю, что в процессе генерации ошибок море, такая картинка может получиться элементарно. Но интеллект это способность к анализу. Шед всерьёз полагает, что я приму трёхногую девицу? Это и называется отсутствием интеллекта. А он не думает. И системы анализа и оценки полученного результата у него нет, иначе такая картинка НИКОГДА бы не вышла на экран юзера. Порой прям до слёз - ну, классно же скомпилировал, только теперь в фотошопе править.
Вот тут немного веселее - Шед "забыл", что хотел сделать, и наложил результаты.
Обратите внимание, это в каждой представленной картинке явно две вариации, но произошёл сбой, и Шед влепил обе версии в конечный результат. Опять-таки, - не проанализировав тот самый результат.
Никто не возражает против ошибок, они просто обязаны быть. Возражают против "интеллекта" - интеллект не пропустил бы, картинка не прошла бы контроль качества.
Что такое интеллект? Единство борьбы противоположностей, всё по законам диалектики, два последовательных процесса - работа и её оценка. У Шеда явно отсутствует второй этап, ниже ещё поговорим о нём.
Больше всего умиляют вот такие картинки.
Обратите внимание на лишнюю обувь. Вот тут я бы глянул алгоритм, каким путём шла логика. Шед уже запланировал лишние конечности, но почему-то спохватился, ноги не дорисовал... а про ботинки в условиях ничего не сказано!!! Умиляет.
Второй свод проблем относится к техническим ошибкам генерации. Например:
Крыло съехало в сторону, захватив с собой руку, которую благоразумно вычеркнули из картины, зато огненное свечение меча, которое должно было быть только у ангела, перескочило на меч противника.
В вот тут просто руки оторвали девушкам.
Открою тайну. Так тупить нейросетка начинает, когда на картине много элементов. В данном случае, дождь и бабочки. Ошибки сразу начинают сыпаться, как из рога изобилия. Это же не живой человек, для которого девушка это один объект, дождь другой, бабочки третий, фон четвёртый, и всё это рисуется по очереди. Для компьютера это всё один массив, который обрабатывается целиком. Отсюда и такого рода ошибки. Хотите завалить ИИ на тест Тьюринга? Дайте ему задание с кучей условий, который человек сразу разобьёт на группы и будет решать по очереди, а комп будет решать одним блоком. Между прочим, художники нередко работают в паре. Шишкин пейзажист, он лес нарисовал. А Савицкий ему медведей пририсовал. Задача непосильная для робота.
Вот над этой парой я всегда плачу. Русалке хвост воткнули в зад! Не, человек как раз вот нарисовать может, но только в рамках шутки, причём очень низкого пошиба.
На этой паре сразу понятно, насколько нейросетка тупит с заданиями, где нужно выполнить действие. На картинке справа много элементов - ночные огни, мокрый асфальт, много блеска и отражений, поэтому на "пьёт из бутылки" РЕСУРСОВ не хватило. Вы нищеброды, оплатите полную версию, тогда и рисовать буду лучше. Но ии на этом и палится. Если оплатим полную версию, так юзеры просто зададут побольше условий, и ОПЯТЬ РЕСУРСОВ не хватит.
А первая это просто песня нехватки ресурсов - в масштаб не уложился, фигня, срежем и приклеим рядом.
Завершая тему обрезков посмотрим классическую ошибку срезки конечностей на выходе из воды - потому что вода это одна часть, а воздух другой, на переходе всё ломается в мозгах ии. И классическую ошибку сращивания рук, также вызванную большим количеством элементов на рисунке. Хорошая детализация украшений, богатый цветочками задний фон. Тут тупо не до рук.
Следующий тип ошибок вызван нехваткой места. Как правило, просьбой нарисовать в полный рост. У Шедеврума очень плохо с масштабированием. И начинают сыпаться такие ошибки, что хоть плачь. Самые безобидные, это подшаманить с пропорциями.
Отметили, да? Голени непропорционально малы. Кстати, это и человек может так накосячить. Крайне маловероятно, учитывая высокое качество остального рисунка, но может стукнуть в голову такая блажь.
А вот тут косяк серьёзнее.
На первой картинке девушки не влезали в кадр, потому что Шед посадил их на пол, и место кончилось. Ну он взял и половину ног срезал. На первый взгляд незаметно, но стоит приглядеться, как сразу же - опа, а бёдра где?!!! На второй правая голень непропорционально длинная, Шеду нужно посадить девушку, а анатомию он не знает, для него это просто конечности, которые могут быть любой длинны.
Снова места в кадре не хватило, поэтому в первом случае Шед просто затупил и пририсовал складку тела, а во втором вывернул на 180 градусов колени, чтобы вписать в кадр затребованные "белые кроссовки".
Три картинки, где явно не хватило ресурсов, и Шед просто перемешал/перекрутил элементы, не задумываясь, как это всё ДОЛЖНО располагаться в кадре правильно.
Брошка из двух золотых нимф это много для одной картинки, если там ещё "мужская рука держит розу", поэтому Шед решал задачу показать затребованных нимф, но не закрывать их розой, а он ещё две нарисовал, поэтому нимфе пришлось выломать локоть, чтобы удержала цветок.
По второму рисунку явно видно, что попали в момент нехватки ресурсов на генерацию. Язык с ошибкой нарисован, рука просто не закончена.
А вот это можно так и называть - "Что влезло, то и нарисовал". Крылья у плеч не влезали, спустили на... талию, а на линии живота как раз картина и кончилась, пришлось просто всё срезать чуть ниже пупка.
Следующая группа ошибок - ошибка позиционирования, расположения. Картинок таких очень много, но они все типичные, я буквально парочку примером приведу, все остальные такие же.
Это называется "школьник сел за фотошоп". Даже комментировать нечего.
Вот тут посложнее, девушка неправильно сидит на лошади, причём так, как она не может сидеть физически. Это снова "школота за фотошопом", когда картинки тупо накладывают друг на друга.
Вот здесь на картинке слева двойная проблема - не хватило места и девушку наложили на плаху, не подтерев края.
На картинке справа я даже не сразу углядел косяк, но всё равно типовая ошибка расположения.
Ну и последнее на сегодня - ошибка функционала. Компьютер анатомию не понимает, в ряде случае он реально просто аппликацией занимается, накладывает элементы на одно поле.
У нейросетки плохо с захватом предметов. Девушка слева ничего не держит, бокал подвешен в воздухе рядом с её пальцами. "Моя бабушка курит трубку" не удерживает её, она лишь касается.
На последней паре мы снова видим аппликацию. Монахиня удерживает автомат снизу за дуло обратным хватом. Классный способ сломать запястье, особенно учитывая противовес в виде золотого креста. Автомат в такой позиции должен висеть на ремне, тогда всё нормально, рука поддерживает его снизу. Но откуда об этом знать Шедевруму?
Последняя картинка меня в своё время просто умилила, такая забавная. Аппликация, ну, школота за фотошопом.
Так вот у Шеда ОТСУТСТВУЕТ финальная оценка результата. Без этого интеллекта просто нет.
Следите за моими выпусками по Шедевруму, я реально тащу оттуда очень интересные работы и разбираю логику работы приложения.
Комментарии
Не мешайте, Маск хочет передать ЭТОМУ управление США не спугните.
Там у маска более продвинуты , умный интеллект , он сразу за ядерку хватается чтобы разрешить всех проблем на земле 😊
Не на Земле - на землях США. Могут и так, остров же.
Появление трехруких и трехногих ядеркой вполне логично попробовать решить.
Зачем толочься в ублюдочном шедевруме, когда есть отличный миджорней и далли?
На одном из внутривузовских КВНов было задание прокомментировать картинку с походной палаткой, из которой торчат три ступни.
Один из ответов "Если бы у меня было три ноги, у меня было бы два... эээ... промежности".
Если три ноги в ряд — тогда да, две. А если "букетом", то можно и о трёх (промежностях) задуматься. А посередине — ж...
не, ну тут у меня только один вопрос:
-откуда у вас,
доктортопикстартер, такие картинки?!... (с)))
А если бы у них было бы не три ноги/руки, а три сиськи - было бы лучше.
ИИ не считает сиську конечностью?
Нейросети - это на самом деле не столько интеллект, сколько форма представления и воспроизведения статистических данных. Конечно, настоящим интеллектом она не является, скорее - его имитацией. А ещё - они на самом деле работают на английском - что Шедеврум, что Кандинский от Сбера. Подловить легко на словах, которые переводятся на английский неоднозначно - стекло/стакан (glass), утюг/железо (iron).
Не он (Ш) один такой. Вот qwen.ai
А к Вашим картинкам - какой был запрос на предпоследнюю вправо (с трубкой)? Кит Ричардс в молодости?
А что тут не так? Ну отстёгивается у этого мишки кисть, что тут непонятного?
Бабка с трубкой классная.
Дожила до таких лет!
Это модель нашего будущего.
Много рук и ног - это же удобно!
И прикольно (для тех кто понимает)))
Добавлю перца. У этой рыжеволосой девушки (?) что-то странное наблюдается на линии промежности... Таки да?..
Может он под аниме заточен, которое японческое? Ну или тренируется. Там три руки в тему.
Какой ужас. Оказывается среднестатистический пользователь нейросетей это недалекий гуманитарий.
Автор, ну какие алгоритмы, ну какое "понимает" какое "рассуждение".
Нейросетвоему хайпу уже несколько лет. Неужели нельзя прочитать хотя бы самую примитивную статью, что такое нейросеть?
Вчера тоже деятель вылез с рекламой ии – тупой как пробка. Вообще ни грамма понимания сути процесса.
+
Ради прикола откройте комментарии этого существа, там половина скачки в каждой теме, с как под под копирку одинаковым тупняком о нейронках.
При этом ноль какой либо конкретики.
Вот прямо с ходу он заявляет, да я идиот и ПТУшник. И я этим горжусь!
Пользуюсь коммерческой "нейросеткой".
С конечностями та же беда, поэтому людей почти что "не заказываю".
Пейзажи, фоны, космос - отлично.
Шедеврум, кстати, хорошо "русских красавиц" рисует. Попробуйте, удивитесь!
Это не у него “отлично”. Это у вас “фигово”.
Человек очень-очень сильно заточен на то, чтобы видеть проблемы вот именно на изображаниях людей.
Отсюда все беды.
Пейзажи, фоны, космос – Шедеврум (как и любая нейросеть) рисует хуже, чем людей, с куда большим количеством косяков… но вам на них наплевать.
Вот и весь “секрет”.
Работа с любым инструментом ИИ требует знания промт языка, на котором эта программа общается.. Насколько хорошо вы его знаете?
Вот например словарик для шедеврума.
Здесь Искусственный интеллект просто намекает пользователям - идите в жопу, заколебали со своими бабами))
А ручки-то вот они!
все четыре /кивает
И на каждой разное количество пальчиков!
В принципе, Шедеврум для моих нужд более чем. Но с одного у меня так подрывает, что аще мрак. Почему там никак не могут сделать элементарную сортировку по от новых к старым. И при этом еще человеческий поиск. Убить мало.
А вот это Локальный флюкс dev1. На днях делал.
Просто шедеврум - это говно. Не пользуйтесь им.
Никакой обработки, доработки, переделки и прочих инпаинтов с лорами.
Сырое как есть, только сделан апскейл через topaz.
что, кстати, сильно срезало качество
Почему на складе без каски?
Очевидно, потому что в промпте не писали "в каске" 😉
Исправляюсь!
Вон один мужик слева без каски и что вы думаете?
тут же упал яйцами на трубу!
Простым обывателям этого, увы, не понять)
Играл с локальный флюксом
Глюков тоже не мало
Картинки сноубордистов и игры в настольный теннис не смог сгенерить - все кривое
Видно, что флюкс в каких то специальных областях вообще не разбирается
На шедевруме все сильно лучше было
флюкс сыроват, не даром же он называется FLUX dev1. Dev - это разработка версии 1.
Альфа версия. И уже такое может!
скорее всего у него в базе просто этого нет.
НО!
Вы можете сделать лору за сутки. Раз вы его запустили, значит железо потянет.
Ставите Pinokio, через него flux gym. Берете десятка 3 фото сноубордистов.
Вырезаете по маске фото нужного вам объекта с человеком наверху, лица не захватывайте! Потом все картинки конвертируете в 512х512 пикселей.
Закидываете в flux gym, нажимаете запуск и идете спать. Утром у вас флюкс уже будет уметь то что вы хотите почти идеально.
Попробую сделать "Картинки сноубордистов и игры в настольный теннис", гляну где лажает.
Там надо сказать и Flux.Pro тоже присутствует.
Не локально, но все же. Не сильно лучше, если и лучше.
А лоры я делал, это час-полтора на 4080 (20-25 картинок), не сутки вовсе
Интересно, что говорить
но дифузеры как по мне это тупиковая ветка все же, сеть должна понимать, что она делает, а не просто делать логичное изображение из шума
вот типа того, что новая гемини умеет - дифузеры ничего такого никогда не смогут
Думаю через год-два все сильно изменится в картинках
У меня 3090 я делаю из ~ 50 картинок в 768х768
Наверное поэтому так долго
Ну блин сравнили, у гемини там под капотом LLM модель параметров на 500-700b + к ней прикручен генератор. или это одна модель мультимодальная
Это немножко отличается от нашего флюкса на 12b.
Через 2 года у нас будет система умеющая в фото/видео редактирование на лету.
Недавно натолкнулся на папку от самой первой дуффузии.
Какой там был ужас и мрак. Удалил все)
Бгг.
Картинка №1. Попробуйте надеть брючный костюм и принять позу, изображенную на картинке. Одежда даст складки иначе.
Картинка №2. Девушка полностью наклонена влево, если приглядеться, у нее левое предплечье и локоть слегка вросли в стол.
Картинка №3. На бицепсах ни следа напряжения от штанги изрядного веса. Как и на брюшном прессе.
Картинка №8. Мало того, что коленки слегка срослись, так при такой толщине ног они бы точно были кривыми из-за рахита.
И я не художник, я тренер, художник бы что-нибудь ещё заметил.
а вы хотели идеального фотореализма, о модели версии первая, статус в разработке? хе.
Ну несите ваши шекели за pro версию на их сайте. И вообще, если кажется что физика в генерациях не соответствует реальной, вспомните вот эту милую зверюгу)
+ это все сырое, без обработки
Художник бы это исправил за пару минут, но я не художник
1. Мне не кажется, два десятка лет тренерской работы дали достаточно знаний, как работает человеческое тело. У компьютера такого знания пока что нет и не предвидится.
2. Художники, как и спортсмены, учат анатомию, а компьютер не учит, по всей видимости.
3. В приведенной Вами фотографии нет нарушений законов физики и биомеханики.
4. С чего Вы взяли, что компьютер станет учитывать анатомию в pro версии? Разве, что ему загрузить большие массивы классической живописи, и то, вряд ли поможет. Анатомия и физиология - это система закономерностей, а не массивы статистических данных, которые ворошат все эти искусственные идиоты.
Не буду спорить.
Смысла ноль.
Там ещё, на последней картинке, на заднем фоне, гуляет половинка девушки и зонт без ручки в виде амёбы.
На последней картинке (чуть не написал "фотке"!) сумочка тоже "приклеена" криво. А на картинке из офиса с ноутом на заднем плане с пальцами у народа беда. Так что этот "баг" стал меньше, но не исчез.
Да)
Пальцы это пока беда.
Кто бы мог подумать
А потому что пальцы очень подвижны, и их положение вообще никак не сочетается с общей темой - они могут быть любыми. За исключением оттопыренного среднего пальца.
Да рано ещё генеративные сети в плане картинок тестить) они же только только зародились, ещё под стол пешком ходят. Подождите годика два.
И не забывайте, искусственный интеллект это просто термин и не более. Увы, общество почему-то в этом термине подразумевает интеллект в общепринятом понимании. Но это далеко не так, даже близко. Это условное название, данное программистами, для себя. Называйте нейросетями, или в данном конкретном случае LLM. Если так смущает слово "интеллект")))
Во-во, а то бегают по потолку и с собой сравнивают.
И всегда стараются найти какую-то глупость с которой нейронка точно не справится.
ее правда этому даже не обучали, но то такое...
Нейронка не может то, не может се.
Хочется спросить прямо, а вот вы можете даже так, как вот эти примитивные пока системы?
Вот ты где! Я до тебя доберусь.
Это кстати в обе стороны работает, ты же в курсе?
Главное таблетки прими.
Общество подразумевает, что ему дадут то, что обещали.
А его, вместо этого, “кормят завтраками”.
В чём принципиальная разница между тем бредом, что 20 лет назад спамеры для засирания интернета порождали и тем, что нейронки сейчас творят?
Ну пикселей чуть побольше стало. И всё. Там где качество не интересует (а это в современном мире, где 90% людей делают работу, которая никому нафиг не нужна) – сойдёт.
А когда ситуация изменится и люди начнут-таки считать деньги – пойдут совсем другие расклады.
Ну просто задумайтесь над тем, что у США и Китая нейронки есть… а гиперзвука нет. А у России – наоборот. Почему так?
В таком случае - это инфантильное общество, увы. И ленится разобраться в сути.
"Интеллект", который подразумевает общество, в среде разработчиков ИИ носит термин "ASI", или "AGI" (это "сильный искусственный интеллект", или "общий искусственный интеллект") - это МЕЧТА разработчиков, и НИКТО не заявлял что AGI / ASI уже создан - к его созданию стремятся, но его и близко даже НЕТ. И это совершенно общеизвестно.
В масштабах эволюции нейросети появились буквально пару секунд назад. И Вы хотите, чтобы одномоментно всё стало как в фантастических фильмах?) Это же крайне наинво, ей-Богу.
Вспомните, сколько времени прошло между появлением первых "самобеглых повозок" и более-менее удобными автомобилями, которыми мы пользуемся сейчас. А ведь и сейчас, заметьте, автомобили сильно далеки от совершенства.
Увы, Вы почему-то рассматриваете нейросети исключительно в ключе (образно) "генератора картинок с котиками". Генеративные нейросети для изображений - это лишь 1% от всех видов нейросетей. Мы, например, уже несколько месяцев используем Claude 3.7 для программирования - просто фантастическая вещь, которая и напишет код с нуля (безошибочно в большинстве случаев), и перепишет по указанным требованиям, и проанализирует. Причем, заметьте, эта модель на две головы выше других сеток, т.е. важно понимать, какой ИИ для Вашей задачи подходит больше всего. И каких-то полгода назад ничего подобного и близко не было! А последний Claude 3.7 вышел вот буквально месяц назад - до него сетки не вывозили большинство наших задач. А теперь - с ним экономим уйму времени. Это не значит, что он превзошел человека в чем-то, вовсе нет. Это просто очень удобный помощник, в первую очередь экономящий столь ценный ресурс, как время.
Если брать Ваш частный пример, то Вы для тестов использовали далекооо не самую совершенную модель. И более-менее приличные модели - НЕбесплатны.
Страницы