У американских компаний Google, OpenAI и Anthropic начались проблемы с созданием новых моделей ИИ из-за нехватки качественных данных, сообщили источники.
Нехватка качественных данных для обучения нейросетей ограничивает способность создавать более совершенные ИИ-системы, сообщили собеседники Bloomberg, передает ТАСС.
OpenAI, работающая над технологией Orion, пока не достигла ожидаемого уровня качества. Источники отмечают, что новая система вряд ли появится до начала следующего года. В материале указывается, что небольшие улучшения не оправдывают значительных затрат, связанных с разработкой и эксплуатацией новых моделей ИИ.
Google также испытывает проблемы с проектом Google Gemini, который не оправдал ожиданий. Компания Anthropic не успевает выпустить модель Claude 3.5 Opus в запланированные сроки. Эти неудачи ставят под сомнение целесообразность значительных инвестиций в ИИ, заключило агентство.
"Побольше бы данных - хороших и разных!" Ан - фигушки.
Видать, инвесторы уже в репе плешь расчесали - как бабло возвращать. И это - пока лишь начало. Ждем-с...
Продолжаем наблюдать.
Комментарии
Капитализм добрый век разваливал науку, а теперь у него достаточно качественных данных, чтобы поработить человечество еще больше.
А почему он сам данные не генерит? Он же ИИ. Или нужны негры-чернорабочие на интеллектуальных плантациях? Тогда в чём ИИ?
До слёз!
Потому что боятся инбридинга модели
https://habr.com/ru/companies/bothub/articles/832216/
https://www.cryptopolitan.com/ru/генеративный-ии-растет-в-развитии-ии/
Мне думается в том и проблема, что ИИ стал все больше обучаться на своих же поделках.
Подделках
Да пусть им скормят данные по проекту SETI.
Там квадробайты шикарных внеземных откровений.
Не нужны нам квадроберы с их квадробайтами.
Нам — нет.
А Гуггелю самое то.
P.S. Это я забыл, как эти самые петабайты назывпются. Короче, когда очень много. А там реально много.
Петарасы с петабайтами тоже не наше.
PS Квадриллион - 15 нулей, наверна он пришел в голову.
Наш любимый байт - последний
"Ку-ку Йб-та" (с)
Ундециллион — #НашеФсё!
Пока еще не наше - гугл еще не выплатил.
А выплатит ли?
СожидаемЪ.
В какой-то момент пытались унификацию привести, чтоб приставки кило-, мега-, гига- всегда означали тыщу, миллион, миллиард, а для 1024 и прочих 220, 230 решили последний слог заменять на "би" (т.е бинарный):
Киби (Ki)
Меби (Mi)
Гиби (Gi)
И конечно же, Йоби!
Ах, вот откуда в Москве сеть кафешек «Йоби Доёби» была!
А я-то гадал!..
А вручную отобрать данные не судьба? В чем там конкретно проблема интересно.
В любом случае конкуренция высокая, инвестиции тоже, так что решение найдут.
Потому, что текстогенератор - система вероятностного прохода по дереву статистических коэффициентов встречаемости в исходных данных.
Чем больше запихивать в базу, тем меньше различаются коэффициенты, и тем больше размываются границы классов.
Решение: специализированные решатели и экспертные системы.
Тот же Вольфрам Альфа.
А так-то заходим с другой стороны к базе знаний всего. У которой тоже есть жёпка: очень быстро граф знаний скатывается в абстрактные понятия, которые кратко не объяснишь.
Да, очевидно, к этому все и идет, к специализации моделей. А общая языковая модель это аналог поисковика, которая в будущем будет перенаправлять запрос к специализированному собрату.
Кормить корову гнилым сеном, а потом ждать от неё хорошее молоко - вот уровень этих "фермеров".
Хорошо сказано!
Ну правильно, поди начали загружать в бедную железяку тезисы и нарративы западных либералов, железка и начала сыпать в логи "егого 404 логика нот фаунд"
а я еще в 2017 году такое предполагал: нейросети берут инфу для обучения в интернете, одновременно они же генерят кучу контента, причем в таком количестве, в каком люди его не смогут сгенерить просто физически и весь этот контент в итоге попадает в интернет, со временеим становясь не просто значимым, а доминирующим по количеству, и к тому же трудно отличимым, а порой и совсем не отличимым от контента, созданного людьми
в итоге нейросети начинают учиться на контенте, созданном другими нейросетями, а порой на своем же собственном контенте, всё дальше и дальше замыкаясь в себе, отрываясь от реальности, но самое главное - отрывая от реальности людей, потому что те тоже читают и воспринимают весь этот контент, принимают его за реальность
по сути люди окажутся через какое-то время в ситуации, будто большинство книг и фильмов на которых они учились, выросли, сформировали мировоззрение были написаны и сняты шизофрениками и людьми с другими диагнозами, более того, как будто они выросли в семьях шизофреников
Инфу берут специально подготовленную и проверенную, такие конторы не пускают ИИ в интернет при обучении. Не знаешь - не пиши. Вот эта подготовленная инфа и кончилась. Думаю это тупик, умнее ИИ уже не станет, дальше нужно ИИ дать виртуальную песочницу для моделирования ситуаций, но это тоже сложно и дорого.
три раза "ха":)))
я не говорил, что нейросети свободно шарятся по интернету (по крайней мере пока)
но насколько вы можете быть уверены в том, что та инфа, которую где-то взяли и подготовили люди на самом деле не была сгененерирована ИИ?
ну вернее до сего момента, и может еще несколько лет вперед такая уверенность может быть: есть изданные книжки, есть старые видеозаписи, в т.ч. на том же Ютубе и т.д.
и вот она рано или поздно закончится
а вот всё, что вышло после 2022 года точно невозможно верифицировать: многие статьи, в том числе научные с высокой долей вероятности сгенерированы и выданы за свои мысли, многие картинки были сгенерированы и выданы за контент, созданный людьми, через какое-то время очередь дойдет до аудио и видео
многие тексты и картинки уже сейчас могут отличить лишь очень крутые профи, но для подборки объемов, нужных для обучения ИИ нужны тысячи "человекоботов", там квалификацией и не пахнет
а с учетом того, как всё в мире меняется, ИИ, который обучился на 100% верифицированной инфе из прошлого мало полезен из-за потери актуальности
и при этом тот, который постоянно дообучается опять же мало полезен из-за того что многая инфа не может быть нормально верифицирована уже сейчас
об этом и написано в статье - всю старую инфу скормили ИИ, новой нет и быть не может, всё и так уже обмусолено
= разработчики считают всякие Википедии и новостные сайты недостоверными источниками :)
И правильно.
Их же рекурсивно этот самый ИИ и генерит.
Не рефлексируя, но распространяя.
чой то они быстра начали рукотворный кризис дот комов :()
неужели АГИ откладываецца, бггг :
полгода дефицита чипсов,отрезание поставок верхних чипсов в чину, дефицит видеопамяти, подпрягание сети гостиниц в таком обьеме что те забыли
забилипро свои камнии всё якобы впустую ?
Халтура!!!
Все, мир познан, больше изучать и скармливать ИИ нечего? Быстро однако...
так всё уже изучили и изобрели, осталось со всеми болезнями человека разобраться
Разобраться - и грохнуть, как это в первом Терминаторе показано
Я совсем не специалист, поэтому вопрос дилетанта. Сегодня попалась статья, типа про самопознание ИИ. Вопрос от меня - не направить ли его на познание собственных выводов? Типа, как же я умудрился такую чушь сморозить, что кожаный мешок ругается?
p.s. Подозреваю, ответ будет - потому что буржуины не привыкли вкладывать деньги в то, что не приносит мгновенной прибыли.
Нет, ответ в том что это не ИИ, а модель машинного обучения. Она должна быть обучена человеком тем запросам, на которые она будет отвечать. Модель и так на вопросы отвечает не знаниями, что 2х2=4, а мнениями из обучения - "чаще всего 2х2 будет 4". Своего мнения у ML модели нет.
Можно переобучать модель на основе высратого ей же, но поскольку качество этой информации сомнительное - модель просто деградирует. И переобучение это ёмкий процесс, в рантайме не получится такое провернуть.
один дебил попросил дебильного ИИ написать ему курсовую. Он и написал, сфальсифицировать половину данных и ссылок. Дебил не проверил. Препод тоже не проверил, потому что знает что если проверит, то должен его наказать. Написал хорошую оценку. Дебил на разость запулил в интернет или дал своим братьям по разуму. Курсовая стала гулять по интернету, иногда просто сменив название и "автор". ИИ стал на ней "учиться". В следующий раз он и его собратья сгенерируют следующую курсовую беря оттуда данных, цитат и вообще. Даже антиплагиатную защиту сделают - подменят научных терминов свободным переводом на дебильском. (кстати, была такая статья о научных статей, которых учоные "писали" ИИ и там терминология умерла). И так далее, по нарастающей. Полагаю, кенийские негры (в обоих смыслах), пишущие кандидатских для занятых британских учоных теперь плачут, ИИ отнял им хлеб. Или сами скармливают ИИ своих фантазий.
Ну кто бы мог предположить, что если правильно то, что ретроспективно часто, а на то, что сейчас перед пользователем в реале, то получится бредогенератор?!
Это же совершенно непредсказуемо!
"Никогда такого не было, и вдруг - опять!" (с) ЧВС
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
Дешевые (простые) пути - всегда маркетинг и фуфло / развод лохов / имитация.
У имитации есть предел роста / совершенства.
Мошенники жалуются что разводить лохов все сложнее.
Если некомпетентны и ищут оправдания, то давай до свиданья.
Уступите дорогу компетентным и не гребите все деньги под себя.
"начались проблемы с созданием новых моделей ИИ из-за нехватки качественных данных".
Так он даже от 50г откажется, я уж про застолья не говорю. Так и останется неучем с вытекающими мозгами.
Данных !!
Я хренею с этих додиков фестивальных.
Я уже спрогнозировал выход на плато технологии. Никакой технологической сингулярности мы так и не достигли.
В переводе на человеческий: сначала умным людям предлагается создать библиотеку однозначно правильных решений (задешево), а потом гугл-жпт на ее основе облагодетельствует идиотов.
P.S. ИМХО начинается атака на акции раздутых ит-гигантов. Вдруг все познали истину.
«
Как создать нейросеть иммитирующую человека? Про датасет.
11 минут
237 прочтений
9 декабря 2023
Приветствую! Существует устоявшееся мнение о том, что нейросеть - это прежде всего датасет, на котором происходит её обучение. Следовательно, чтобы обучить нейросеть способную имитировать некоего определённого персонажа необходимо иметь датасет, представляющий из себя чат с этим персонажем.
Данная публикация является первой частью описания проекта над которым я работал, и в ней мы поговорим о том как при помощи больших языковых моделей (Large Language Models, LLM) можно создавать синтетические датасеты типа чат для обучения моделей чат-ботов имитаторов виртуальных персонажей.
Героем текущей работы стал человек по имени Иван Яковлевич Яковлев, в своё время он был выдающимся историческим деятелем, педагогом и автором современного чувашского алфавита, за подробностями перенаправляю вас в Яндекс поиск, ну а мы продолжим.
Публикация построена следующим образом: в первой половине мы с вами поговорим о мотивации, затем проанализируем некоторые существующие реализации и смежные решения, а под занавес рассмотрим ту реализацию, что сделал я.
Кстати, ранее в публикации "Про датасеты для обучения языковых ИИ моделей" я рассказывал про основные виды различных датасетов, возможно вам будут интересны мои размышления на эту тему.
Ну а тем кому не терпится изучить исходники вот ссылка на проект: character-ai
Ну и далее по тесту здесь, кому интересно
https://dzen.ru/a/ZVa8irNpxHT5Ooqy
И вот тема «
ИИ в каждый дом! Тонкая настройка ruGPT-3.5 при помощи LoRA
5 минут
279 прочтений
9 октября 2023
Приветствую вас мои уважаемые читатели!
В данной публикации я бы хотел в слегка облегчённой форме пересказать то о чём рассказывал в Дообучение ruGPT-3.5 13B с LoRA на Хабре....»
https://dzen.ru/a/ZSQdsoHZvgOu0Cc0