Читая вечером новости, наткнулся на прелюбопытнейшую статейку. В описании много слов о том что будет делать но ни слова о технологии работы. Вот общее описание и суть статьи:
Европейскими учеными было решено создать систему под красноречивым названием Pheme, которая работала бы по принципу детектора лжи, однако не требовала подключения источника информации к полиграфу. В данном случае анализу подвергался бы лишь текст — записи в социальных сетях и «твиты». По мнению специалистов, данная система, которая смогла бы проверить онлайн-слухи, является крайне необходимой из-за тотальной лжи в социальных ресурсах.
Способов использовать подобный мощный инструмент(хотелось бы верить что это технически возможно) не сосчитать. Но у меня возникло стойкое подозрение что это всё же попытка создания очередного "рейтингового агенства" только для социальных сетей.
Если у кого-то есть мысли по поводу технической стороны вопроса и способа реализации подобного проекта, любезно прошу оставить соображения в коментариях.
Оригинал статьи на английском: http://www.bbc.co.uk/news/technology-26263510
Комментарии
Жаль тут смайлика нет бьющеейся об кирпичную стену башки.
Щито?
Не взлетит :-)
Начать можно с малого - анализ статей популярн(ого)ых блоггеров. Разумеется с последующей проверкой достоверности информации.
Таким образом можно будет получить алгоритм для выявления лжи, заблуждений и правды просто по почерку. (специалисты это и так поймут, нет?)
НО! Исходя из того что блоггеры являются придатками медиаимперий возникает вопрос - кто ж позволит этому механизму работать?
Для спецслужб, смысл имеется, но не для открытого использования.
Я размышлял о методе кластеризации записей(одна из форм машинного обучения), однако возникает вопрос о том что подобная система будет очень подвержена атаке на структуру, т.е. зная общие критерии оценки к какому кластеру отнести данные(лож или правда) можно создать структуру легко минующую фильтр и проникающую в кластер "правды".
на первичных этапах ни о каком машинном обучении речи идти даже не должно... ну или надо покупать Watson от IBM и впрягать его в качестве "аналитика"
"создать структуру (понятий) легко минующие фильтр и проникающие в кластер" - примерно, вот-так: ПРАВДА, шо-то неуловимо изменилось в цитате и выделено - жирненьким)
На текстах беркема аппарат взорвется нахер... как моя башка....
Лучше на удафф.ком его отправить. Вот уж где будет ПирЪ ДухаЪ!
Или на лурк.
"Обработке своеобразным детектором лжи будет подлежать лишь сам текст. К сожалению, графические изображения выходят за рамки возможностей новой системы, так как подобный анализ является слишком сложным для реализации с технической стороны."
Эта фраза полностью обнуляет и без того низкий технический уровень статьи.
В топку.
Это просто какой-то чистый незамутненный бред. ВСЕ детекторы лжи работают по принципу считывания физиологического состояния человека во время ответа на вопрос. А тут на входе уже готовый текст, реакцию автора не измерить, да и сам вопрос, на который ответом служит этот текст не тоже известен. Для того чтобы работать с голым текстом надо его ПОНИМАТЬ. А для этого нужен высокоразвитый ИИ. Чего пока нигде не просматривается.
Высокоразвитого ИИ не надо. Скорее всего, речь идёт про статистику использования определённых слов, а в усидчивости даже домашний комп может дать сто очков вперёд человеку, только дай ему правильный алгоритм... Тем более, речь, видимо идёт про массовое применение, когда миллионы экспертов привлечь нереально. Пмсм.
Хм, идея со статистическим анализом - вполне жизнеспособна, тем более есть более-менее качественно работающие и оттестированные модели спамфильтров работающих по такому же принципу.
Вот-вот. Главное - модель, по которой будет рисоваться алгоритм анализа текста.
Не совсем так, полиграф фиксирует изменения в физических и физиологических параметрах тела основываясь на предположении что сознательная ложь влияет на них. Тут же, на сколько я полагаю, пытаются найти некие аналоги подобных изменений которые можно измерить и сравнить, так что ИИ тут не нужен - это стрельба по воробьям из пушки.
Сначаал анализируем текст разбиваем его на "Смыслы" - те структуры соответсвующие описанию собятия.
Потом каждый "смысл" потрошим на участников - места, люди, факты описаия итп
Потом специальный отдел людей проверяет участников на валидность скорее всего не более 2-х раз на участника.
Даелее весовой коэфициент присваивается каждому участнику он может быть от -1 до 0 и до +1
потом суммируем все весовые коэффициенты(утрированно)
Ну вот я бы решал примерно так, хотя тут не ту некоторых идей, но суть примерно такая.
Если хочется подробнее могу расписать, могу и ТЗ накатать, Но уже не бесплатно +)
решили "министерство Правды" создать. Не совсем еще его, но верной дорогой идете...Всегда захочется слегка приукрасить в свою пользу, чуть-чуть подкрутить алгоритм, потом еще, еще...
Это как с демократией, сначала что-то на нее похожее, потом начать ее улучшать, манипулируя общественным сознанием...