Фейки, истерика, паника.

Аватар пользователя Василий Петрович

В последнее время слышно только про коровавирус, он затмил все и вся.

Даже референдум, и работу печатного станка. Больше ничего не слышно.

А о чем же ещё говорят люди, и как это узнать?

Всем привет, это мое первое творение(с заявкой на аналитику) для АШ, так что, как обычно, не пинайте ;)

По мотивам статьи камрада perehvat, вдохновленный творчеством камрада myak555, а также испытывающий муки поделиться мыслями с сообществом, начинаю.

Буквально вчера по ТВ сообщили, что:

«За размещение фейковой информации, касающейся коронавируса, может грозить не только административная ответственность, но и уголовная»

https://tass.ru/obschestvo/8054593

Будем надеяться, что вирусом не ограничимся.

Что считать фейковой информацией или провокационным постом, я не знаю, но на мой взгляд есть неплохой способ отделить зерна от плевел.

Итак приступим.

Где искать?

В первую очередь необходимо получить сами посты, в нашем случае это будет Вк. Одна соцсеть.

Была сделана выборка 345 российских городов из базы vk.api

Затем был отправлен запрос, на получение первых 50 по величине сообществ, для каждого города.

И после этого был проведен опрос стен сообществ.

Запросы, за каждый из которого было получено: по 100 записей с каждой стены, каждого сообщества, каждого города. Ну это так планировалось. В идеале…

На деле получилось гораздо меньше, около 6к сообществ и 500к записей. Я не стал полировать

результаты, хотя, может быть и стоило. В итоге пришел к выводу, что у нас будет концепт, а потому можно оставить как есть.

Опрос ВК проводился на Python’е, затем результаты перекладывались в бд.

 

Как искать?

Также в базу были добавлены дополнительные поля, которые позволили провести нормализацию выходных данных.

Эти три поля, есть соотношения:

  1. Комментов к лайкам(F). Пусть данное число будет называться – эмоциональная реакция.
  2. Лайков к просмотрам(G)
  3. Комментов к просмотрам(H)

По сути, та же оценка взаимодействия с пользователем, что применяется в рекламе, маркетинге и тп.

Чтобы пост из базы попал в нашу выборку он должен отвечать трем параметрам:

Лайков более 50(D)

Комментов более 50(C)

Отношение комментов к лайкам(эмоциональная реакция) более 0,5(F)

 

Вот тут можно поиграть с параметрами!

 

Что искать?

Нам же, для проведения эксперимента этих цифр будет вполне достаточно.

Чего я не ожидал, так это отношение комментов на просмотр, более одного(H)

Рис 1 - комменты на просмотр

 

Как оказалось(впрочем можете проверить), предельным значением данного соотношения – можно считать диапазон цифр 0,07-0,05. То есть, не более 1 коммента на 20 просмотров, и это действительно можно считать сильной эмоциональной реакцией. На диаграмме этот момент очень хорошо виден.

Как результат: я считаю, что отношение лайков к просмотрам более 0,07 - с высокой долей вероятности характеризует пост как конкурсный/рекламный.

В результате было убрано порядка 200 постов с запредельными значениями, то есть все, что больше 0,07.

Теперь можно делать график.

Из таблицы были взяты два параметра отражающие эмоциональную составляющую, это –

Отношение лайков к просмотрам столбец G, и комментариев к просмотрам столбец H.

Столбец G(лайк/просмотр), также, все что больше 0,07 убираем. Там одни призы и подарки.

Рис 2 – Лайки на просмотр

 

Теперь, если мы отсортируем нашу диаграмму по столбцу F(эмоциональной реакции) от меньшего к большему, то сможем увидеть посты начиная с тех, где, эмоциональная реакция, минимальная в текущей выборке. Это значение увеличивается вправо.

Пустая область на диаграмме соответствует значению 1, там где количество лайков и комментариев одинаково. Достойно внимания для изучения.

 

Увеличение значения столбца F(эмоциональной реакции), также смещает нас в сторону конкурсов,

хотя некоторые посты от пользователей, действительно, имеют высокую степень эмоциональной реакции(F) и могут отражать  степень заинтересованности к данной проблеме.

Как пример можно привести внимание к стаям бродячих собак.

Как итог, можно сказать, что степень эмоциональной реакции в сети Вконтакте легко увидеть невооруженным взглядом. Приблизительный диапазон: если комментов к посту в два раза меньше лайков или в 2 раза больше, а также все что между этими значениями, то такой пост можно считать высокоэмоциональным и заслуживающим внимания.

Дальнейшие действия могут варьироваться и зависят только от Вашей фантазии.

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Файл с данными на Я-диске.

https://yadi.sk/d/1ie5rs0OesVu2g

На мой взгляд файл лучше открывать OpenOffice'ом, Excel у меня, не захотел переваривать такое количество записей для диаграммы.

Также имейте ввиду, что построение диаграммы может сильно нагрузить комп.

Комментарии

Аватар пользователя e.tvorogov
e.tvorogov(8 лет 10 месяцев)

Простите, а в чём смысл этой проделанной работы?

Аватар пользователя Василий Петрович

Обработка данных, поиск зависимостей. Поиск актуальных тем.

Также, визуально, возможно определение, интереса к данной теме.

Знание "среднего отклика" на пост и поста с экстремальными значениями могут указывать на нездоровый интерес к теме.

Статья написана  для того, чтобы донести до сообщества один из способов определения горячих тем.

Для себя, также открыл много интересного.

Аватар пользователя Cepreu
Cepreu(8 лет 6 месяцев)

Лучше бы научиться отличать "профессиональных комментаторов" (работающих на какую-то цель) от обычных людей. Мой опыт модерации больших сообществ показывает, что из тысячи реальных читателей находятся порядка пяти комментирующих.

Аватар пользователя Василий Петрович

Я, как-то, одно время также озадачился данной мыслью, делал гавнобот финдера, также по ВК, но забросил.

Опять же, чисто визуально, на текущий момент, если появляется какой-то ратоборец, то как правило это:

- из другого города

- аноним

- свежерег

- дата рождения без года или древняя.

Можно получить инфу как по лайкам так и по комментам для записей(кто оставил лайк/коммент),

в постах искать - оставивших эмоции.

Аватар пользователя Василий Петрович

Мой опыт модерации больших сообществ показывает, что из тысячи реальных читателей находятся порядка пяти комментирующих.

Спасибо за информацию ;) 

Аватар пользователя sasha7777
sasha7777(7 лет 3 месяца)

laugh А шоб меня, я такой телеметрии еще не встречал. 

Аватар пользователя Василий Петрович

Иногда не сразу понимаешь, что именно увидел )

Аватар пользователя КМ
КМ(8 лет 11 месяцев)

Как искать? Что искать?

Тольки вотка. Тольки когнак.

Так победимЪ!

Аватар пользователя Александр Саяногорск

А наш притончик гонит самогончик))) двойная дистилляция, 72 на ареометре. Хоть наружно убьёт любую хворь, хоть внутрь прими для пользы тела. Вотка в этом плане проигрывает, градусов маловато, а вот коньяк(если только это он) горло лечит хорошо. Полоскать надо и не забывать проглатывать, разумеется. 

Аватар пользователя Mike1975
Mike1975(5 лет 12 месяцев)

А как же элитный самогон двойной перегонки ?

Аватар пользователя Василий Петрович

Благоразумно иметь все, выше перечисленное, до того, а не после ;)

Во всяком случае это гораздо важнее туалетной бумаги.

Аватар пользователя al-leks
al-leks(7 лет 2 недели)

Даже референдум

Вы о чем вообще?

Аватар пользователя Василий Петрович

22 апреля общероссийский референдум должен был пройти, теперь навряд ли.

Аватар пользователя al-leks
al-leks(7 лет 2 недели)

Никакого референдума на 22 апреля  не планировалось, не фантазируйте

Аватар пользователя Василий Петрович

Я был неточен. Признаю.

Аватар пользователя Cepreu
Cepreu(8 лет 6 месяцев)

Не референдум, опрос. Изменение ныне изменяемых статей конституции не подразумевает референдум.

Аватар пользователя Василий Петрович

Спс

Аватар пользователя k0lun
k0lun(12 лет 10 месяцев)

Гыгы))
Определение фейка по лайкам "вконтактиков") Жесть...
Когда коту делать не чего он йайца лижет, а тут целый лайкоанализ)))

Аватар пользователя Василий Петрович

Именно так.

Лайкоанализ нужен для нормализации.

Аватар пользователя senbonzakura
senbonzakura(6 лет 8 месяцев)

Кстати насчет фейков. Сейчас в Ютубе много видосов с колоннами танков/бэтров/автобусов с солдатами(?), едущими в Москву.

Аватар пользователя Василий Петрович

Незнаю. Сейчас всего можно ожидать/ увидеть/услышать.

В этом плане конечно, хорошо было бы, мониторить ватсапы, вайберы, телеги.

Аватар пользователя Barmalley
Barmalley(12 лет 9 месяцев)

Так учения же, что впрочем не отменяет их плавный переход в проведение реальных карантинных и дезинфекционных мероприятий. У нас под СПб тоже пару колонн видели.

Аватар пользователя Охри
Охри(4 года 8 месяцев)

Разве Гауса не должно получиться, в зависимости лайков и коментов?

Аватар пользователя Василий Петрович

Да, Вы правы - получится ;)

Только соотношение лайк/коммент может быть на два порядка выше. Я делил меньшее на большее, так как комментарий более редкое явление, чем лайк.

Аватар пользователя teod999
teod999(7 лет 1 неделя)

На самом деле так можно и нужно прогнозировать перспективные темы следующих массовых психозов. Психозы толерантности, зеленобесия и пр. смел освежающий поток короновируса. Но, как водится, ненадолго и неокончательно. Все диванные психозы сытого брюха временно отступили и затаились. Вот когда предлагаемая лайко-комментарная метода покажет вам снижение струи вирусной бредятины, а старые проверенные тараканы экологии, необходимости получения удовольствий многими отверстиями и пр. полезут изо всех дыр. Вот тогда то и самое время закинуться на рост нефтяных фьючерсов. Ибо истинный хозяин биржи - коллективное бессознательное. Денежная на самом деле метода. Надо бы монетизировать (трейдерам продать). А вы простецки на АШ. 

Аватар пользователя Василий Петрович

Вы знаете, я думаю, что в серьезных конторах все это уже есть. Я бы даже сказал - задают вектор. Мы же пока только пытаемся классифициповать.

Кстати да, настроение улавливает отлично. На рынках психоэмоциональную составляющую стоит учитывать - соласен. 🤝

 В том числе и затмения, и пятницы, и тд.

Аватар пользователя Langeo
Langeo(9 лет 9 месяцев)

С учетом хохло- и прочих ботов исследование практического смысла не имеют. Тем более, на крупных пабликах, которые по определению работают только за бабло.

Аватар пользователя Василий Петрович

Вот именно там, при эмоциональной реакции от 0,5 до 2, их можно найти в достаточном количестве. И учесть в расчетах. Хотя они и изменяют свои данные, или закрывают профили.

В крупных пабликах, мы имеем не только ботов, но и реальных людей, которые и высказывают свое отношение к фейку, и меняют отношение коммент/лайк там, где действительно вброс.

Именно соотношение комментов к лайкам м/у 0,5 и 2 диагностирует, с большой долей вероятности - срач.

Причины разные, но степень интереса к теме видна невооруженным взглядом.

Также, не стоит забывать, что в тестовой выборке, количество лайков на пост, как и количество комментов на пост, ВСЕГДА больше 50.

Также, имейте ввиду, что порядка, 497К(99%) постов было отфильтровано. Они не попадали в выборку по причине возможных флуктуаций, там где:

Лайков <50, комментов < 50 или эмоциональная реакция < 0,5

Хотя уровень эмоциональной реакции можно снизить.

Аватар пользователя Охранитель

Приятного урока физкультуры...

Аватар пользователя Yan4ik
Yan4ik(11 лет 8 месяцев)

Вот честно,практически  ни чего не понял. Но в принципе специальным людям полезно. 

Аватар пользователя Василий Петрович

Вот честно,практически  ни чего не понял.

По броьшому счету, (без всяких столбцов и графиков), достаточно поделить количество комментов на число лайков, чтобы определить насколько пост эмоционален, и как сильно он будет способствовать появлению комментариев.

При анализе большого количества постов помогает провести фильтрацию.