вилюй • Возможен ли метод анализа новостей?

Робот может сделать тот алгоритм, что хорошо описан и проверен на практике. Например, наш рейтинг, основанный на подписках и рассчитываемый индивидуально для каждого читателя.

Если есть идеи, касающиеся конкретных алгоритмов, лучше обсуждать их, а не абстрактную автоматизацию.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)15:40-27/Дек/16

//Если есть идеи, касающиеся конкретных алгоритмов, лучше обсуждать их, а не абстрактную автоматизацию.//

речь о другом. О навыках поиска информации полученных из методики ( например получение из уважаемого ресурса однозначно весомее чем из желтой прессы).

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)20:25-27/Дек/16

Нет такого понятия как уважаемый ресурс. Это контекстно зависимое понятие. Для кого-то "эхо дождя" уважаемый ресурс. А кто-то за репост RT предлагает сажать на пол года.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(13 лет 1 месяц)22:07-27/Дек/16

На АШ оценка информации - ответственность редакторов того или иного раздела.

Да, это субъективно.

Но утверждаю, любой автоматический метод уязвим для манипуляций. Поэтому агрегаторы и решили работать только с СМИ, когда им предъявили за обьективность. Они ее не могут обеспечить, вот и переложили вопрос на СМИ, то есть на тех же редакторов.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)20:28-27/Дек/16

А зачем тут автоматический сбор новостей? Тут вроде все на хомяковой движухе не плохо стоит. Единственное наверно что можно поставить это автоматическое выделение главной мысли в статье и отсев клонов по смыслу.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 9 месяцев)15:15-27/Дек/16

В результате применённого метода мы должны получить результат. Какой результат вы хотите получить изучая Новости?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)15:36-27/Дек/16

получение максимальной обьективной информации из информационного поля и обратная задача фильтрование ложной.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 9 месяцев)15:48-27/Дек/16

То есть мы говорим об анализе на предмет достоверности?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)16:09-27/Дек/16

цель может ставиться любая. Можно использовать как поиск антипропаганды, под какую цель будет создан алгоритм.Этим занимаются не только государства, но и бизнес. Достоверность по умолчанию( иначе это бессмысленно).

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 9 месяцев)16:28-27/Дек/16

Ну так есть такие инструменты.

В частности в России этим Ашманов и партнёры занимается

https://nstarikov.ru/blog/53443

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)16:31-27/Дек/16

наверняка. Просто меня на писательство потянуло. Насколько знаю у него ученая степень, парень наверняка работает на высоком уровне.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 9 месяцев)16:35-27/Дек/16

Творчество это хорошо.

Просто за такую работу платят деньги, и приличные. Это помогает принятию серьёзных решений, люди отвечают за результаты и поэтому там работают профи, особо не отсвечивающие.

Пересекаются на курсах "повышения квалификации" все при деле :)

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)15:56-27/Дек/16

Если я правильно понял о чём речь - для начала нужно минимум разобрать текст (семантика и не простая) и проверить логическую связность новости. Проблема в том что даже если такое удастся сделать - ничего хорошего не получится, тк уже и в серьёзных изданиях по серьёзным инфоповодам статьи пишутся не разбирающимися в теме и тяп-ляп. Те реальный инфоповод есть, но может быть описан с дырами в логике и/или ошибками.

Что именно вы хотите получить из таких новостей, используя бигдату или статистику, если нет абсолютно достоверных источников?

*В том смысле что половина будет фильтроваться как "имеет логические ошибки и некорректно выстроено" а из оставшихся - будет "отсутствуют факты для проверки". Создавать рейтинг доверенности источников и верить взвешенному большинству? Тоже не выход.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)16:13-27/Дек/16

//Если я правильно понял о чём речь - для начала нужно минимум разобрать текст (семантика и не простая) и проверить логическую связность новости.//

в эти дебри не лез. Не знаю эту сферу, чтоб обсуждать. Есть методики при сборке машины, самолета... для устранения брака и они должны работать при обработке информации. Мое предложение специалистам высказать мнение на этот счет.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)00:23-28/Дек/16

Есть методики при сборке машины, самолета

Мы создаём контент или его анализируем?

Создаём?

А анализ... Скриптами и правилами можно выделить подозрительные (искусственная раскрутка новости, ссылка на ложные источники, циклические ссылки, оценка качества источника... в более сложной системе - можно даже искать логические противоречия в самой новости и, например опровержения в остальном инфополе) но это позволяет делать только негативный отбор.

А вот позитивный - те сказать: "да, это достоверная новость", "да, это естественная волна вирусного распространения", "да, это первоисточник, первым донёсший что-то уникальное" - практически не реально, если не полагаться на "авторитетные" источники.

Постфактум - что-то можно придумать. В реальном времени без собственных источников информации у системы - крайне вряд ли.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)12:22-28/Дек/16

//А вот позитивный - те сказать: "да, это достоверная новость", "да, это естественная волна вирусного распространения", "да, это первоисточник, первым донёсший что-то уникальное" - практически не реально, если не полагаться на "авторитетные" источники.//

то есть сделать авто без брака не реально?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)12:54-28/Дек/16

Ещё раз. Мы создаём контент или анализируем уже существующий? Дать гарантию что собранный на коленке не серийный автомобиль проедет следующие 500км - невозможно, если не ты его собирал. Сертифицированные - держатся на авторитете конкретного автоконцерна и непростой процедуре сертификации. И то - встречаются смертельные недоработки и отзывы машин даже при кровной заинтересованности создателей в идеальном качестве (в отличие от очень косвенного интереса СМИ в достоверности/взвешенности информации).

Попробуйте зарегистрировать самодельное авто. Для полноты картинки представьте что не существует ни гостов ни стандартов ни на агрегаты ни даже на материалы конструкции. А теперь - поставьте себя на место сертифицирующего.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)13:27-28/Дек/16

Половина поста про ОТК(отдел технического контроля), его задача контроль качества.

Не претендуя на что то важное в посте, высказал мысль (скорее всего это уже сказано не один раз).

Можно ли перенести методы, способы контроля качества применимые при создание сложных машин для поиска истинности информации( задачи по смыслу общая но реализуемая в разных областях).

Проще говоря специалист по ОТК промышленного производства показывает систему контроля(методы и способы), а программист закладывает в свою систему поиска(оба ищут брак). И вопрос задавался можно ли это сделать и нужно ли это делать? Скорее всего ответ уже есть, просто я не нашел.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)14:35-28/Дек/16

Вы предлагаете создать универсального специалиста ОТК который мог бы придти на любое чужое производство и не имея никакой информации о местном техпроцессе мог бы что-то проконтролировать. При том местные - не имеют никакого желания передавать ему какую-либо документацию или показывать техпроцесс.

Очевидные косяки - можно увидеть, не очевидные - нет. Давать какую-то гарантию - ?

Кроме того - предлагаете заменить осмотром конечного продукта все уровни, пронизывающие производство на каждом этапе (аналогии для журналистики подобрать можно):

Основная проблема - недостаток входных данных. Сформулируйте какими данными обладаете и что из них хотите получить. Дальше - да, работа программистов. Можно собирать косвенные признаки, но гарантии они не дадут.

Более того - нет ни эталонов ни ГОСТов, которые прописаны для ОТК в вашем же посте.

*ГОСТы на качество инфомрации, которым следовали бы СМИ... Хотелось бы, но получается то-ли утопия то-ли антиутопия.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)15:44-28/Дек/16

.//Вы предлагаете создать универсального специалиста ОТК который мог бы придти на любое чужое производство и не имея никакой информации о местном техпроцессе мог бы что-то проконтролировать.//

нет.

Предположим что знаний о поиске достоверной информации полный ноль(условно). Нам нужно его создать. Экономически выгодно взять, что уже проверено(отсекается все непонятные варианты) и внедрить что используется в другой области. Крнечно это не перенос дословно ( самолет и инфополе разные обьекты). Настолько разные, что возможно это не работает в принципе.

Нужен инструмент типа перевода ( как у переводчиков с разных языков). Скорей всего это не работает, иначе было бы уже давно известно.

Это что то из области натуральной философии( человек увидел в природе пчелиные соты и создал по аналогу для себя вещь). Опять же не понятно для меня работает в сложных областях производства.

Просто озвучил логическую задачу для обсуждения не будучи специалистом в обоих областях( производство и инфополе).

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)16:13-28/Дек/16

Вы пытаетесь перенести метод. Самая первая проверка - наличие данных с которыми этот метод должен работать. В ОТК есть все данные по производству + возможны дополнительные экспертизы. О производстве новости неизвестно ничего, кроме её наличия.

И даже при наличии всех данных - ОТК даёт только вероятность. Иначе ракеты бы не падали. А уж при настолько размытых параметрах как для новостей... Больше исходных данных - больше достоверность, больше значимых неизвестных - достоверность меньше.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)11:48-29/Дек/16

//Вы пытаетесь перенести метод.//

Самое слабое место в озвученной версии, что перенос с физически осязаемого предмета на химические биологические процессы в мозге. То есть чисто технические замеры с использование приборов ( например измерение зазоров деталей) надо заменять на эмоции людей.

// О производстве новости неизвестно ничего, кроме её наличия.//

Скромно промолчим, книга "психология народов и масс" не согласна с этим( это если сми рассматривать как элемент системы управления, поиск дезы небольшой элемент этой системы).

//И даже при наличии всех данных - ОТК даёт только вероятность.//

100% только у Бога, а качество производства машин улучшается с каждым годом. Вы настолько занудны(без обид), что становиться интересно, может в этой версии правда есть , что то интересное?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)14:39-29/Дек/16

Вы настолько занудны

Профдеформация, случается, извиняюсь)

использование приборов ( например измерение зазоров деталей) надо заменять на эмоции людей

"психология народов и масс" не согласна с этим

Можете пояснить что имеете в виду? Новости, особенно заказные пишутся не на эмоциях, а повлиять на эмоции пытаются все, даже достоверными новостями. Эмоциональные акценты не определяют достоверна информация или нет.

в этой версии правда есть , что то интересное?

Есть, и очень интересное, но для этого (имхо) нужен почти готовый слабый ИИ, довольно много знающий об окружающем мире. Придумать за что можно зацепиться при анализе, ещё ступенька к ИИ - и есть самое интересное.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)17:48-29/Дек/16

//Профдеформация, случается, извиняюсь)//

не важно, считаю хорошим качеством.

По время обсуждения пришла мысль зачем мучиться с переводом техническое устройство- человек, когда уже есть человек- человек. Это театр и кино. Способы достижения одинаковые(правда тут создание новости, а не контроль). Вызвать желаемую эмоцию.

Читал где то про технологию Голливуда которую вроде бы стали применять с сериала "Необитаемый Остров". Актерам не дают читать сценарий, дают только его текст(вероятно с указанием только цели отрывка который он играет). Актер обладая базовыми знаниями выполняет роль. То есть производство фильма поставлено на конвейер, где каждый актер просто крутит гайки как рабочий Форда. Замысел понятен только режиссеру, сценаристу( кому надо знать чтоб получился продукт). Возможно даже создают компьютерную модель( алгоритм снятия фильма где все роли жестко обозначены). Звучит это не качественно( слухи в интернете), но почему то правдоподобно для меня. Смотреть на подготовку в актерских училищах не стоит, но ради интереса если конвейер в Голливуде существует, это подтверждает версию возможности переноса( или создания с нуля но по тем же принципам, что и машины).

Похоже цель контроля в схеме человек-человек не видно, поэтому опять возвращаемся к ОТК.

Логичным выглядит перейти к железу. Взять систему контроля сложного устройства( не понятно насколько сложного. На вскидку, конечного сложного производства типа машина, самолет наверно соответствует уровню производства новостей раздела экономика, политика), что есть в открытом доступе(лучше двух разных фирм с большой разницей качества) и попробовать построить блок схему и алгоритм работы ОТК.

Второй шаг строить таблицу перевода( например как шкалу Цельсия в Фаренгейта). Это таблица свойств одного рода. Правильней так, как киловатт в лошадиную силу ( можно назвать схема механизм?-биологический обьект?).

Например, качество деталей поставляемых на завод = это качество отдельных фактов, событий(случайных, созданных). Наверно самый сложное это таблица соответствия механизм( таблица похоже будет как словари перевода с разных языков, для экономики один, или для поиска новостей про сланцы другой). Но тогда вроде проще и дешевле позвать специалиста по экономике и получить анализ.

И пытаться опытным путем опробовать поиск брака в инете. Получается это также попытка прогноза?

Ниже статью еще не читал.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)20:15-29/Дек/16

написанное сверху фигня. Завтра попробую сформулировать.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)14:20-30/Дек/16

Взял для примера часто разбираемый пример на ресурсе - добыча сланцев в США. Кроме технических параметров которые узнал на ресурсе 1)

там присутствует 1) добыча за счет печатного станка(экономическое местное устройство) 2) просто бытовой случай ( например за взятку разрешили разработку). Получается отраслевые словари не подходят. Или верней это только часть анализа. Похоже надо 2 и более параметра

Посмотрев блок схемы ОТК для разных отраслей(укладка асфальта или системы отопления) настолько сильно отличаются, что мысли об едином алгоритме просто не возможны. Но похоже к словарям свой алгоритм правильное направление.

отдельный алгоритм человеческих чувств как человеческий фактор? (дописать потом)

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)14:50-30/Дек/16

О, это вы за ещё более сложное схватились. Это уже анализ не определённой новости, а явления, поиск первопричин и логический вывод. Тут потребуется полная формализация области знаний и огромная база фактов. Те есть добыча и отчёты не все ложные, но... По сути тут понадобится ИИ или как минимум экспертная система более квалифицированная чем все "эксперты" что ратовали за сланцы.

Вырожденный пример того что должна уметь система - отличить новость с первоапрельской шуткой от обычной (не используя знание о том что новость вышла первого апреля). Люди и то не все сходу различают. А если ещё намеренное искажение стиля в конце убрать, то и вообще не знаю.

отдельный алгоритм человеческих чувств как человеческий фактор?

Можно сделать фильтр которому "хочется верить" новостям с определённой окраской/в определённом миропонимании, но если система не понимает всех факторов и не может обучаться, узнавая новые то получатся розовые очки а не поиск информации.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)09:34-29/Дек/16

Как выглядит тема сейчас с точки зрения информатики:

http://cyberleninka.ru/article/n/avtomatizirovannyy-analiz-novostnogo-potoka-iz-seti-internet-s-uchetom-semantiki-tekstov

Презентация по разбору текста

Те можно автоматически разобрать что сказано и кем сказано. Какую аналитику можно из этого вытащить?

1) Значимость новости:

Чтобы оценить значимость каждого упоминания, «Яндекс.Медиана» учитывает не общую посещаемость сайта СМИ, а данные о количестве прочтений конкретных публикаций

Те - количество человек это прочитавших, распространённость (и влияние) новости.

2) По повторяющимся темам (рейтинги на бирже, информация о компании) - сложная математика/статистика - модели рядов, с попыткой предсказать следующее значение.

2.1) Статистика/ряды не по конкретной новости а по тематике новостей (Ашманов, упоминавшийся тут), анализ не новости а направления потока новостей.

3) Из первого - можно составить рейтинг доверенности/авторитетности источников и давать оценку на основе авторитета источников подтверждающих новость (что интересно, информации о таком использовании не нашел). Но это система на доверии, и если авторитетные издания начинают тиражировать дезу - такая система никак не поможет.

3.1) Кластеризация групп источников - те вот такая группа СМИ говорит об этом так, вот такая группа СМИ - эдак.

Вот этот вариант, кстати, может быть весьма интересным - если сразу ставить несколько отметок на новость, кем подтверждается, кем (пока) нет, кем опровергается.

4) То что предлагаете вы: Проверка достоверности, на основе формальной логики(?) и понимания новости системой(?) на основе знания системы о реальных предыдущих фактах(?). В открытом доступе информации по такому я не нашел (может плохо искал). Может в лабораториях гугла или яндекса подобное есть, но задача очень не тривиальная.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 6 месяцев)16:25-27/Дек/16

получение максимальной обьективной информации из информационного поля

У Вас есть критерий определения фейк/не фейк?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)16:36-27/Дек/16

Все уже 2 тысячи лет назад придумано. "Понятие истины – сложно и противоречиво. У разных философов, в разных религиях оно свое. Первое определение истины дал Аристотель, и оно стало общепринятым: истина – это единство мышления и бытия. Расшифрую: если ты о чем-то думаешь, и твои мысли соответствуют действительности, то это истина."

В бытовом смысле наверно это "наибольшее количество информации за промежуток времени" для достижения своих целей.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 6 месяцев)17:42-27/Дек/16

Аааа... вонанокак!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 12 месяцев)15:20-27/Дек/16

Новое - это непознанное, могут ли новости быть непознанным? Новости сегодня - это хаос из кусочков познанного, сделанного людьми для людей и поэтому толку от них, в лучшем случае - никакого, а в худшем - один вред. Вот и весь анализ.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(8 лет 5 месяцев)15:50-27/Дек/16

Интерпретация действительности в новостях СМИ: некоторые приемы на уровне композиции текста

http://www.mediascope.ru/node/1071

Прочтите может заинтересует.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 11 месяцев)16:17-27/Дек/16

Не стала читать весь текст. Некий анализ новостного потока давно уже предложил Игорь Ашманов. Если тут кто-то не в курсе, кто он такой, то он первый, кто занялся SEO + некогда директор Рамблера, еще тогда, когда Яндекса в помени не было и он только разрабатывался. А так же он же муж Натальи Касперской и друг или знакомый приятель Германа Клименко, который сейчас является советником президента по IT вопросам.

Вот ссылка http://www.ci2b.info/o-proekte/texnologii/01-sbor-informacii/monitoring-...

Видео тоже где-то на просторах рунета должно быть.

В неком виде сортировка контента под конкретного человека сейчас реализована в Яндекс.Браузере в Дзен.

Update

Видео нашла

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 10 месяцев)16:17-27/Дек/16

У Ашманова видел только, что он определяет искусственная новость или нет. Он вроде работает на бизнес для продвижения товара, рассказывать как он работает конечно не будет давать в общий доступ.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 4 месяца)22:15-27/Дек/16

А Вы напишите ему свой вопрос, он ответит(стопроцентно, проверено), ответ выложите здесь, на АШ.

В России на данный момент команды специалистов лучше Ашманова нет, КМК.

АПД заодно ценник узнаем.....

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(9 лет 7 месяцев)18:11-27/Дек/16

Вопрос анализа текста беспокоит людей уже лет 40, может все 50, думаю, что стоит начать с криптографии, там как раз были заложены основы анализа текста.

Но нам нужна не голая статистика, сколько букв пробелов, и прочего. Для этого можно любую книгу прогнать для сбора статистики. Для этого нужен разбор семантики, те раздел смыслов.

Например, как в старом анекдоте, "Абрам - дурак, ну извините..."

Пишется много статей, защищается десятки диссертаций, но пока особых успехов нет...

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)20:21-27/Дек/16

О чем разговор то? Полностью автоматический анализ требуемого среза новостного потока стоит 40 000 руб в месяц. Если новости на собачьем то 80 -120 000 руб.

Для мелких заказав цена договорная.

Короче заплати и лети )))

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)00:34-28/Дек/16

А можно поподробнее? На что анализ и возможен ли в реальном времени или только по массиву данных постфактум?

*Вообще - в первую очередь системы анализа новостей реального времени должны быть у трейдеров на бирже. Если есть какая-то информация - подскажите)

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)03:05-29/Дек/16

Техническая задержка около 2х минут. Если нужен анализ важности и достоверности новости, то на это уходит 15-60 минут. Если новости на собачьем, то плюс время на перевод статьи. Переводятся только самые актуальные и важные. Обычно это 2-3 новости в день по одной узкой теме.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)09:26-29/Дек/16

Очень интересно. Можно название компании?

*Зацепил поиском GARCH модели, но не уверен что про то речь.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)00:27-2/Янв/17

А чего вы хотите?

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)10:18-3/Янв/17

Узнать кто это настолько оторвался от конкурентов) Тот же Яндекс выставил такой сервис относительно недавно, но не предлагает анализ достоверности, только "значимость" по количеству просмотров.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)00:30-6/Янв/17

Яндекс оценивает "значимость" статьи по числу просмотров и лайков. Основываясь на явоей Я.Метрике и данных полученных непосредственно от сайтов. Мы идем другим путем. Пусики и желтые новости всегда перелайкуют нормальные. Так что это тупиковый подход.

Достоверность оценивать трудно, на каждую тему нужно настраиваться. Чтоб проколов много не было.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(10 лет 4 месяца)01:07-6/Янв/17

Мы идем другим путем.

Вы круты. Без всяких шуток.

Достоверность оценивать трудно, на каждую тему нужно настраиваться.

Вот, о чём я и пытаюсь сказать. Есть два реализуемых варианта: Первый - учитывать авторитетность источника в конкретной области. Второй - создавать фактически экспертную систему по заданной тематике. (Второй - имхо, получится что-то запредельно дорогое в создании. Но если единая система сможет работать на несколько областей - это очень серьёзный прорыв.)

Чисто на анализе текста с нуля, без дополнительной информации - я не вижу как можно что-то проверять на достоверность. А проверять весь поток новостей, особенно в размытых предметных областях, например "политика" - вообще сумасшедшей сложности проект.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

(12 лет 2 месяца)01:30-7/Янв/17

Оценивать достоверность через "авторитетные источники" бесполезно. Это слишком лично всегда. Создать экспертную систему можно, но это достаточно бесполезно. Многие достоверные и очень важные новости содержат страшные косяки. Например новость о начале нашей операции в Сирии содержала информацию о переброски в Хмеймим Миг-31. В целом по новостям косяки ходят табуном. Про те же сланцы пишут в 80% случаев откровенный бред.

Короче приходиться работать с тем что есть. Сложность настройки на тему связанна с тем что любая новость дает проекцию только на часть сети, а сканировать всю сеть даже с частотой в 24 часа нереально. Нужно вырезать подходящий сегмент чтобы обходить его хотя бы 1 раз в час. Этот срез всегда очень сильно зависит от тематики. Да не все модели оценки достоверности хорошо работают со всеми тематиками.

Войдите или зарегистрируйтесь, чтобы отправлять комментарии

Возможен ли метод анализа новостей?

Обязанности контролера ОТК

Требования к контролеру ОТК

Познание. Понятие, формы и методы познания.

Комментарии

Интерпретация действительности в новостях СМИ: некоторые приемы на уровне композиции текста