# Аналіз предметної області

# Вступ

У цьому документі вміщено ключові терміни, методи розв'язання завдань та розгляд порівняльної характеристики для аналізу медіа-контенту, такі як : Determ, Youscan, Semanticforce, Semantrum, Meltwater та Brand24. Також у документі містяться висновки та посилання на необхідні ресурси.

# Основні визначення

Моніторинг [1] - це відстеження публікацій за конкретною тематикою в ЗМІ. Дві основні складові моніторингу - контекст (список ключових слів) і база ЗМІ (список джерел). Моніторинг ЗМІ - це повнотекстова добірка новин, аналітичних статей, графіків і таблиць по окремій галузі або сегменту. Основне завдання моніторингу - поточний огляд ринку.

Штучний інтелект [2] - це галузь інформатики, яка займається розробкою інтелектуальних машин, здатних виконувати завдання, які зазвичай потребують людського інтелекту.

Програмне забезпечення [3] - це загальний термін для різних видів програм, що використовуються для роботи з комп'ютерами та пов'язаними з ними пристроями. Програми дають можливість взаємодіяти людині з комп'ютером, забезпечують його зручність і функціональність.

Репутаційний менеджмент [4] - це сукупність методів та підходів, спрямованих на створення, підтримання та контроль іміджу компанії.

Багатоканальна платформа [5] - це інформаційна або технологічна система, яка надає можливість взаємодії з користувачами через різні комунікаційні канали і канали зв'язку.

Семантичний аналіз [6] - це процес визначення смислу та інтерпретації значення слів та фраз у контексті, в якому вони вживаються. Основна мета семантичного аналізу тексту полягає в тому, щоб зрозуміти, що автор намагається передати та який вплив він має на читачів.

API [7] - набір визначень підпрограм, протоколів взаємодії та засобів для створення програмного забезпечення. Спрощено — це набір чітко визначених методів для взаємодії різних компонентів. API надає розробнику засоби для швидкої розробки програмного забезпечення. API може бути для веббазованих систем, операційних систем, баз даних, апаратного забезпечення, програмних бібліотек.

Сумісність [8] - характеристика програмного забезпечення, що відповідає за можливість чи неможливість певного програмного забезпечення запускатися і працювати під управлінням конкретної операційної системи та успішно взаємодіяти з іншим програмним забезпеченням.

UI [9] — це користувацький інтерфейс. Цим терміном описують те, як продукт виглядає: кольори, дизайн, анімація, контент, форми (кнопки, мітки, поля для вводу) тощо.

# Підходи та способи вирішення завдання

Загалом прийнято поділяти методи дослідження даних на кількісно-описові та якісно-інтерпретативні.

Якісний контент-аналіз — методика аналізу текстів шляхом систематичної інтерпретації текстів через виділення в них тем, тенденцій і відповідне їх кодування.

Виділяють наступні якісні методи дослідження змісту медіа-комунікацій:

  1. Традиційний аналіз
  2. Феноменологічний аналіз
  3. Дискурс-аналіз
  4. Аналіз медійних рамок
  5. Етнографічний аналіз
  6. Емпіричний аналіз інтерфейсів і дизайну
  7. Символьний аналіз

Традиційні методи аналізу представляють собою набір операцій, які дають змогу розглядати документ у відповідності до цілей дослідження. Аналіз тексту в такому контексті дозволяє розкрити сутність документа, розуміти мотивацію та наміри автора, розглядати особливості створення документа, передбачати очікуваний ефект та визначати вплив повідомлення, серед іншого.

Феноменологічний аналіз ідентифікує базові структури суб'єктивного досвіду, а саме духовних намірів та особистісних смислів, дозволяє вивчити емоційно-ціннісний арсенал переживань особистісних смислів

Аналіз дискурсу базується на кількох методологічних засадах, які описують конструктивний характер мови. Цей метод відрізняється від інших якісних методів тим, що він прагне пояснити значення феноменів соціальної дійсності і визначити, у який спосіб цю дійсність було сконструйовано. Наголошуючи на осмисленості соціальної дійсності, аналіз дискурсу водночас ставить доречне питання про непостійний, мінливий характер значення.

Аналіз медійних рамок є важливим методом дослідження медійного контенту та вивчення того, як дана інформація або тема представляється в мас-медіа. Медійні рамки - це концептуальні структури, які визначають, які аспекти подій або теми виокремлюються в медійних повідомленнях і як вони представляються глядачам або читачам. Аналіз медійних рамок допомагає розкрити, як саме медіа впливають на сприйняття аудиторією інформації та формують громадську думку.

Етнографічний аналіз полягає в проведенні глибоких досліджень медіа-контенту у контексті конкретної культури або групи людей. Дослідники можуть вести спостереження, інтерв'ювати учасників, і вивчати, як контент взаємодіє з культурними нормами і цінностями.

Емпіричний аналіз інтерфейсів і дизайну досліджує дизайн інтерфейсів медійних продуктів, таких як веб-сайти або мобільні додатки. Аналізується, як дизайн впливає на взаємодію користувача з контентом і сприйняття інформації.

Символьний аналіз досліджує використання символів, знаків та позначень у медійних текстах для розкриття семантичного значення та сприйняття аудиторією.

Кількісний контент-аналіз — методика аналізу текстів шляхом кількісного порівняння аналітичних категорій через підрахунок ключових слів.

Кількісними методами змісту медіа-комунікацій є:

  1. Обробка природної мови
  2. Текст-майнінг
  3. Контент-аналіз
  4. Статистичний аналіз
  5. Аналіз часових рядів
  6. Токенізація
  7. Аналіз синтаксичних структур

Обробка природної мови (NLP – Natural Language Processing) – це вивчення та застосування методів та інструментів, які дозволяють комп’ютерам обробляти, аналізувати, інтерпретувати та міркувати про людську мову. NLP передбачає застосування різноманітних алгоритмів, здатних приймати неструктуровані дані і перетворення їх у структуровані дані. Якщо ці алгоритми застосовані неправильно, комп’ютер часто не зможе отримати правильне значення з тексту.

Natural Language Principles [16]

Головні завдання цього методу наступні:

  • Видобування даних
  • Розпізнавання мови
  • Машинний переклад
  • Розпізнавання/визначення теми
  • Інформаційний пошук
  • Отримання зв'язків
  • Спрощення тексту
  • Розв'язання лексичної багатоманітності
  • Детектування окремих лінгвістичних одиниць
  • Морфологічна декомпозиція

Текст-майнінг - це технологія отримання інформації з неструктурованих текстових даних шляхом їх перетворення на придатний для подальшої роботи набір структурованих даних , представлених у зручному для машинної обробки вигляді. Він зазвичай включає процес структурування вихідного тексту із застосуванням синтаксичного аналізу, використання деяких лінгвістичних функцій з подальшим завантаженням в базу даних і інтерпретацією результатів. Результати аналізу тексту оцінюються з погляду деяких критеріїв якості, що включають актуальність, новизну та інтерес.

Text Mining [17]

Типові завдання аналізу тексту включають:

  • категоризацію
  • кластеризацію
  • вилучення концептів (сутностей)
  • розробку таксономій
  • узагальнення документів
  • моделювання відносин між сутностями
  • тематичне індексування
  • пошук за ключовими словами
  • вивчення частотних розподілів слів
  • анотування

Процес текст-майнінгу зазвичай містить такі етапи:

  • збирання та ідентифікація набору текстових джерел з Інтернету, файлів документів, баз даних тощо;
  • розпізнавання іменованих об'єктів — використання довідників чи статистичних методів для ідентифікації іменованих текстових об'єктів: людей, організацій, географічних назв, товарів, брендів тощо.
  • усунення неоднозначностей - використання контекстних підказок для інтерпретації неоднозначних понять (наприклад, машина - це транспортний засіб, і комп'ютер, і механізм);
  • розпізнавання об'єктів, ідентифікованих за шаблоном - номерів телефонів, адрес звичайної та електронної пошти, кількості (з одиницями вимірювання) можна розпізнати за допомогою регулярного виразу або іншої відповідності шаблону;
  • кластеризація документів: ідентифікація наборів схожих текстових документів;
  • ідентифікація іменників та інших термінів, що належать до одного і того ж об'єкту (кореферентність).
  • виявлення фактів та подій, взаємозв'язків між ними, виявлення асоціацій між сутностями;
  • аналіз настроїв включає розпізнавання суб'єктивного аспекту і вилучення різних форм поведінкової інформації: настрої, думки, емоцій.

Технології текст-майнінгу в даний час широко застосовується для вирішення різних завдань у галузі бізнесу, наукових досліджень, державного управління, розвідки та безпеки.

Контент-аналіз - це метод вивчення документів, який характеризується об'єктивністю висновків і строгістю процедури та полягає у квантифікаційній обробці тексту з подальшою інтерпретацією результатів. Контент-аналіз є вимірюванням тексту чи іншого символьного матеріалу, що має методологічне підґрунтя і відповідає завданням соціальних наук.

Етапи контент аналізу [18]

Статистичний аналіз - це метод, який включає в себе використання статистичних методів та інструментів для вивчення числових даних, таких як залежності, кореляції, регресія тощо, у медійних дослідженнях. Використовується для встановлення статистично значущих відмінностей та закономірностей.

Statistical Analysis [19]

Аналіз часових рядів - це метод, який використовується для вивчення динаміки зміни медійного контенту в часі. Досліджується, які теми або тренди змінюються з плином часу, і як це впливає на аудиторію та споживання контенту.

Токенізація - це процес розбиття тексту на окремі "токени" або одиниці, які можуть бути словами, фразами, реченнями або іншими значущими частинами тексту. Токенізація допомагає перетворити текст в структуровану форму, яку можна подальше аналізувати та обробляти за допомогою комп'ютерних програм та алгоритмів.

Tokenization [20]

Аналіз синтаксичних структур - це метод визначення синтаксичних відношень між словами і фразами у тексті, що дозволяє розуміти синтаксичну структуру речень.

Досліджуваний аспект процесу масової комунікації Завдання контент-аналізу Об'єкт контент-аналізу Предмет аналізу
Відтворення об'єктивних подій і явищ Реконструкція подій чи явищ Денотативний зміст повідомлень Об'єктивні характеристики
Взаємодія соціальних суб'єктів (комунікатора й аудиторії) Встановлення закономірності відтворення дійсності різними засобами МК Тематична структура і семантичне значення повідомлень Позатектсові реальності засобів спілкування. Картина світу, яка створюється МК
Вираз цілей і характеристик суб'єкта виробника Виявити соціальні завдання, комунікативні наміри і пропагандистські цілі діяльності комунікатора Функціональні характеристики повідомлень.Співвідношення пізнавальних, ціннісних і нормативних елементів у змісті повідомлень Характеристики суб'єкта-виробника інформації і соціального інституту МК. Соціальні функції повідомлень
Задоволення комунікативних потреб сприймаючого суб'єкта Виявити соціальні й ідеологічні характеристики МК Ідеологічний зміст повідомлень. Позатекстові характеристики джерела Відповідність об'єктивованих відношень певним соціальним групам
Виявити характеристики комунікатора Смислова структура і прагматичні значення повідомлень Відповідність змісту повідомлень соціальному досвіду і настановам груп. Потенційна ефективність комунікацій
Виявити особливості повідомлень до задоволення інформаційних потреб аудиторії Інформаційна якість повідомлень Відповідність характеристик повідомлень інформаційним потребам аудиторії, інформаційні функції повідомлень
Виявити можливості повідомлень до задоволення психологічних потреб аудиторії Комунікативні якості повідомлень як психологічного стимулу чи джерела естетичної насолоди Зв'язок характеристики повідомлень з психологічним станом реципієнтів. Психологічні функції повідомлень
Прогнозувати чи пояснювати комунікативну ефективність впливу Мова повідомлень, структура тексту, пропагандистські прийоми Відповідність комунікативних засобів цілям впливу комунікативному досвіду аудиторії. Потенційні ефекти комунікації
Прогнозувати чи пояснювати соціальну ефективність впливу Вибір об'єктів комунікацій, характери відбиття різних сфер діяльності
Виявити комунікаційні відношення між різними групами Соціальні характеристики джерела й адресата. Характеристики взаємодії

Відмінності між якісними та кількісними методами

Якісні методи та усі інтерпретативні підходи не передбачають квантифікації та обрахунків. Значення у цих методах — це результат текстуальних зв'язків, протилежностей і контексту, вони не базуються на кількості та співвідношенні характеристик. Якісні методи звертають увагу на приховане, а не на очевидний контент. Глибші значення мають вагоміше значення. Якісні та кількісні методи по-різному систематичні. Перші з обережністю ставляться до добору прикладів, та не погоджуються з тим, що усі одиниці контенту є однаковими. Якісні методи не припускають, що культурна та соціальна реальності, реципієнт та повідомлення мають однакову базу значень, а навпаки стверджують, що кожна складова має окремі системи значень, що вимагає ретельного вивчення та уваги дослідника

# Порівняльна характеристика існуючих засобів вирішення завдання

Determ [10] - це система для моніторингу медіа-контенту, яка служить для відстеження та аналізу відгуків, згадок та обговорень брендів, продуктів або ключових слів у медіа-джерелах та соціальних мережах.

Youscan [11] - це платформа для прослуховування соціальних мереж на основі штучного інтелекту з найкращими в галузі можливостями розпізнавання зображень.

Brand24 [12] - це інструмент для моніторингу та аналізу відгуків, згадок та обговорень брендів, продуктів, ключових слів та конкурентів в соціальних мережах, медіа, форумах та інших джерелах в Інтернеті.

Meltwater [13] - це програмне забезпечення як сервісне рішення та перша у світі компанія з онлайн-моніторингу ЗМІ.

Semantrum [14] - AI-платформа медіааналітики та репутаційного менеджменту.

Semanticforce [15] - це багатоканальна платформа для медіа-моніторингу, аналітики та обслуговування клієнтів, що базується на розширеному семантичному та візуальному аналізі.

🟩 - Критерій виконаний на 100% 🟨 - Критерій виконаний частково 🟥 - Критерій не виконаний

FURPS Характеристики MediaMind (наш проєкт) Determ Youscan Brand24 Meltwater Semantrum Semanticforce
Функціональність Моніторинг ЗМІ 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Моніторинг соціальних мереж 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Робота в офлайн-режимі 🟥 🟥 🟩 🟩 🟩 🟩 🟥
Системи оповіщення 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Глибокий аналіз тексту 🟥 🟩 🟥 🟩 🟨 🟩 🟨
Автоматизована індексація та каталогізація 🟥 🟨 🟩 🟩 🟥 🟨 🟨
Пошта mail 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Робота з базами даних 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Автоматизована обробка даних 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Мобільний доступ 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Управління системою 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Підтримка декількох мов і локалізація 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Надання API 🟩 🟥 🟥 🟩 🟩 🟩 🟩
Зручність Зручний UI 🟨 🟥 🟩 🟩 🟨 🟩 🟩
Можливість простого пошуку та навігації 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Документація 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Система підказок і довідки 🟥 🟩 🟩 🟩 🟨 🟨 🟨
Можливість збереження налаштувань 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Демо 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Надійність Робота без збоїв 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Моніторинг та логування 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Резервне копіювання та відновлення 🟨 🟩 🟩 🟩 🟨 🟨 🟨
Підтримка екстрених ситуацій 🟨 🟨 🟩 🟩 🟩 🟨 🟨
Точність обчислень 🟩 🟩 🟩 🟨 🟩 🟩 🟥
Захист даних 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Продуктивність Швидкість роботи 🟨 🟥 🟩 🟨 🟥 🟩 🟩
Споживання ресурсів 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Споживання мережевого трафіку 🟨 🟩 🟩 🟩 🟨 🟨 🟨
Оптимізована робота з базами даних 🟨 🟨 🟨 🟩 🟩 🟩 🟩
Оптимізація алгоритмів аналізу 🟥 🟩 🟩 🟩 🟨 🟨 🟨
Підтримка паралельних обчислень 🟥 🟩 🟩 🟨 🟨 🟨 🟩
Підтримка Розширення можливостей 🟩 🟩 🟩 🟩 🟩 🟩 🟩
Масштабування 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Користувацька спільнота 🟥 🟨 🟨 🟩 🟩 🟩 🟩
Технічна підтримка 🟨 🟩 🟩 🟩 🟩 🟩 🟩
Швидка реакція на проблеми 🟨 🟨 🟨 🟩 🟩 🟩 🟩
Сумісність 🟥 🟥 🟨 🟥 🟩 🟩 🟨

# Висновки

Після завершення аналізу предметної області стало відомо, що існують багато рішень. Проте, немає жодного рішення, яке б включало в себе всі можливі аспекти. Отже, створення нового ріщення є доцільним.

# Посилання

  1. Моніторинг
  2. Штучний інтелект
  3. Програмне забезпечення
  4. Репутаційний менеджмент
  5. Багатоканальна платформа
  6. Семантичний аналіз
  7. API
  8. Сумісність
  9. UI
  10. Determ
  11. Youscan
  12. Brand24
  13. Meltwater
  14. Semantrum
  15. Semanticforce
  16. Natural Language Principles
  17. Text Mining
  18. Етапи контент-аналізу
  19. Statistical Analysis
  20. Tokenization
Останнє оновлення: 10/1/2023, 12:12:29 AM