Génie Sprout

Analyse des sentiments 101: Comment l'équipe de science des données de Sprout a construit un modèle hybride

Comme tous ceux qui ont déjà été dans une relation vous le diront, les émotions humaines sont un concept compliqué. Cela est particulièrement vrai pour les spécialistes du marketing qui essaient de comprendre les avantages qualitatifs - la valeur qui va au-delà des fonctionnalités de base - de leur produit ou service. Il n’est pas difficile de comprendre ce que fait votre produit, mais savez-vous ce que vos consommateurs ressentent?

Vous le feriez si vous utilisiez l'analyse des sentiments d'écoute sociale pour distiller les réflexions non filtrées de votre public cible sur les réseaux sociaux en informations stratégiques exploitables. Prenant tout le données sociales disponibles sur Twitter et le catégoriser pour un sentiment positif, négatif ou neutre est une entreprise majeure, et il n'y a pas deux méthodes égales. C’est pourquoi HASHTAGS a créé un système d’analyse des sentiments hybride qui combine les deux approches principales, les listes de règles et l’apprentissage automatique.

Listes de règles

L'un des moyens les plus simples d'aborder l'analyse des sentiments consiste à utiliser des règles ou des dictionnaires créés par l'homme. Avec cette approche, le système s'appuie sur une liste de mots ou d'expressions qui correspondent directement à un sentiment spécifique. Par exemple, tout Tweet contenant le mot «high five» pourrait être étiqueté comme positif, tandis qu'un Tweet contenant «horrible» serait négatif. Des systèmes comme celui-ci sont hautement personnalisables et peuvent être étendus pour inclure des milliers de règles de mots et d'expressions.

En revanche, les systèmes de règles ont du mal avec les Tweets qui correspondent à des règles contradictoires, telles que 'Le film n'était pas aussi horrible que je l'avais prévu.' Ici, «horrible» pourrait être qualifié de négatif, tandis que «anticipé» serait positif. Les règles contradictoires qualifient le Tweet de neutre, tandis que certains lecteurs humains l'interpréteront comme légèrement positif et d'autres légèrement négatif.

Une limitation supplémentaire des systèmes basés sur des règles est le recours à l'effort humain et à la compréhension. La langue évolue rapidement (en particulier sur Twitter) et un système basé sur des règles exige que quelqu'un fournisse un flux constant de nouveaux termes et expressions. La mise à jour d'un système de sentiments n'est pas toujours une priorité absolue et un système peut rapidement devenir obsolète. Même avec une surveillance vigilante, il peut être difficile d'identifier les tendances linguistiques changeantes et de déterminer quand de nouvelles règles doivent être ajoutées.

Apprentissage automatique

Utilisation de systèmes d'analyse des sentiments plus avancés Apprentissage automatique (ML) (parfois aussi appelées Intelligence Artificielle ou Traitement du langage naturel ). L'apprentissage automatique est une famille de techniques qui utilisent des statistiques et des probabilités pour identifier des modèles complexes pouvant être utilisés pour étiqueter des éléments.

Contrairement aux systèmes basés sur des règles, les systèmes ML sont suffisamment flexibles pour détecter les similitudes qui ne sont pas immédiatement apparentes pour un humain. En regardant de très nombreux exemples, le système apprend des modèles qui sont généralement associés à des sentiments positifs, négatifs ou neutres.

Par exemple, un système d'analyse des sentiments de ML peut trouver que les Tweets contenant le mot «pluie» et se terminant par un point d'exclamation sont négatifs, tandis que les Tweets contenant «pluie» et deux points d'exclamation sont positifs. Un humain peut ne pas remarquer ce modèle ou comprendre pourquoi il se produit, mais un système ML peut l'utiliser pour faire des prédictions très précises.

Bien que les systèmes d'apprentissage automatique puissent produire d'excellents résultats, ils présentent quelques lacunes. Lorsqu'il y a beaucoup de variété dans la langue, il peut être difficile pour un système ML de passer au crible le bruit pour identifier des modèles. Lorsque des modèles forts existent, ils peuvent éclipser les modèles moins courants et amener le système ML à ignorer les signaux subtils.

numéro d'ange 955

L'approche de Sprout

Pour construire notre système d'analyse des sentiments, nous avons conçu un système hybride qui combine le meilleur des approches basées sur des règles et d'apprentissage automatique. Nous avons analysé des dizaines de milliers de Tweets pour identifier les endroits où les modèles de ML ont du mal et introduit des stratégies basées sur des règles pour aider à surmonter ces lacunes.

En complétant les modèles statistiques par une compréhension humaine, nous avons construit un système robuste qui fonctionne bien dans une grande variété de contextes.

Tout sur la précision

En apparence, l'analyse des sentiments semble assez simple: il suffit de décider si un Tweet est positif, négatif ou neutre. Cependant, le langage humain et les émotions sont compliqués et la détection des sentiments dans un Tweet reflète cette complexité.

le nombre 11

Considérez ces Tweets. Sont-ils positifs, négatifs ou neutres?

https://twitter.com/alex/status/917406154321420289

Mec vient de demander 6 coups d'espresso chez Starbucks… SIX. Freaking SIX !!

- Simone Eli (@SimoneEli_TV) 31 octobre 2017

Vous pourriez avoir confiance en vos réponses, mais il y a de fortes chances que tout le monde ne soit pas d'accord avec vous. Des recherches ont montré que les gens ne s'entendent que sur le sentiment des Tweets 60 à 80% du temps.

Vous pourriez être sceptique. Nous l'étions aussi.

Pour le tester, deux membres de notre équipe Data Science ont qualifié exactement le même ensemble de 1000 Tweets de positif, négatif ou neutre. Nous avons pensé que «nous travaillons avec des Tweets tous les jours; nous aurons probablement un accord presque parfait entre nous deux. '

Nous avons calculé les résultats, puis nous les avons vérifiés deux fois et trois fois. La recherche était juste - nous ne nous sommes mis d'accord que sur 73% des Tweets.

Défis de l'analyse des sentiments

Des recherches (ainsi que notre petite expérience) montrent que l'analyse des sentiments n'est pas simple. Pourquoi est-ce si délicat? Passons en revue quelques-uns des plus grands défis.

Le contexte

Les tweets sont un petit instantané dans le temps. Bien que certains soient autonomes, les Tweets font souvent partie d'une conversation en cours ou d'informations de référence qui n'ont de sens que si vous connaissez l'auteur. Sans ces indices, il peut être difficile d’interpréter les sentiments d’un auteur.

Je le fais aussi avec des cuillères à café.

- Renée Barrow (@RmBarrow) 14 octobre 2017

Sarcasme

La détection de sarcasme est une autre saveur du défi contextuel. Sans informations supplémentaires, les systèmes d'analyse des sentiments confondent souvent le sens littéral des mots avec leur intention. Le sarcasme est un domaine actif de la recherche universitaire, de sorte que nous pourrions voir dans un proche avenir des systèmes qui comprennent le snark.

Comparaisons

Le sentiment devient également délicat lorsque les Tweets font des comparaisons. Si je mène une étude de marché sur les légumes et que quelqu'un tweete, 'Les carottes valent mieux que la courge', ce Tweet est-il positif ou négatif? Cela dépend de votre point de vue. De même, quelqu'un pourrait tweeter: «L'entreprise A est meilleure que l'entreprise B.» Si je travaille pour l'entreprise A, ce Tweet est positif, mais si je suis avec l'entreprise B, il est négatif.

Emojis

Les emojis sont une langue qui leur est propre . Alors que les emojis aiment exprimer un sentiment assez évident, d'autres sont moins universels. Lors de la construction de notre système d'analyse des sentiments, nous avons examiné de près la façon dont les gens utilisent les émojis, constatant que même les émojis courants peuvent prêter à confusion. est presque également utilisé pour signifier 'si heureux je pleure' ou 'si triste je pleure'. Si les humains ne peuvent pas s'entendre sur la signification d'un emoji, un système d'analyse des sentiments ne le peut pas non plus.

Définition du neutre

Même un sentiment «neutre» n’est pas toujours simple. Considérez un titre d'actualité sur un événement tragique. Bien que nous soyons tous d'accord pour dire que l'événement est terrible, la plupart des manchettes se veulent des déclarations factuelles et informatives. Les systèmes d’analyse des sentiments sont conçus pour identifier l’émotion de l’auteur du contenu, et non la réponse du lecteur. S'il peut sembler étrange de voir de terribles nouvelles qualifiées de «neutres», cela reflète l'intention de l'auteur de communiquer des informations factuelles.

Les systèmes d'analyse des sentiments varient également dans la façon dont la neutralité est définie. Certains considèrent que la neutralité est une catégorie fourre-tout pour tout Tweet où le système ne peut pas choisir entre positif ou négatif. Dans ces systèmes, «neutre» est synonyme de «je ne suis pas sûr». En réalité, cependant, il existe de nombreux Tweets qui n'expriment pas d'émotion, comme l'exemple ci-dessous.

Un `` Venti '' a généralement deux coups d'espresso, mais ce client a demandé 14 https://t.co/jzOi93RRd9
numéro d'ange 001

- TAXI (@designtaxi) 30 octobre 2017

Notre système classe explicitement les Tweets non émotionnels comme neutres, plutôt que d'utiliser neutre comme étiquette par défaut pour les Tweets ambigus.

Évaluation de l'analyse des sentiments

Avec autant de défis dans l'analyse des sentiments, il est avantageux de faire ses devoirs avant d'investir dans un nouvel outil. Les vendeurs essaient d'aider à réduire les complexités en se concentrant sur des statistiques sur l'exactitude de leur produit. Cependant, la précision n’est pas toujours une comparaison de pommes à pommes. Si vous envisagez d'utiliser la précision comme mesure, voici quelques questions à poser.

La précision rapportée est-elle supérieure à 80%?
Étant donné que les humains ne sont d'accord les uns avec les autres que 60 à 80% du temps, il n'y a aucun moyen de créer un ensemble de données de test dont tout le monde conviendra qu'il contient les étiquettes de sentiment 'correctes'. Quand il s'agit de sentiment, «correct» est subjectif. En d'autres termes, il n'y a pas d'étalon-or à utiliser pour tester la précision.

La limite supérieure de la précision d'un système d'analyse des sentiments sera toujours la concordance au niveau humain: environ 80%. Si un fournisseur revendique une précision de plus de 80%, il est judicieux d'être sceptique. Les recherches actuelles suggèrent que même une précision de 80% est peu probable; Les meilleurs experts dans le domaine obtiennent généralement des précisions entre le milieu et le haut des années 60.

Combien de catégories de sentiment sont prévues?
Certains fournisseurs n'évaluent la précision que sur les Tweets qui ont été identifiés par des évaluateurs humains comme définitivement positifs ou négatifs, à l'exclusion de tous les Tweets neutres. Il est beaucoup plus facile pour la précision d’un système d’apparaître très élevée lorsque vous travaillez avec des Tweets fortement émotionnels et seulement deux résultats possibles (positifs ou négatifs).

Dans la nature, cependant, la plupart des Tweets sont neutres ou ambigus. Lorsqu'un système est évalué uniquement en fonction du positif et du négatif, il est impossible de savoir dans quelle mesure le système gère les Tweets neutres, la majorité de ce que vous verrez réellement.

Quels types de Tweets sont inclus dans leur ensemble de test?
Un système d'analyse des sentiments doit être construit et testé sur des Tweets représentatifs des conditions du monde réel. Certains systèmes d'analyse des sentiments sont créés à l'aide de Tweets spécifiques au domaine qui ont été filtrés et nettoyés pour faciliter au maximum la compréhension d'un système.

Par exemple, un fournisseur peut avoir trouvé un ensemble de données préexistant qui ne comprend que des Tweets fortement émotionnels sur l'industrie du transport aérien, à l'exclusion de tout spam ou Tweets hors sujet. Cela entraînerait une précision élevée, mais uniquement lorsqu'il est utilisé sur des Tweets très similaires. Si vous travaillez dans un domaine différent ou si vous recevez des Tweets hors sujet ou de spam, vous verrez une précision beaucoup plus faible.

Quelle était la taille du jeu de données de test?
Les systèmes d’analyse des sentiments doivent être évalués sur plusieurs milliers de Tweets pour mesurer les performances du système dans de nombreux scénarios différents. Vous n'obtiendrez pas une véritable mesure de la précision d'un système lorsqu'un système n'est testé que sur quelques centaines de Tweets.

Chez Sprout, nous avons construit notre modèle sur une collection de 50000 Tweets tirés d'un échantillon aléatoire de Twitter. Parce que nos Tweets ne sont pas spécifiques à un domaine, notre système d'analyse des sentiments fonctionne bien sur un large éventail de domaines.

De plus, nous faisons des prédictions distinctes pour les catégories positives, négatives et neutres; nous ne nous contentons pas d'appliquer la neutralité lorsque d'autres prédictions échouent. Notre précision a été testée sur 10 000 Tweets, dont aucun n'a été utilisé pour construire le système.

Voir l'analyse des sentiments de Sprout en direct avec les auditeurs

Toutes les recherches dans le monde ne peuvent remplacer l'évaluation directe d'un système. Testez notre nouveau système d'analyse des sentiments dans notre tout dernier ensemble d'outils d'écoute sociale, Les auditeurs , et voyez comment cela fonctionne pour vous. En fin de compte, le meilleur outil d'écoute sociale est celui qui répond à vos besoins et vous aide à tirer une plus grande valeur du social. Laissez-nous vous aider à démarrer dès aujourd'hui.

Partage Avec Tes Amis:

nombre 11 significations

Découvrez Votre Nombre D'Anges