텍스트 분석 초보자 가이드

텍스트 분석 초보자 가이드

2022년 1월 3일

고객 경험

으로 Medallia

고객이 브랜드와의상호작용이나고객 경험 CX)에 대해 극도로 만족하거나 실망했을 때, 그들은 데이터 기반의 인사이트 담긴고객 피드백을제공했을 가능성이 높습니다. 피드백 데이터는직접적이든간접적이든,정형화되었든비정형화되었든간에 어디에나 존재합니다.

설문조사부터 소셜 미디어 리뷰까지, 조직은 의사 결정과 비즈니스의 전반적인 성공을 이끄는 고객 신호를 활용할 수 있는 기회를 갖게 됩니다.

하지만 브랜드는 이러한 방대한 데이터로 인해 어려움을 겪는 경우가 많습니다. 인간 분석가가 다양한 채널에 걸쳐 수천 개의 피드백을 정기적으로 수동으로 검토하는 것은 압도적이며 사실상 불가능합니다.

하지만 이 문제에 대한 해결책이 있습니다. 바로텍스트 분석입니다. 텍스트 분석은감정이 담긴 댓글을 수집하여 비즈니스와 관련된 범주로 분류함으로써 인사이트 도출해 냅니다.

빅데이터의 텍스트 분석이란 무엇인가요?

옴니채널 생태계에는 브랜드와 고객 간의 수많은 접점이 존재합니다. 흔히 빅 데이터라고 불리는 방대한 양의 데이터가 매일 생성됩니다.

텍스트 분석은 비정형 텍스트를 정형화된 데이터로 변환하여 인사이트 도출하는 방법 중 하나입니다.

비정형 텍스트 데이터를 분석하고 이해하려면 몇 가지 절차가 필요합니다. 따라서 텍스트 분석에는 데이터 정리, 전처리, 특징 추출, 머신 러닝(ML)과 같은 프로세스가 포함됩니다.

텍스트 분석과 텍스트 마이닝의 차이점

텍스트 분석과텍스트 마이닝은흔히 혼동되곤 하지만, 이 두 개념이 서로 다르다는 점은 의심의 여지가 없습니다. 텍스트 분석은 통계 및 기계 학습 기법을 활용해 텍스트 데이터를 평가하고 인사이트 도출하는 반면, 텍스트 마이닝은 비정형 데이터에서 정보를 추출합니다.

텍스트 분석의 이점

텍스트 분석의 인기가 높아지고 있습니다. 다양한 산업 분야의 주요 기업들은 텍스트 분석을핵심 기능 중 하나로 제공하는고객 경험 관리 CEM)소프트웨어 플랫폼에 투자하고 있습니다.

다음은 피드백 프로그램을 향상시키는 텍스트 분석의 이점에 대한 개요입니다:

  • 질문 인사이트 깊은 인사이트 얻으세요:길고 지루한 설문조사는 고객들이 피드백을 주저하게 만들 수 있지만, 텍스트 분석은 짧은 답변 속의 단어들을 심층적으로 분석하여 그 이면에 담긴 의미를 밝혀냅니다.
  • 근본 원인을 파악하세요: 수치화된 점수가 피드백의 '이유'를 항상 알려주지는 않습니다. 하지만 텍스트 분석은 세부 정보를 제공함으로써 고객이 자주 직면하는 문제의 근본 원인을 파악할 수 있습니다.
  • 시의적절한 인사이트 확보:직원들은 이미 처리해야 할 시간이 많이 소요되는 업무가 산적해 있는 상황에서, 고객 피드백의 모든 문장을 일일이 분석하도록 요구하는 것은 비현실적입니다. 텍스트 분석 기술이 이 모든 작업을 대신 처리해 주며, 훨씬 더 높은 정확도로 수행합니다.
  • 새로운 트렌드를 파악하세요: 사람은 정보에 입각한 현명한 결정을 내리기 위해 데이터가 필요합니다. 텍스트 분석은 고객이 사용하는 단어와 구문을 활용함으로써 비즈니스가 무시할 수 없고 활용해야 하는 트렌드를 집중 조명합니다.
  • 고객의 니즈를 파악하세요: 고객은 자신이 원하는 것, 필요로 하는 것, 기대하는 것을 말합니다. 텍스트 분석은 키워드, 주제, 정서를 가장 먼저 파악할 수 있도록 도와줍니다.
  • 데이터 기반의 의사결정을 내리세요:고객에게 더 나은 서비스를 제공하기 위해, 텍스트 분석을 통해 인사이트 고객 경험 지침으로 삼으세요.
  • 고객 및 직원 경험 개선:CX와 마찬가지로 텍스트 분석은직원 경험 EX)도 향상시킵니다. 텍스트 분석은직원의 노력 점수,참여도,만족도,감정 상태와 같은 직원 데이터를 심층적으로 분석합니다.

조직에서 수집하는 피드백의 양이 증가함에 따라 텍스트 분석은 이를 따라잡을 수 있는 유일한 옵션입니다.

기본 텍스트 분석

텍스트 분석은 기본부터 고급까지 다양합니다. 사용하는 유형에 따라 얻을 수 있는 인사이트의 유형이 달라집니다.

기본 수준에서 텍스트 분석에는 다음이 포함됩니다.

단어 빈도 분석

단어 빈도 분석은 텍스트의 단어 수를 계산합니다. 이 접근 방식을 사용하면 텍스트에서 가장 인기 있는 용어와 주제를 찾는 데 도움이 됩니다.

구문 감지

특정 단어를 사용하는 것 외에도 오디언스가 정서 및 기타 핵심 요소에 중요한 영향을 미치는 문구를 사용할 수 있습니다. 문구 감지 기능을 사용하면 텍스트에서 자주 사용되는 문구를 찾아서 주제를 파악할 수 있습니다.

감정 분석

피상적인 수준에서 맥락이 없는 단어는 오해의 소지가 있을 수 있습니다. 올바른 관점을 얻는 한 가지 방법은 관련 감정을 파악하는 것입니다. 이때 감정 분석이 중요한 역할을 합니다. 감정 분석은 텍스트의 감정을 파악하여 개발 영역을 식별하는 데 도움이 됩니다.

토픽 모델링

단어, 구문, 감정이 반복되는 경우, 근본적인 주제가 기여하고 있습니다. 토픽 모델링은 텍스트의 주요 아이디어를 식별하는 데 도움이 되는 텍스트 테마를 식별합니다.

고급 텍스트 분석

회사의 규모와 성격에 따라 기본 텍스트 분석으로는 충분한 인사이트를 얻지 못할 수도 있습니다. 고급 텍스트 분석이 필요할 수도 있습니다.

명명된 엔티티 인식

명명된 개체 인식(NER)은 텍스트에서 사람, 조직, 장소를 식별하고 분류합니다. 또한 이 방법은 텍스트 엔티티 연결을 식별하는 데 도움이 됩니다.

텍스트 분류

텍스트 분류에는 텍스트를 다양한 카테고리로 분류하는 것이 포함됩니다. 이 방법은 방대한 텍스트 데이터를 정리하는 데 도움이 될 뿐만 아니라 패턴을 찾아냅니다.

클러스터링

비정형 데이터에서 패턴을 식별하는 또 다른 방법은 클러스터링을 사용하는 것입니다. 이 방법은 콘텐츠에 따라 텍스트를 그룹화하여 패턴을 더 쉽게 식별할 수 있도록 합니다.

관계 추출

자주 있는 일은 아니지만, 일부 소비자들은 친밀한 관계를 맺고 있을 수 있습니다. 관계 추출을 통해 사람, 조직, 장소가 텍스트적으로 어떻게 연관되어 있는지 확인할 수 있습니다. 이러한 인사이트는 대화에 컨텍스트를 추가하여 그에 따라 적절한 조치를 취할 수 있게 해줍니다.

네트워크 분석

관계를 넘어 공통의 연결고리를 가진 특정 그룹이 있다는 것을 알게 될 것입니다. 네트워크 분석은 텍스트 링크를 조사하여 사물의 상호 작용 방식을 설명하는 데 도움이 되는 패턴과 추세를 찾습니다.

텍스트 분석 기술 및 애플리케이션

텍스트 분석은 비정형 텍스트 데이터를 분석하기 위한 다양한 기법을 포함합니다. 주제 분석과 감정 분석 외에도, 기업이 텍스트 인사이트 도출하기 위해 활용할 수 있는 여러 기법이 있습니다.

텍스트 분석의 기술과 적용 사례를 살펴보겠습니다.

주제 분석

토픽 분석은 고객 피드백 내의 문구를 비즈니스 관련 토픽으로 분류합니다. 예를 들어 "영업 직원은 친절했다"는 "직원 친절도"로 분류됩니다. 일반적으로 이를 수행하는 방법에는 수동 설정, 규칙 기반 접근 방식, 머신 러닝 기법 등 두 가지가 있습니다.

분석가와 언어학자는 규칙 기반 방식에 대한 규칙을 수동으로 구축합니다. 예를 들어 '친절한' 및 '직원'과 같은 두 단어가 포함된 절을 '직원 친절도' 주제 아래에 배치할 수 있습니다.

이러한 규칙은 어순과 중요한 단어 문법 관계도 평가할 수 있습니다. 설정 절차는 시간이 많이 걸리지만 각 규칙이 개별적으로 구성되므로 분류된 주석은 정확합니다.

지도 분류 및 클러스터링을 사용하는 머신 러닝도 토픽 분석의 핵심 구성 요소입니다. 따라서 분석가는 지도 분류를 위해 댓글 샘플에 주제를 수동으로 할당합니다. 그런 다음 주석이 달린 데이터 세트가 분류기를 훈련시켜 새로운 댓글에 자동으로 태그를 지정합니다.

데이터에 주석을 다는 것은 규칙을 개발하는 것보다 쉽지만, 분류기는 10개 미만의 주제로만 작동합니다.

감정 분석

감성 분석은 문구에 긍정 또는 부정 감성이 있는 것으로 태그를 지정합니다. "영업 사원은 정말 친절했어요"는 긍정적으로 태그가 지정됩니다.

사전 기반 감성 분석은 설정이 간단합니다. 사전에서 모든 단어를 가져와 각 단어에 긍정 또는 부정 감성을 할당하는 것과 비슷합니다. 하지만 단어의 감성은 문맥에 따라 달라집니다.

일반적으로 욕설은 부정적인 감정을 전달하는 것으로 생각하기 쉽지만, 게임 커뮤니티에서는 그 의미가 더 모호할 수 있습니다. 긍정적인 단어는 아이러니하게도 종종 사용되며, 부정적인 단어도 문맥에 따라서는 긍정적인 의미를 내포하기도 합니다.

문맥을 고려하기 위해 지도 머신 러닝 기법은 훨씬 더 나은 방식으로 감정을 할당할 수 있습니다. 주제 분석에 대해 설명한 지도 분류와 마찬가지로, 감성 분석을 위한 지도 머신 러닝에서는 관심 있는 문맥에 대한 샘플 절 세트를 가져와서 각 절에 긍정 또는 부정 감성을 수동으로 할당하는 작업이 포함됩니다. 이 주석이 달린 데이터 세트에서 알고리즘은 댓글 샘플에서 학습한 내용을 바탕으로 감성을 가진 새로운 절을 할당할 수 있습니다.

명명된 엔티티 인식

명명된 개체 인식(NER)은 비정형 텍스트 데이터에서 사람, 조직, 위치를 추출합니다. NER은 소비자 피드백 및 소셜 미디어 데이터에서 영향력 있는 인물과 조직을 감지할 수 있습니다. 또한 NER은 텍스트 주제와 토픽도 인식할 수 있습니다.

품사 태그 지정

텍스트 분석은 품사(POS) 태깅을 사용하여 구문의 각 단어를 분류합니다. 이 방법은 문장 문법을 분석하고 문헌을 이해하는 데 도움이 됩니다.

종속성 구문 분석

텍스트 분석의 종속성 구문 분석은 기업이 문장 및 문법적 연결을 발견하는 데 도움이 됩니다. 또한 이 방법은 문장 구조를 분석하고 콘텐츠를 이해하는 데 도움이 됩니다.

텍스트 분류

텍스트 분류는 콘텐츠를 사용하여 텍스트를 미리 정해진 카테고리로 분류합니다. 이 방법은 소비자 피드백과 소셜 미디어에서 인기 있는 주제를 파악하는 데 도움이 됩니다. 또한 텍스트 분류를 통해 핵심 아이디어를 파악할 수도 있습니다.

텍스트 분석을 수행하는 방법

텍스트 분석은 데이터 수집, 데이터 처리, 텍스트 분석 및 시각화로 구성됩니다.

각 단계의 작동 방식에 대한 자세한 내용은 다음과 같습니다.

#1. 데이터 수집

텍스트 분석은 소셜 미디어, 소비자 피드백 양식, 온라인 리뷰의 데이터에서 시작됩니다. 데이터가 비즈니스 과제와 관련이 있는지 확인하세요.

#2. 데이터 처리

데이터 수집 후에는 분석을 위해 데이터를 처리, 정리 및 준비해야 합니다. 데이터 처리에는 불필요한 자료를 삭제하고, 서식을 지정하고, 분석을 위해 비정형 데이터를 구조화하는 작업이 포함됩니다.

#3. 텍스트 분석

데이터를 처리한 후에는 인사이트를 도출하기 위해 데이터를 분석해야 합니다. 여기에는 감정 분석, 토픽 모델링, 네임드 엔티티 식별이 포함됩니다.

#4. 시각화

마지막으로, 이해관계자에게 텍스트 분석 결과를 보여줘야 합니다. 워드 클라우드, 막대 차트, 히트 맵을 통해 이를 달성할 수 있습니다.

분석을 위해 텍스트 데이터를 준비하는 방법

텍스트 분석을 위한 데이터를 준비하면 신뢰할 수 있고 이해하기 쉬운 결과를 얻을 수 있습니다.

분석을 위해 텍스트 데이터를 준비하는 방법은 다음과 같습니다.

#1. 데이터 정리

텍스트 데이터는 HTML 요소, URL, 특수 문자를 제거하여 정리됩니다. 이렇게 하면 분석을 위해 데이터가 정리되고 정리됩니다.

#2. 텍스트 사전 처리

텍스트 사전 처리는 텍스트 데이터를 분석에 적합한 형식으로 변환합니다. 여기에는 숫자, 구두점, 소문자 텍스트 제거가 포함됩니다.

#3. 텍스트 토큰화

토큰화는 텍스트를 단어와 구문으로 나눕니다. 이렇게 하면 텍스트 데이터 분석이 더 쉬워집니다.

#4. 중지 단어 제거

단어 제거 중지는 텍스트에서 'and', 'the', 'is'와 같이 자주 사용되는 단어를 제거합니다. 이러한 용어는 분석을 왜곡할 수 있습니다.

#5. 스템밍 및 레매타이제이션으로 데이터 간소화

어간화 및 형태소 분석에는 어근 단어가 포함됩니다. 이를 통해 텍스트 데이터를 단순화하고 분석할 수 있습니다. 어간화는 단어에서 접미사를 제거하는 반면, 형태소 분석은 접미사를 줄이는 작업을 포함합니다.

텍스트 분석에 대한 더 스마트한 접근 방식

텍스트 분석은 일반적으로 처음 그 기능과 이점을 살펴볼 때 낯설고 복잡한 개념처럼 느껴집니다. 하지만 이제 텍스트 분석의 기본을 이해했다면 다음 단계는 전문성을 갖춘 소프트웨어 제공업체와 파트너십을 맺는 것입니다.

Medallia실시간, 인간 중심 텍스트 분석 솔루션은영향력 있는 인사이트 조치를 이끌어냅니다. 이 솔루션은인공지능(AI)자연어 처리(NLP) 기술을 활용하여 인사이트 새롭게 부상하는 트렌드와 핵심 인사이트 신속하게 파악합니다. 또한, 10여 년 전부터 자체 텍스트 분석 기술을 개발해 온 덕분에, 현재 시중에서 구할 수 있는 솔루션 중 가장 포괄적이고, 상호 연동성이 뛰어나며, 접근성이 뛰어난 텍스트 분석 솔루션입니다.


작성자

관련 게시물