2024年9月20日

语义网络分析方法是啥 语义网络剖析有什么作用

语义网络剖析就是指挑选统计出高频词汇之后,以高频词汇两组间的共现关联为载体,将词与词相互之间的关系进行数字化解决,再用图形化的方法展现词与词间的组合关系。

1、根据语义网络讲解的聚类算法作用,对传播学探索的主题进行筛选整理。例如对历年参加国际传播学研究会(ICA)大会的文章的主题进行整理和展现,不难发现传播学科学研究聚焦点历史性演化;或是,较为欧美国家和东方国家的传播学科学研究主题的地域性差别与地区性特点。

2、用以大数据挖掘的文本分析(sentiment analysis)。情绪是人们传递的关键表达形式,探测情绪预测宣传者的态度、行为倾向,因而广泛应用于根据新闻报道文本的受众意见反馈科学研究、政治信仰和意识形态领域研究等。语义网络统计分析方法根据有监管的注解能完成对社交网络文本的文本分类,其准确度贴近人工编码的结论。韩纲等通过收集超出269万个癌病有关文章创设了重要语汇归类词典,在这个基础上完成了同歩展现所组成的语义网络(semantic network),及其对癌症的良好或负面情绪的情绪互联网(sentiment network)的大数据可视化。此外,语义网络统计分析方法可以和人工编码的文本分析紧密结合,展现情绪遍布的小细节和强度。比如,学者收集了一年内所有与疫苗注射相关的推文连接文章内容,人工将这些文章分成正脸(适用疫苗注射)、消极(抵制疫苗注射)及其保持中立(态度模糊不清或均衡)三个文本集。根据展现三类情绪文本集的语义网络,研究者发现正脸态度文本的语义网络的聚合性强过消极态度文本:正脸态度文本的语义网络紧紧围绕关键字“爸爸妈妈”创设,专注于散播接种疫苗的感染风险与益处,医学类专业专有名词显著度高;而消极态度文本的语义网络围绕关键字“小孩”搭建,专注于医院门诊、新闻媒体、预苗产业等表明机构管理的词。

3、用以传播学基础理论指导下的文本较为。传播学探索的文本剖析主要有三个目地:一是寻觅实际意义,二是叙述结构形态,三是发觉文本的前因后果与不良影响。在全球化和数字化的大环境下,跨文化交际、跨阶级、跨性别等极具特色文本的对比比较适合完成以上研究目标,展现互联网技术和传播景象的共变。语义网络统计分析方法以提炼出文本的明显实际意义与逻辑顺序完成了不同类别文本间的横向对比。比如,黄冬通过对比政府门户网站与微博紧紧围绕“强国梦”所形成的语义网络,发觉“强国梦”未能群众主流媒体(微博)获得预想的讲解实际效果。在这一研究中,语义网络剖析协助学者直接地呈现出了有关“强国梦”的政府文本与民众文本在高频词汇、词句联络上的区别,很好地反映了社交网络并不是遵循互联网媒体议程设置理论规律,并帮助学者进一步探索社交媒体的议程设置理论体制。

一、文本客户舆情的使用价值

在我们从电子商务、社区论坛、应用商店、大众传播媒介等渠道平台得到很多和调研总体目标相符的客户网络舆情文本后,实际该如何运用?在其中很有可能包含哪些对用研高质量的内容?能通过哪种方法提炼出剖析?能实现什么预期目标?据以往工作经验,文本舆情分析报告的价值和实际应用如图所示:

这些数据既叙述反映了“是啥”问题,还可以说明特性、关联、爱好,就说明“如何”的,还能在一定程度上剖析现象深层原因,剖析“为何”,能够发掘出包括在其中关注的焦点、发展趋势、关系,帮我们了解产品的市场反应和客户需求,为方向聚焦、对策正确引导、价值导向提供参考。

二、文本网络舆情数据收集整理方式

剖析文本舆情数据,关键用到的是文本研究的方法。由于文本信息是非结构化数据的,取得文本网络舆情以后的一个关键关键是要将数据转换为会被计算机理解和处理数据存储结构,之后才很有可能进一步对消费者舆情数据开展详细全面的解决剖析,从不相干多余的数据中提炼有价值的一部分。

环节中经常使用的工具有:

数据信息爬虫工具:能够根据我们的必须完全免费从网站上爬取数据信息(在配有反爬虫机制的途径,获得舆情数据难度也会增加)。 文本数据分析工具:根据中文分词解决、词频分析、语义网络分析及,发掘隐匿在其中的关键信息,掌握深层次的关联材料结构。依据小编的具体使用经验,文本数据分析工具ROST的功能齐全,在文本信息量不是很大的情况下基本能满足汉语舆情分析报告的需求。如果你对文本分析数据有更高的要求,可以使用Python、R等计算机语言予以处理。 文本数据信息数据分析工具:工具的使用将文本分析数据以可视化方式(如词云图、语义网络图)展现出来,有利于从这当中直观地发觉价值点。 1、数据信息网络爬虫

确立舆情分析报告的目的和要求后,筛选数据来源渠道获取客户舆情数据。

在网络上比如百度发帖、微博、淘宝旗舰店的买家评价等文本网络舆情都是可以通过爬虫工具立即抓取的。以八爪鱼为例子,可以很方便的从网站把大家需要的内容按二维结构表中方式(例如excel)一键下载储存。如图所示,八爪鱼便从电子商务网站宝贝详情上爬取到信息内容。同样,抓取客户舆情数据也可采用同样的方式完成。

2、文本清洗预备处理

客户在网络上的撰写表述十分随便多种多样,汉字中参杂数据、英文字母、标记;句子段落的表述中断不全面,也会出现很多重复语句短句子,比如有人会评价“棒棒棒棒”“太太太太差“。文本清理主要就是将这些噪声数据预处理掉。ROST的“文本解决”作用可用于开展文本清理。

大家还应根据必须进行数据再次编号。比如在百度传课的一次舆情分析报告中,客户很多提到了中国高校MOOC,但表达方式有多种多样(如中M、中国大学慕课、mooc)。为了方便剖析,统一编码是非常有必要的。

3、中文分词

中文分词就是将一段汉语文本切成一个个独立的词汇。分词算法的关键就是撰写汉语时词语中间并没有明显的间距或区划,并不像英语那般也可以根据当然撰写的间隔完成最基本的中文分词(如“we are family”能直接分割出“we” “are” “family”)。

汉字书写表述时没有明显分节符,加上中文博(那)大(么)精(复)深(杂),大大提高了分词算法难度。这儿举一个传统的事例:语句“南京洞庭湖大桥”中由于有一些词句存有分歧,计算机中文分词结论有可能是“南京/湘江/立交桥”,也有可能是“南京市/省长/江大桥”。大家显而易见了解第一种情况是合理的,那如果优化算法还不够完善电子计算机就有可能出差错,终究两种结果根据中文构词法和语法结构全是说得通的。由此可见实际在具体进行分词时,结果可能存在一些不合理状况。根据算法和汉语词典完工分词算法后,还要通过不断练习来提升中文分词效果,若不能充分考虑各种复杂的汉语语法状况,算法中存在的缺陷很容易影响中文分词准确性。

4、高频词和关键字

高频词便是某一词在文本里出现的频次。简单的说,要是一个词在文本里出现的频次越大,这词在文本中便越重要,就越有可能是这个文本核心关键词。这个思路自身没什么问题,但其中有一些突发情况需要留意。

最关键的一点便是在有关自然语言理解的词库里,一个单词出现频率与他在工作频率表里的排行反比。依据传统“齐夫基本定律”的概念,假定我对于文本进行分词处理并汇总了高频词,发觉高频词排行TOP3的三个词分别是“的”、“是”、“它”,那样“的”出现的频率应当大约为“是”的2倍,大约为“它”的3倍。结论就很有可能是高频词排名前列高频词汇占有整个语料库的大半,其他大部分词的出现的频率其实很少。

因此无法完全直接地根据高频词来判定网络舆情文本中那些是关键核心关键词,高频词最高实际上是中文里的常用汉字,并非对目前文本最具代表性的关键字。如下图所示的高频词曲线图所显示,仅有出现在了曲线图中间区域的词汇才是一个在目前文本中出现的频率高,而且在别的文本中很少见到的,这些词语便是现阶段文本核心关键词,对目前文本具备重要性和象征性。核心技术的高频词汇和靠后的扇尾低频词都可以排除在外考虑范围以外。

基于这个基本原理,在词频统计前需要滤掉文本里的停用词(stop word)。出现在了高频词曲线图头部这些高频词汇,就大多是停用词。停用词还包含具体没什么意义但使用频率高功能性语汇,例如“啊”、“的”、“在”、“并且”这种语气助词、代词、介词等。过虑停用词还是为了减少信息冗余,提升剖析的效率和精确性。过虑停用词所需要的停用词表,词典都可以在线免费下载。实践应用的过程当中我们也可以在停用词表中加入或删剪特殊的词,使其更加全面或具有针对性,符合当前科学研究的实际需要。

包含中文分词、过虑停用词、统计分析高频词汇等在内的这些操作,都能通过ROST的分词工具进行。大家可以在ROST中导进通过健全或自定义的词典词汇表,替换成ROST带有的默认设置词典。

那些被提取出来核心关键词浓缩了客户网络舆情中的精华信息内容,能反映出用户的关注点、心态和理解,商品潜在竞争能力等相关信息。比如,在网易游戏100分电脑笔客户需求调研项目中,我们根据2C市场电脑笔顾客展开了舆情分析报告。首先我们要根据ROST的分词工具获得了中文分词文本文档,关键字以及高频词目录。随后我们将要中文分词之后的文本文档导进线上词云图在线编辑器Tagxedo,就可以直接形成词云图。

依据中文分词过程和结果词云图,大家基本可以做出如下判断:

客户的总体使用感受:便捷 商品的核心功能点:同歩,鉴别,高效率 产品的主要适用场景:手记,美术绘画 客户的消费体验:价钱,定义艺术创意,外型 可推断潜在客户身份:成功男士?教师?学生们?视觉传达设计从业人员?

但如果想要进一步了解主要内容相互之间的关系,就还要还要继续发掘剖析这些关键词间的组合关系。

5、语义网络剖析

语义网络剖析就是指挑选统计出高频词汇之后,以高频词汇两组间的共现关联为载体,将词与词相互之间的关系标值处理后的,再用图形化的方法揭露词与词间的组合关系。根据这样一个语义网络框架图,可以直观对高频词汇的层级关系、亲疏有别水平展开分析。

其基本原理是统计出文本中语汇、语句两组中间一同出现的次数,再经过聚类分析法,整理出这两个词之间关系的密切水平。一个词对出现的次数越多,则表示这些词相互之间的关系越紧密。每个词都可能会和多个词组成词对,可能会有些词两组中间不容易存在任何向量共线关联。关键字共现矩阵便是统计出共现英语单词对出现频率,将结果搭建而成二维共现词引流矩阵表。

再经过聚类分析法解决,将关键字共现矩阵转化成语义关系互联网,揭示出各节点间的层级关系、距离关联。要特别重视的是,语义网络剖析只是根据节点分布特征来阐明她们之间关系的密切水平,根本无法表明连接点之间有因果关系关系。根据共现矩阵核心关键词语义网络剖析,同样可以根据ROST里的文本挖掘工具来进行,形成语义网络框架图供我们展开分析。

比如,我们曾经对于百度传课的消费者付款有关问题舆情分析报告。全部舆情数据要以多个付款有关的词为关键词,开展爬取的。根据ROST的解读衍生出了如图所示的语义网络框架图。

在这样一个语义网络图上,次级线圈连接点大多以核心节点为核心向周围辐射源遍布,但是其中也存在着局部簇群关联,揭示出关键问题中间潜在关系:

优惠劵:优惠券使用难题和重新支付渠道密切相关,可挖掘剖析造成了再次付款环境下的优惠券使用难题具体原因。 手机端:手机端付款难题突出的表现在IOS端 支付方式:微信和支付宝的支付状况有所差异。微信和订单信息的创建检索密切相关,支付宝和购买过程密切相关。 6、文本分析

对消费者网络舆情开展文本分析,通常是剖析具备情绪成份的词的情感正负极(即情感的负性、中性化、负向)和情感明显程度,随后算出每一个句子的总额,判断其情感类型。还能够综合性全篇本里全部句子,判断总舆情数据样本的总体做事态度情感趋向。

ROST同样可以实现对文字情感的解读。但目前不少参考文献、研究指出中文情感剖析准确性不高,由于中文不仅有直接表达各种各样正负极情感的词语(开心、气愤),也有用以装饰情感程度的介词(非常好,十分、太),有时在其中还会继续参杂表明否认的词汇(十分很鸡肋,不太方便)。分词解决文字时,需要对修饰词、介词、否定词都有正确的分词;分词后,要基于情感词典、否定词库、程度副词典对这种情感语汇进行正确的取值;最后进行情感值加权计算,才有可能判断出总体情感类型。

此外需注意,我们自己的舆情数据信息很有可能来自电商、应用商店、社区网站等,这种来源渠道自身便对总体数据库的情感趋向有挑选,具备一些属性情感表述直接就被该方式过滤掉了。

三、汇总

总体来看,用户舆情具有有优势特点:来源渠道丰富多彩:不局限于社交媒体、热点新闻新闻媒体、电子商务平台、应用商店等。 覆盖范围广,内容丰富:覆盖不一样人口经济学特点的群体,覆盖总体目标用户、竞争对手用户等不同年龄段。 真正客观性:从整体上看是用户最直观的表述,可在一定程度上确保数据的实际客观性。 获取成本低:基本都可以迅速、完全免费的获取,省时省力高效率。在用研工作上,用户舆情剖析能够让我们在特定选题背景下,以较小的成本了解到了产品的市场意见反馈,用户的心态认知需求痛点,高效的做到研究目标。