课时4 文本数据处理 课时目标 1.了解文本数据处理的一般过程和方法。2.掌握分词的方法和技巧。 1.文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 2.文本内容是非结构化的数据,需将文本从无结构的原始状态转化为结构化。 3.典型的文本处理过程主要包括:分词、特征提取、数据分析、结果呈现等。 (1)分词 中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。 分词是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。 常见的分词方法有:①基于词典;②基于统计;③基于规则。 常见的分词系统有 分词系统 简介 jieba分词 Python开源项目,基于词典 IKAnalyzer Java 开源分词工具包 NLPIR 北京理工大学大数据搜索与挖掘实验室,非商业应用免费 语言云哈工大社会计算与信息检索研究中心 在线API接口调用 BosonNLP玻森中文语义开放平台提供 在线API接口或库调用 (2)特征提取 一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式,评估函数大多是基于概率统计设计的,这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。随着深度学习、大数据分析等技术的发展,文本特征提取将更加准确、科学。 4.文本数据分析与应用 在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。 (1)标签云 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。广泛应用于报纸、杂志等传统媒体和互联网。 (2)文本情感分析 文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析主要应用于网络舆情监控、用户评论、分析与决策、信息预测等众多领域。 例1 Python中文分词模块jieba采用的分词方法属于 ( ) A.基于词典 B.基于统计 C.基于规则 D.以上都有可能 答案 A 解析 教材中有介绍中文分词模块jieba分词模块中的词典。 变式训练1 依据上下文中相邻字出现的频率,同时出现的次数越高就越可能组成一个词,这种分词方法属于 ( ) A.基于词典 B.基于统计 C.基于规则 D.以上都有可能 答案 B 解析 频率是要经过统计的。 例2 下列关于文本数据处理的说法,正确的是 ( ) A.处理的文本信息通常是结构化数据 B.特征提取是中文文本信息处理的基础 C.目前的分词算法能实现完全准确的进行分词 D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的 信息 答案 D 解析 处理的文本信息是非结构化数据;中文分词是中文文本信息处理的基础。 变式训练2 文本数据处理的主要应用有 ( ) ①搜索引擎 ②自动摘要 ③论文查重 ④列车查询 ⑤微博评论典型意见 A.①④⑤ B.①②③⑤ C.②③④ D.②③④⑤ 答案 B 解析———列车查询”中主要应用了结构化数据,①②③⑤中主要应用了非结构化的文本数据。 例3 2022年10月16日,习近平总书记在中国共产党第二十次全国代表大会上作了《高举中国特色社会主义伟大旗帜为全面建设社会主义现代化国家而团结奋斗》的报告,大会后全文发表。现将该报告内容存储在“new.txt”文件中,经程序处理后的数据保存为“newfc.txt”文件。分别如图a、图b所示。 图a 图b (1)处理文件“new.txt”中的数据生成“newfc.txt”文件的过程,一般称为 。 (2)编写如下Python程序,读取“newfc.txt”文件的 ... ...
~~ 您好,已阅读到文档的结尾了 ~~