课件编号10437049

2021-2022学年高中信息技术浙教版(2019)必修4.2.3 文本数据处理 课件 (24张PPT)

日期:2024-04-30 科目:信息技术 类型:高中课件 查看:68次 大小:5450815Byte 来源:二一课件通
预览图 1/9
2021-2022,学年,高中,信息技术,教版,2019
  • cover
(课件网) 第 四 4.2.3文本数据处理 文本数据处理 章 复习回顾 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 数据是对客观事物的符号表示,如数字、_____、_____。 字母 图形符号 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,具有一定意义的数字、字母、符号和模拟量等的通称,表示形式可以是_____、_____、_____、_____、_____等 文字 图形 图像 音频 视频 课前导入 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 除了我们之前学习的一些数字类型的数据,生活中还存在着其他类型的数据处理的实例,他们有什么共同点? 文本数据处理的应用 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 搜索引擎 情报分析 自动摘要、自动校对 论文查重、文本分类 垃圾邮件过滤 机器翻译 自动应答 复习回顾 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 结构化:也称行数据,由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与长度规范 非结构化:数据不规整或者不完整,包括各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频 半结构化:介于结构化和非结构化之间的数据 文本 文本数据处理的一般过程 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 文本数据源 分词 特征提取 数据分析 结果呈现 非结构化 结构化 中文分词 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 对比两篇文章,你觉得那篇文章更容易使用程序切分成单个的词语,为什么? 雪落在那些年雪落过的地方,我已经不注意它们了。比落雪更重要的事情开始降临到生活中。三十岁的我,似乎对这个冬天的来临漠不关心,却又好像一直在倾听落雪的声音,期待着又一场雪悄无声息地覆盖村庄和田野。 我静坐在屋子里,火炉上烤着几片馍馍,一小碟咸菜放在炉旁的木凳上,屋里光线暗淡。许久以后我还记起我在这样的一个雪天,围抱火炉,吃咸菜啃馍馍想着一些人和事情,想得深远而入神。柴禾在炉中啪啪地燃烧着,炉火通红,我的手和脸都烤得发烫了,脊背却依旧凉飕飕的。寒风正从我看不见的一道门缝吹进来。冬天又一次来到村里,来到我的家。我把怕冻的东西一一搬进屋子,糊好窗户,挂上去年冬天的棉门帘,寒风还是进来了。它比我更熟悉墙上的每一道细微裂缝。 空格分割 紧密相连 中文分词 jieba分词模块中的词典内容 请输入标题 https://www./ 常见的分词算法: 1.基于词典的分词方法:也称基于字符匹配的分词方法 中文分词 请输入标题 https://www./ jieba库名字由来 “我要进行关键词提取” #【全模式】:我/ 要/ 进行/ 关键/ 关键词/ 提取 #【精确模式】:我要/ 进行/ 关键词/ 提取 #【搜索引擎模式】:我要/ 进行/ 关键/ 关键词/ 提取 中文分词 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 2.基于统计的分词方法,统计分词的思想,是依据上下文中相邻的字出现的频率统计,同时出现的次数越高就越可能组成一个词。 中文分词 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 https://www./ 3.基于规则的分词方法,让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。 由于中文语言知识的笼统性、复杂性,这种分词方法目前还在试验阶段。 中文分词 感谢您使用我们的PPT模板,请在此输入您需要的文字内容 请输入标题 名称 简介 Jieba分词 Python开源项目 IKAna ... ...

~~ 您好,已阅读到文档的结尾了 ~~