【电大代做】形成性测评系统 3306847 大数据技术(省) 网上在线形考作业

通过580zuoye

【电大代做】形成性测评系统 3306847 大数据技术(省) 网上在线形考作业

下列场景中哪项是数据挖掘发现知识的过程?(  )

A、快递员及时反馈客户满意度
B、数据挖掘模型分析结果与所有人的观点一致
C、使用 ExCEl 发现商品的时段投入量不合理
D、老板“一拍脑袋”做出决策。
【答案】:C

每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:(  )

A、MApREDuCE
B、CHDFS
C、DrEmEl
D、S4
【答案】:C

下列哪项不属于NoSQL数据库类型(  )

A、键值数据库
B、列族数据库
C、文档数据库
D、关系数据库
【答案】:D

假定某属性x的最小值、最大值分别为12000和98000,将属性x=73600映射到0.0,0.1 中的值为 (  )。

A、0.716
B、0.912
C、0.325
D、0.679
【答案】:请联系在线客服,或加微信好友

以下对名称节点理解不正确的是:(  )

A、名称节点通常用来保存元数据
B、名称节点的数据保存在内存中
C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D、名称节点用来负责具体用户数据的存储
【答案】:请联系在线客服,或加微信好友

下列关于聚类挖掘技术的说法中,错误的是( )。

A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
D、与分类挖掘技术相似的是,都是要对数据进行分类处理
【答案】:请联系在线客服,或加微信好友

数据科学不仅可以推动数学、计算机科学、统计学、天体信息学等学科的发展,而且又能够大力助推( )的发展与进步。

A、基础科学
B、流体力学
C、基本理论
D、产业
【答案】:请联系在线客服,或加微信好友

以下哪一项不是关系型数据库(  )。

A、mysql
B、orAClE
C、spss
D、sql sErvEr
【答案】:请联系在线客服,或加微信好友

关系数据库无法满足WEB2.0应用需求的主要表现,下列哪一项描述不正确( )

A、无法满足高密度数据管理的需求
B、无法满足数据高并发的需求
C、无法满足高可扩展性的需求
D、无法满足高可用性的需求
【答案】:请联系在线客服,或加微信好友

每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:(  )

A、GrAphX
B、S4
C、HivE
D、ImpAlA
【答案】:请联系在线客服,或加微信好友

各类办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据都属于结构化数据。


×
【答案】:请联系在线客服,或加微信好友

人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。


×
【答案】:请联系在线客服,或加微信好友

非结构化数据是指在获得数据之前就可知其结构的数据。


×
【答案】:请联系在线客服,或加微信好友

时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的唯一标识。


×
【答案】:请联系在线客服,或加微信好友

简单随机抽样,是从总体N个象中任意抽取n个象作为样本,最终以这些样本作为调查象.在抽取样本时,总体中每个象被抽中为调查样本的概率可能会有差异。


×
【答案】:请联系在线客服,或加微信好友

MApREDuCE分布编程模型是一种三层计算,核心问题就是利用并行化解决大数据量或大计算量的问题。


×
【答案】:请联系在线客服,或加微信好友

数据可视化可以便于人们数据的理解。


×
【答案】:请联系在线客服,或加微信好友

所有的MApREDuCE程序都需要经过MAp和REDuCE两个过程。


×
【答案】:请联系在线客服,或加微信好友

采用NoSQL+NEwSQL混合模式构建数据中心,可以发挥NoSQL数据库的事务处理能力和NEwSQL在实时性、复杂分析、即席查询等方面的优势,以及面海量数据时较强的扩展能力。


×
【答案】:请联系在线客服,或加微信好友

大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。


×
【答案】:请联系在线客服,或加微信好友

去重是指在不同的时间维度内,重复一个行为产生的数据只计入一次。按( )维度去重主要分为按小时去重、按日去重、按(  )去重、按月去重或按( )去重。

A、自选时间段
B、周
C、时间
D、空间
【答案】:请联系在线客服,或加微信好友

样本约简主要包括系统抽样、(  )和(  )等。

A、随机抽样
B、重点抽样
C、确定抽样
D、分层抽样
【答案】:请联系在线客服,或加微信好友

均值就是( ),将一组数据中出现次数最多的数值叫( ),( )是指从小到大排列或从大到小排列的一组数据中,处在中间位置上的一个数据,一组n个观测值按数值大小排列,处于p%位置的值称第p()。

A、百分位数
B、众数
C、平均数
D、中位数
【答案】:请联系在线客服,或加微信好友

大数据的低耗能存储及高效率计算的要求,需要以下多种技术协同合作(  )

A、分布式云存储技术
B、高性能并行计算技术
C、多源数据清洗及数据整合技术
D、分布式文件系统及分布式并行数据库
【答案】:请联系在线客服,或加微信好友

下列哪些属于HADoophE的核心组件( )。

A、HDFS
B、MApREDuCE
C、Pig
D、HivE
【答案】:请联系在线客服,或加微信好友

OlDSQL适用于(   ),NEwSQL适用于(   ),NoSQL适用于(   )。

A、事务处理应用
B、日志数据存储
C、数据分析应用
D、互联网应用
【答案】:请联系在线客服,或加微信好友

数据约简主要有特征约简、样本约简、(   )和数值约简等。

A、维数约简
B、归一化
C、数据变换
D、一致性
【答案】:请联系在线客服,或加微信好友

下列哪项不属于大数据离线处理的特点(  )

A、数据具有实时性,不易长时间保存
B、在大量数据上进行复杂的批量运算
C、数据在计算之前已经完全到位,不会发生变化
D、能够方便地查询批量计算的结果。
【答案】:请联系在线客服,或加微信好友

以下关于云计算、大数据和物联网之间的关系,论述错误的是:(  )

A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析
【答案】:请联系在线客服,或加微信好友

数据挖掘是从数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中挖掘出隐含在其中的、人们事先不知的、对决策有用的(   )的过程。

A、语义网
B、产生式
C、知识与信息
D、规则
【答案】:请联系在线客服,或加微信好友

网页数据是(  )。

A、网站外部数据
B、日志数据
C、网站内部数据
D、高速缓存数据
【答案】:请联系在线客服,或加微信好友

HDFS的命名空间不包含:(  )

A、目录
B、文件
C、块
D、字节
【答案】:请联系在线客服,或加微信好友

以下对HADoop的说法错误的是:(  )

A、HADoop的核心是HDFS和MApREDuCE
B、HADoop是基于JAvA语言开发的,只支持JAvA语言编程
C、HADoop2.0增加了NAmENoDE HA和WirE-CompATiBiliTy两个重大特性
D、HADoop MApREDuCE是针对谷歌MApREDuCE的开源实现,通常用于大规模数据集的并行计算
【答案】:请联系在线客服,或加微信好友

下列关于计算机存储容量单位的说法中,错误的是(  )。

A、1KB<1MB<1GB
B、基本单位是字节(ByTE)
C、一个汉字需要一个字节的存储空间
D、一个字节能够容纳一个英文字符
【答案】:请联系在线客服,或加微信好友

数据预处理过程中,关于最大最小标准化说法正确的是(  )

A、变换后变量的取值范围为【-1,1】
B、变换后变量的取值范围为(-1,1)
C、消除了量纲的影响
D、改变了数据的偏度
【答案】:请联系在线客服,或加微信好友

除了简单随机抽样外,其他抽样方法具有等概率思想的是(  )

A、两阶段集群抽样
B、等距抽样
C、集群抽样
D、以上都对
【答案】:请联系在线客服,或加微信好友

数据集成是指将不同来源、不同格式、不同特点与不同性质的数据在逻辑上或物理上有机地集中,存放在不一致的数据存储(如数据仓库)中。


×
【答案】:请联系在线客服,或加微信好友

数据规范化可将原来的度量值转换为无量纲的值,通过将属性数据按比例缩放,将一个函数给定属性的整个值域映射到一个新的值域中,即每个旧的值都被一个新的值替代。


×
【答案】:请联系在线客服,或加微信好友

横向扩展将许多低端的机器组织在一起,形成一个功能专一的分布式系统。


×
【答案】:请联系在线客服,或加微信好友

大数据的应用之一是,促进健康管理的个性化和多元化。


×
【答案】:请联系在线客服,或加微信好友

网络数据获取是指通过网络爬虫等方式从网站上获取数据信息的过程,这样可将非结构化数据、半结构化数据从网页中提取出来,并以非结构化的方式将其存储为统一的本地数据文件。


×
【答案】:请联系在线客服,或加微信好友

计算机科学是算法与算法变换的科学,数据科学是关于数据的科学,数据科学是为研究探索CyBEr空间中数据界的理论、方法和技术。


×
【答案】:请联系在线客服,或加微信好友

于大数据而言,最基本、最重要的要求就是减少误、保证质量。因此,大数据收集的信息量要尽量精确。


×
【答案】:请联系在线客服,或加微信好友

决策树是一种基于树形结构的预测模型,每一个树形分叉代表一个分类条件,叶子节点代表最终的分类结果,其优点在于易于实现,决策时间短,并且适合处理非数值型数据。


×
【答案】:请联系在线客服,或加微信好友

全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图 的数据全部从数据库中抽取出来,再进行后续的转换和加载操作。


×
【答案】:请联系在线客服,或加微信好友

一幅图画最伟大的价值莫过于它能够使我们实际看到的内容比期望看到的内容丰富得多。


×
【答案】:请联系在线客服,或加微信好友

大数据分析就是根据既定目标需求对数据处理结果进行分析,下列哪些是当前常用的数据分析技术( )。

A、统计分析
B、数据挖掘
C、机器学习
D、和可视化分析
【答案】:请联系在线客服,或加微信好友

下列哪些测量指标可以用作离散变量(  )。

A、方差
B、标准差
C、极差
D、中位数
【答案】:请联系在线客服,或加微信好友

下列关于数据生命周期管理的核心认识中,正确的是(  )。

A、数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段
B、在不同的数据存在阶段,数据的价值是不同的
C、根据数据价值的不同应该对数据采取不同的管理策略
D、数据生命周期管理旨在产生效益的同时,降低生产成本
【答案】:请联系在线客服,或加微信好友

在大数据抽取中,可以分为初始化转移阶段和增量转移阶段。初始化转移阶段采用( )的方式,增量转移阶段采用( )方式进行有选择的抽取。

A、同构异质数据抽取
B、增量数据抽取
C、同构同质数据抽取
D、全量数据抽取
【答案】:请联系在线客服,或加微信好友

网络爬虫流程主要包括(  )、(  )和(  )三部分。

A、存储数据
B、寻找网址
C、解析网页
D、获取网页
【答案】:请联系在线客服,或加微信好友

大数据的来源包括()。

A、互联网数据
B、实时数据
C、探测数据
D、传感器数据
【答案】:请联系在线客服,或加微信好友

奈奎斯特采样定理指出采样频率应该大于信号中最高频率的(  )倍时,采样之后的数字信号才能够完整地保留原始信号中的信息。

A、2
B、4
C、6
D、3
【答案】:请联系在线客服,或加微信好友

下列哪项不属于常用的大数据抽取方法(  )

A、全量数据抽取
B、增量数据抽取
C、批量数据抽取
D、文件型数据抽取
【答案】:请联系在线客服,或加微信好友

大数据环境下的隐私担忧,主要表现为( )

A、个人信息的被识别与暴露
B、用户画像的生成
C、恶意广告的推送
D、病毒入侵
【答案】:请联系在线客服,或加微信好友

NoSQL数据库中最常用的存储方式是(  )。

A、键值存储方式
B、按地址存储方式
C、文档存储方式
D、列存储方式
【答案】:请联系在线客服,或加微信好友

大数据的5个“V”特性是数据量、多样性、(   )、速度、真实性。

A、稀疏性
B、关联性
C、实用性
D、价值
【答案】:请联系在线客服,或加微信好友

以下组件中不属于HADoop生态系统的组件:(  )

A、MApREDuCE
B、HDFS
C、OrAClE
D、HBAsE
【答案】:请联系在线客服,或加微信好友

下列演示方式中,不属于传统统计图方式的是(  )

A、柱状图
B、饼状图
C、曲线图
D、网络图
【答案】:请联系在线客服,或加微信好友

回归分析主要用于哪种情境(  )

A、商品的库存数量预测分析
B、调查问卷的效度检验报告
C、不同班级在英语得分上是否存在差异
D、根据用户特征进行市场细分。
【答案】:请联系在线客服,或加微信好友

CyBEr空间是指以计算机技术、现代通信网络技术、(   )等信息技术的综合运用为基础,以知识和信息为内容的新型空间。

A、电子技术
B、虚拟现实技术
C、软件技术
D、人工智能
【答案】:请联系在线客服,或加微信好友

数据清洗的方法不包括( )。

A、缺失值处理
B、噪声数据清除
C、一致性检查
D、重复数据记录处理
【答案】:请联系在线客服,或加微信好友

一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库.因此分布式数据库具有物理上的独立性.逻辑上的一体性.性能上的可扩展性等特点。


×
【答案】:请联系在线客服,或加微信好友

分类就是自动将数据象分成多个类或簇,划分的原则是在同一个簇中的数据象具有较高的相似度,而不同簇中的数据象相似度差别较大。


×
【答案】:请联系在线客服,或加微信好友

大数据技术和云计算技术是两门完全不相关的技术。


×
【答案】:请联系在线客服,或加微信好友

HADoop和sTorm都属于大数据处理工具,两者具备数据实时分析功能。


×
【答案】:请联系在线客服,或加微信好友

当两条不同的线出现了交叉点时,相交的问题就产生了。我们需要注重非交叉点信息的可视化展现。


×
【答案】:请联系在线客服,或加微信好友

余弦值越接近0,就表明夹角越接近0°,也就是两个向量越相似,当夹角等于0°时,即两个向量相等,称为余弦相似性。


×
【答案】:请联系在线客服,或加微信好友

离线数据分析是指将待分析的数据先存储于硬盘中,然后进行数据分析,离线数据分析用于较复杂和耗时的数据分析和批处理。


×
【答案】:请联系在线客服,或加微信好友

传统数据获取与大数据获取的唯一区别是前者数据量小,后者数据量大。


×
【答案】:请联系在线客服,或加微信好友

大数据仅仅是指数据的体量大。


×
【答案】:请联系在线客服,或加微信好友

分箱平滑法是一种数据局部平滑方法,它是通过考察所有的数据来平滑存储数据。


×
【答案】:请联系在线客服,或加微信好友

基于约简维数的大小分类,维数约简可以分为(  )、(   )和(  )。

A、硬维数约简
B、可视化
C、统计维数约简
D、软维数约简
【答案】:请联系在线客服,或加微信好友

网站内部数据主要有(   )和(   )。

A、日志数据
B、寄存器数据
C、数据库数据
D、内存数据
【答案】:请联系在线客服,或加微信好友

下列哪些属于流式数据源(   )。

A、传感器数据
B、卫星图像数据
C、互联网及WEB流量
D、保存于硬盘中的各类文档
【答案】:请联系在线客服,或加微信好友

大数据的主要特征表现为(  )。

A、数据类型多
B、处理速度快
C、数据容量大
D、商业价值高
【答案】:请联系在线客服,或加微信好友

由大及小的数据展现方式是先给出一个(  )的画面,可以引导读者具体深入到一个(  )的点。

A、一般
B、整体
C、聚焦
D、局部
【答案】:请联系在线客服,或加微信好友

天猫分析人员希望通过聚类方法定位代商家刷信用级别的违规者,以下那种操作不应该进行:(  )

A、对变量进行标准化
B、对变量进行百分位秩或 TukEy正态性转换
C、对变量进行因子分析或变量聚类
D、对变量进行分箱处理
【答案】:请联系在线客服,或加微信好友

当前社会中,最为突出的大数据环境是(  )。

A、互联网
B、物联网
C、综合国力
D、自然资源
【答案】:请联系在线客服,或加微信好友

启动hADoop所有进程的命令是:(  )

A、sTArT-DFs.sh
B、sTArT-hADoop.sh
C、sTArT-All.sh
D、sTArT-hDFs.sh
【答案】:请联系在线客服,或加微信好友

数据平滑法主要分为(  )、指数平滑法和分箱平滑法。

A、统计法
B、最短距离法
C、移动平均法
D、聚类方法
【答案】:请联系在线客服,或加微信好友

将班级平均分成 6 组,然后随机挑选一组,对该组所有人的情况进行调查,上述 情节属于哪种抽样方案(  )

A、简单随机抽样
B、两段集群抽样
C、集群抽样
D、等距抽样
【答案】:请联系在线客服,或加微信好友

以下哪种聚类方法可以提供聚类树形图(  )

A、层次聚类
B、K均值聚类
C、基于密度的聚类
D、基于网格的聚类
【答案】:请联系在线客服,或加微信好友

支撑大数据业务的基础是( )。

A、据科学
B、数据应用
C、数据硬件
D、数据人才
【答案】:请联系在线客服,或加微信好友

以下名词解释不正确的是:(  )

A、HDFS:分布式文件系统,是HADoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBAsE:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTABlE的开源实现
C、HivE:一个基于HADoop的数据仓库工具,用于对HADoop文件中的数据集进行数据整理、特殊查询和分析存储
D、ZookEEpEr:针对谷歌ChuBBy的一个开源实现,是高效可靠的协同工作系统
【答案】:请联系在线客服,或加微信好友

数据获取与存储管理是大数据处理周期的第(   )步。

A、1
B、2
C、3
D、5
【答案】:请联系在线客服,或加微信好友

数据清洗算法的衡量标准主要包含(  )、错误返回率和精确度。

A、冗余度
B、返回率
C、可用性
D、一致性
【答案】:请联系在线客服,或加微信好友

抽样误差和样本数的密切关系(  )

A、
B、样本量越大抽样误差就越大
C、在置信区间既定的情况下,样本量越大,抽样误差就越大
D、样本量越大,抽样误差不变
E、样本量越大,抽样误差就越小。
【答案】:请联系在线客服,或加微信好友

维数约简是使用编码机制来增大数据集的规模。


×
【答案】:请联系在线客服,或加微信好友

NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是非关系型数据库的一类统称,它采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。


×
【答案】:请联系在线客服,或加微信好友

数据可视化是指将数据以图形图像形式表示,并利用数据分析和挖掘工具发现其中未知信息的处理过程。


×
【答案】:请联系在线客服,或加微信好友

数据分析是从一个假设出发,需要自行选择方程或模型来与假设匹配,而数据挖掘不需要假设,可以自动建立模型。


×
【答案】:请联系在线客服,或加微信好友

MApREDuCE计算将数据存储到内存中,然后对存储在硬盘中的静态数据进行集中计算。


×
【答案】:请联系在线客服,或加微信好友

RDBMS(关系数据库)难以实现横向扩展,但可以很容易实现纵向扩展。


×
【答案】:请联系在线客服,或加微信好友

同构同质数据库是指同一类型的数据模型、同一型号的数据库系统;同构异质数据库是指同一类型的数据模型、不同型号的数据库系统。


×
【答案】:请联系在线客服,或加微信好友

HADoop和sTorm都属于大数据处理工具,HADoop可以用于数据的批量处理,sTorm则侧重于数据的实时分析。


×
【答案】:请联系在线客服,或加微信好友

在数据预处理过程中,可以根据需要,通过数据转换构造出数据的新属性,使之更有助于处理数据。(  )


×
【答案】:请联系在线客服,或加微信好友

在产业发展领域,大数据加速了产业优化升级的步伐。


×
【答案】:请联系在线客服,或加微信好友

网页分析算法可以归纳为(  )。

A、基于网络拓扑
B、基于网页内容
C、基于用户访问行为
D、基于网页链接数量
【答案】:请联系在线客服,或加微信好友

从分析的结果来看,大数据分析主要分为( )、( );从分析的方式来看,大数据分析主要分为离线数据分析、( )和( )

A、探索性数据分析
B、在线数据分析
C、交互式分析
D、定性数据分析
【答案】:请联系在线客服,或加微信好友

在NEwSQL+NoSQL混合模式中,NEwSQL承担高价值密度(  )的存储和分析处理工作,NoSQL承担存储和处理海量(  )。

A、半结构化数据
B、非结构化数据
C、结构化数据
D、分布式存储与计算
【答案】:请联系在线客服,或加微信好友

数据规范化的主要方法是(   )、(   )和(  )等。

A、最小-最大规范化方法
B、模糊规范化方法
C、z分数规范化方法
D、小数定标规范化方法
【答案】:请联系在线客服,或加微信好友

关于数据清洗算法的衡量标准,主要包含以下( )

A、返回率
B、错误返回率
C、精确度
D、方差
【答案】:请联系在线客服,或加微信好友

大数据的价值体现在(  )

A、大数据给思维方式带来了冲击
B、大数据为政策制定提供科学论据
C、大数据助力智慧城市提升公共服务水平
D、大数据实现了精准营销
【答案】:请联系在线客服,或加微信好友

关于作者

580zuoye administrator

专注于辅导国开电大、继续教育8年有余,欢迎合作共赢。