
本题考查数据挖掘。
【选项AC错误】属于监督学习中的分类。
【选项D错误】属于无监督学习中的降维。
【选项B正确】回归是通过特征变量确定观测单位因变量的取值,因变量是定量变量。例如,根据钻石的克拉数、颜色、切割工艺等信息预测钻石的价格,根据房屋面积、位置、楼层等信息预测房价。
因此,本题正确答案为选项B。

本题考查数据挖掘。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义:
(1)数据源必须是真实的、大量的、有噪声的【选项A错误】。
(2)发现的是用户感兴趣的知识【选项B正确】。
(3)发现的知识是可接受、可理解、可运用的【选项D正确】。
(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题【选项E正确】。
数据挖掘以解决实际问题为出发点,融合了多学科领域的知识,核心任务是对数据关系和特征进行探索【选项C正确】。
因此,本题正确答案为选项BCDE。

本题考查数据挖掘。
【选项A错误】文本归类属于常用的聚类方法之一,属于无监督学习。
【选项D错误】因子分析属于常用的降维方法之一,属于无监督学习。
常用的分类方法有逻辑斯特回归【选项B】、决策树、随机森林【选项C】和支持向量机【选项E】等。
因此,本题正确答案为选项BCE。

(2022年真题改编)下列属于无监督学习的是( )。
本题考查数据挖掘。
【选项ABD错误】属于监督学习。
无监督学习中有两大类典型任务:聚类和降维。因子分析属于常用的降维方法之一。
因此,本题正确答案为选项C。

本题考查数据科学。
【选项A错误】数据科学涉及的范围非常广泛,如统计学、机器学习、计算机科学、可视化、人工智能、领域知识等。
因此,本题正确答案为选项BCDE。

下列各项中,不属于大数据“4V”特性的是( )。
本题考查大数据。
大数据具有“4V”特性:
(1)数据量大【选项A】。
(2)数据多样性【选项B】。
(3)价值密度低【选项C】。
(4)数据的产生和处理速度快。
因此,本题正确答案为选项D。

