欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    CDALEVEL试题及答案docx.docx

    • 资源ID:9325906       资源大小:168.06KB        全文页数:45页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    CDALEVEL试题及答案docx.docx

    1、CDALEVEL试题及答案docxCDA LEVEL 建模分析师 _ 模拟题:一、单项选择题(每小题 0.5 分,共 30 分)1 、答案( D)在使用历史数据构造训练集 ( Train 集)、验证( Validation 集和)检验( Test )时,以下哪个样本量分配方案比较适合?A. 训练50%,验证 0%,检验 50%B. 训练100% ,验证 0%,检验 0%C. 训练0%,验证 100% ,检验 0%D. 训练 60%,验证 30%,检验 10%2 、答案 (A)一个累积提升度曲线, 当深度( Depth )等于 0.1 时,提升度为 (Lift) 3.14为,以下哪个解释正确?A

    2、. 根据模型预测,从最高概率到最低概率排序后,最高的前 10%中发生事件的数量比随机抽样的响应率高 3.14B.选预测响应概率大于 10%的样本,其发生事件的数量比随机抽样的响应率高 3.14C.根据模型预测,从最高概率到最低概率排序后,最高的前 10%中预测的精确度比随机抽样高 3.14D.选预测响应概率大于 10%的样本,其预测的精确度比随机抽样高 3.143 、答案( C)在使用历史数据构造训练 ( Train 集)、验证( Validation 集和)检验( Test )集时,训练数据集的作用在于A.用于对模型的效果进行无偏的评估B.用于比较不同模型的预测准确度C.用于构造预测模型D.

    3、用于选择模型4 、答案( D)在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么?A.增加了填补缺失值的时间B.加大了处理的难度C.无法针对分区后各个数据集的特征分别做数据清洗D.无法对不同数据清理的方法进行比较,以选择最优方法5 、答案( C)关于数据清洗(缺失值、异常值),以下哪个叙述是正确的?A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗D.以上均不对6 、答案( B)当一个连续变量的缺失值占比在 85%左右时,以下哪种方式最合理A.直接使

    4、用该变量,不填补缺失值B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C.使用多重查补的方法进行缺失值填补D.使用中位数进行缺失值填补7 、答案( B)构造二分类模型时, 在变量粗筛阶段, 以下哪个方法最适合对分类变量进行粗筛A.相关系数B.卡方检验C.方差分析D.T 检验8 、答案( A)以下哪个方法可以剔除多变量情况下的离群观测A.变量中心标准化后的快速聚类法B.变量取百分位秩之后的快速聚类法C.变量取最大最小秩化后的快速聚类法D. 变量取 Turkey 转换后的快速聚类法9 、答案( C)以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值A . 向前逐步法B.向后逐步法C

    5、.逐步法D.全子集法10 、答案( A)以下哪个指标不能用于线性回归中的模型比较:A.R 方B.调整R 方C.AICD.BIC11 、 答案B.将复杂的地址简化成北、中、南、东四区,是在进行?A. 数据正规化 (Normalization) B. 数据一般化 (Generalization)C. 数据离散化 (Discretization) D. 数据整合 (Integration)12 、【答案( A)】当类神经网络无隐藏层, 输出层个数只有一个的时候, 倒传递神经网络会变形成为?A. 罗吉斯回归 B. 线性回归 C. 贝氏网络 D. 时间序列13 、 答案B.请问 Apriori 算法是用

    6、何者做项目集 (Itemset) ? 的筛选A. 最小信赖度 (MinimumConfidence)B. 最小支持度 (MinimumSupport)C. 交易编号 (TransactionID)D. 购买数量14 、 答案B.有一条关联规则为 A B,此规则的信心水平 (confidence)60%,则为代表:A. 买 B 商品的顾客中,有 60%的顾客会同时购买 AB. 买 A 商品的顾客中,有 60%的顾客会同时购买 BC. 同时购买 A,B 两商品的顾客,占所有顾客的 60%D. 两商品 A,B 在交易数据库中同时被购买的机率为 60%15 、【答案( B)】下表为一交易数据库,请问

    7、A C 的支持度 (Support) 为:A. 75% B. 50% C.100% D. 66.6%TID Items Bought1 A,B,C2 A,C3 A,D4 B,E,F16 、【答案( D)】下表为一交易数据库,请问 A C 的信赖度 (Confidence) 为:A. 75% B. 50% C.100% D. 66.6%TIDItems Bought1A,B,C2A,C3A,D4B,E,F17 、 答案D.倒传递类神经网络的训练顺序为何?( A: 调整权重;B: 计算误差值;C: 利用随机的权重产生输出的结果)A. BCA B. CAB C. BAC D. CBA18 、 答案C

    8、.在类神经网络中计算误差值的目的为何?A.调整隐藏层个数B.调整输入值C.调整权重 (Weight)D.调整真实值19 、 答案A.以下何者为 Apriori 算法所探勘出来的结果?A.买计算机同时会购买相关软件B.买打印机后过一个月会买墨水夹C.买计算机所获得的利益D.以上皆非20 、 答案D.如何利用体重以简单贝式分类 Bayes)(Naive 预测性别?A.选取另一条件属性B.无法预测C. 将体重正规化为 01 之间D.将体重离散化21 、 答案B.Naive Bayes 是属于数据挖掘中的什么方法?A. 分群 B. 分类 C. 时间序列 D. 关联规则22 、 答案B.简单贝式分类 (

    9、NaiveBayes) 可以用来预测何种数据型态?A. 数值 B. 类别 C. 时间 D. 以上皆是23 、 答案B.如何以类神经网络仿真罗吉斯回归 (LoRegression)istic ?A. 输入层节点个数设定为 3B. 隐藏层节点个数设定为 0C. 输出层节点个数设定为 3D. 隐藏层节点个数设定为 124 、 答案B.请问以下何者属于时间序列的问题?A.信用卡发卡银行侦测潜在的卡奴B.基金经理人针对个股做出未来价格预测C.电信公司将人户区分为数个群体D.以上皆是25 、 答案D.小王是一个股市投资人, 手上持有某公司股票, 且已知该股过去历史数据如下表所示,今天为预测 2/6 的股价

    10、而计算该股 3 日移动平均,请问最近的 3 日移动平均值为多少?日期 股价2/1 102/2 122/3 132/4 162/5 19A. 11 B. 13 C. 14 D. 1626 、 答案C.下列哪种分类算法的训练结果最难以被解释?A. Naive BayesB. Logistic RegressionC. Neural NetworkD. Decision Tree27 、 答案B.数据遗缺 (NullValue) 处理方法可分为人工填补法及自动填补法,下列哪种自动填补法可得到较准确的结果?A. 填入一个通用的常数值,例如填入 未知 /UnknownB.把填遗缺值的问题当作是分类或预测

    11、的问题C.填入该属性的整体平均值D.填入该属性的整体中位数二、多项选择题1 、( AB)对于决策类模型、以下哪些统计量用于评价最合适?A.错分类率B.利润C.ROC 指标D.SBC2 、( BD)对于估计类模型、以下哪些统计量用于评价最合适?A.错分类率B.极大似然数C.ROC 统计量D.SBC3 、( AB)以下哪个变量转换不会改变变量原有的分布形式A.中心标准化B.极差标准化C.TURKEY 打分D.百分位秩4 、( AB)连续变量转换时,选取百分位秩而不选用最大最小秩的原因A.避免模型在使用时,值域发生明显变化B.避免输入变量值域变化对模型预测效果的影响C.避免输入变量的异常值影响D.是

    12、转换后的变量更接近正态分布5 、( BC)构造二分类模型时, 在变量粗筛阶段, 以下哪两个方法最适合对连续变量进行粗筛A. 皮尔森( Pearson )相关系数B. 思皮尔曼( SPEARMAN)相关系数C.Hoeffding sD相关指标D.余弦相关指标6 、( CD)常见的用于预测 Y 为分类变量的回归方法有A.伽玛回归B.泊松回归C.Logistic 回归D.Probit 回归7 、 (A,B, C)请问以下个案何者属于时间序列分析的范畴?A.透过台湾股票指数过去十年走势预测其未来落点B.透过美国股票指数走势变动以分析其与台股指数的连动因果C.透过突发事件前后的股票指数走势变动来探讨该事

    13、件的影响D.分析投资人对不同股票的喜好程度8 、 (A,B, C)下表为一事务数据库,若最小支持度 (MinimumSupport ) = 50%,则以下哪些是长度为 2 的频繁项目集 (FrequentItemset) ?A.BE B.AC C.BC D.ABT ItemsID Bought1A,C,D2B,C,E3A,B,C,E4B,E9.(B, C, D)下列对 C4.5 算法的描述,何者为真?A. 每个节点的分支度只能为 2B. 使用gain ratio 作为节点分割的依据C.可以处理数值型态的字段D.可以处理空值的字段10. (A, B, D)下列哪个应用可以使用决策树来建模?A.预

    14、测申办信用卡的新客户是否将来会变成卡奴B.银行针对特定族群做人寿保险的推销C.找出购物篮里商品购买间的关联D.根据生活作息推断该病人得癌症的机率11. (B, C)小王是一个股市投资人,手上持有 A、 B、 C、 D、E五只股票,请问以下何者不属于时间序列的问题?A. 透过A 只股票过去一年来的股价走势,预测明天 A 只股票的开盘价格B. 将A、 B、 C、 D、E五只股票区分为赚钱与赔钱两个类别C. 将A、 B、 C、 D、E五只股票区分为甲、乙、丙三个群体D. 透过 A, C, D 三只股票过去一年来的走势, 预测明天 A 只股票的开盘价格12. (A, C, D)下列何者是类神经网络的缺

    15、点?A.无法得知最佳解B.模型准确度低C.知识结构是隐性的,缺乏解释能力D.训练模型的时间长13. (A, B)请问要符合什么条件才可被称为关联规则 ?A. 最小支持度 (MinimumSupport)B. 最小信赖度 (MinimumConfidence)C. 最大规则数 (MaximumRule Number)D.以上皆非三、内容相关题根据相同的背景材料回答若干道题目, 每道题的答案个数不固定。 下列各题 A)、B)、 C)、 D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。I 、下图为类神经元的示意图,请回答 1 至 3 题:1 、【答案( A)】请问虚线的部分为?A

    16、.类神经元B.键结值 (Weight)C.阀值 (Bias)D.激发函数 (ActivationFunction)2 、【答案( D)】( ) ?A. 神 元B.(Weight)C.(Bias)D.激 函数 (ActivationFunction)3 、【答案( B)】W1, W2, ,Wm ?A. 神 元B.(Weight)C.(Bias)D.激 函数 (ActivationFunction)II 、根据下表的混乱矩 (ConfusionMatrix) ,回答4 至 5 :TrueYENOPredictedSYESABNOCD4 、【答案( A)】 于属性 YES 的响 率 (Precisi

    17、on) 如何 算?A. B. C. D.5 、 答案B.对于属性值 YES 的捕捉率 (Recall) 应如何计算?A. B. C. D.四、案例操作分析根据相同的背景材料和数据回答若干道题目, 每道题的答案个数不固定。 在做题过程中需要使用统计软件进行相应的操作。提供 CSV 格式的数据,统计软件不受限制。下列各题 A)、 B)、 C)、 D)四个选项中,每题至少有一个选项是正确的,多选或少选,均不能得分。I、了解汽车的燃油效率一直是汽车业关心的议题。某汽车业者收集了过去许多可能会影响汽车燃油效率的相关信息,希望从这些数据中,运用数据挖掘 (DMining) 中的预测 (Prediction

    18、) 技术,分析出会影响汽车燃油效率的相关因素,并建立能预测汽车燃油效率的数据挖掘预测 模型。汽车燃油效率数据集(autompg) 共有10 个字段,其中 8 个是输入字段,1 个汽车 ID 字段,一个目标字段 (mpg)。字段的说明如下:字段名称数据型态字段说明car_id数值型汽车 IDcar_name类别型汽车厂牌及型号cylinders数值型汽缸数displacement数值型排气量horsepower数值型马力weight数值型重量acceleration数值型加速度modelyear类别型制造年度origin类别型产地mpg(miles per gallon)数值型目标字段请根据汽车

    19、燃油效率数据集(autompg)回答以下的问题。1 、 (AD)那些字段一定不能作为输入字段 ( 即解Input释变量Attribute) :(A)mpg(B)weight(C)origin(D)car_name2 、 (D)数据的总笔数为:(A)390(B)391(C)492(D)3923 、 (C)制造年度 (modelyear) 有几个不同值:(A) 11(B) 12(C)13(D)144 、 (C)此数据集中,目标字段 (mpg) 的平均值 (mean) 及标准差 (standarddeviation)分别为:(A)25.087 7.746(B)23.283 7.746(C)23.28

    20、3 5.525(D)25.087 5.5255 、 (BCD)以下是部分的散点图 (Scatterplot) ,请自行做散点图,并判断那些字段与目标字段 (mpg) 是呈现负相关:(A)acceleration(B)displacement(C)weight(D)horsepower6 、 (ACD)由于我们的目标是要建立能预测汽车燃油效率的预测模型 Model)(Prediction,因此以下那些模型可以协助我们建立:(A)Regression Tree(B)Logistic Regression(C)Neural Network(D)Linear Regression7 、 (C)由于线性

    21、回归 (LinearRegression) 不能接受类别型的字段,因此若我们想在线性回归中使用类别型字段,则须将类别型字段做何种处理:(A) 极值正规化 (Min-MaxNormalization)(B)Z-Score 正规化 (Z-ScoreNormalization)(C)字段值摊平(FlatteningOperation)成多个二元字段(D) 字段离散化 (Discretization)8 、 (C)根 据 以 下 回 归 树 的 建 模 结 果 , 当 cylinders=8; displacement=70;horsepower=100; weight=2500; accelerat

    22、ion=15; model year=75;origin=2 时,模型的预测结果为:(A)18.894(B)24.846(C)28.821(D)35.6569 、 (B)根 据 以 下 线 性 回 归 的 建 模 结 果 , 当 cylinders=8; displacement=70;horsepower=100; weight=2500; acceleration=15; model year=75;origin=2 时,模型的预测结果为:(A) 25.701(B) 25.809(C) 28.342(D) 35.80910 、 (AC)根据以下的四個建模结果 (1) 及 (2) ,哪種兩個模型表現最好:(A)(1)(B)(2)(C)(3)(D)(4)(1) (2)(3) (4)


    注意事项

    本文(CDALEVEL试题及答案docx.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开