推荐 数据科学与大数据技术专业特色课程研究.docx
- 文档编号:18361031
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:18
- 大小:28.94KB
推荐 数据科学与大数据技术专业特色课程研究.docx
《推荐 数据科学与大数据技术专业特色课程研究.docx》由会员分享,可在线阅读,更多相关《推荐 数据科学与大数据技术专业特色课程研究.docx(18页珍藏版)》请在冰点文库上搜索。
推荐数据科学与大数据技术专业特色课程研究
推荐:
数据科学与大数据技术专业特色课程研究
在我国,数据科学与大数据技术专业的建设已成为新的热点话题。
在系统调研世界一流大学数据科学专业建设现状的基础上,从特色课程视角重点分析加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学等8所大学的数据科学专业,提出数据科学与大数据技术这一新专业应重视的10门特色课程,并分析了现阶段我国数据科学教育中普遍存在的8种曲解现象及对策建议。
2016年,教育部发布的《2015年度普通高等学校本科专业备案和审批结果》中就首次增设“数据科学与大数据技术专业”,并获批了北京大学、对外经济贸易大学及中南大学的新增专业申请。
接着,2017年,中国人民大学等32所高校出现在第二批次的获批名单中。
另,全国高校大数据教育联盟的统计数据显示,2017年申请该专业的院校高达263所,其中工学190所,理学73所[1]。
从申请资料看,国内数据科学专业是一门主要以统计学和计算机科学与技术专业为基础建设的全新专业。
数据科学专业已成为我国现阶段高等教育的热点问题之一。
但是,建设什么样的专业以及如何建设该专业仍为各高校面临的难点问题。
在国外,数据科学(DataScience)专业是以数据分析学(DataAnalytics)专业为基础发展而来的,可追溯至2007年北卡罗来纳州立大学(NorthCarolinaStateUniversity)率先设立的数据分析硕士学位(MasterofScienceinAnalytics)[2]。
与统计学和计算机科学与技术等基础学科不同的是,数据分析学进一步抽象了这些底层科学中的数据问题,连接了包括统计学和计算机科学在内的基础学科与数据科学之间的空白,为数据科学这一新学科的出现奠定了直接基础。
从“数据分析学”向“数据科学”的实质性过渡出现在2013年左右,比较有代表性的是纽约大学于2013年新开设的数据科学硕士专业(TheMasterofScienceinDataScience)[3]。
之后,包括加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学在内的多个学校设立了数据科学专业。
可见,国外一流大学的数据科学专业建设至少早于国内三年。
为此,本文在调查分析世界一流大学数据科学专业的培养方案,重点分析数据科学专业中开设的特色课程,并对探讨我国数据科学专业建设的借鉴意义。
1数据调研及分析作者通过StudyPortal进行调查发现,截止2017年11月,国外数据科学专业的本科、硕士、博士学位项目分别已达到5601、4179和301项,主要分布在美国、英国、澳大利亚、加拿大、德国和意大利等国家。
但是,从课程体系和人才培养定位看,能够体现国外数据科学专业教育的本质与特色的是硕士层次的教育,比较有典型的学校有加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、纽约大学、斯坦福大学、卡内基梅隆大学、哥伦比亚大学、伦敦城市大学,如表1所示。
表1典型数据科学专业及其特色课程(TypicalDataScienceProgramsandtheirCoreCourses)学校学位名称特色课程加州大学伯克利分校[4]信息与数据科学硕士(MasterofInformationandDataScience)Python与数据科学/PythonforDataScience研究设计及数据与分析中的应用/ResearchDesignandApplicationforDataandAnalysis数据存储与检索/StoringandRetrievingData应用机器学习/AppliedMachineLearning试验与因果分析/ExperimentsandCausality大数据——人与价值/BehindtheData:
HumansandValues(纵向扩展及真正的)大数据/ScalingUp!
ReallyBigData数据可视化与沟通/DataVisualizationandCommunication(数据科学)综合训练课程/SyntheticCapstoneCourse约翰·霍普金斯大学[5]数据科学理学硕士(MasterofScienceinDataScience)数据科学/DataScience数据可视化/DataVisualization随机优化与控制/StochasticOptimizationandControl数据科学家的工具箱/DataScientist'sToolbox数据采集与清洗/GettingandCleaningData探索性数据分析/ExploratoryDataAnalysis可重复研究/ReproducibleResearch实用机器学习/PracticalMachineLearning数据产品开发/DevelopingDataProducts数据科学综合训练课程/DataScienceCapstone华盛顿大学[6]数据科学理学硕士MasterofScienceinDataScience数据可视化与探索性分析/DataVisualization&ExploratoryAnalytics应用统计与试验设计/AppliedStatistics&ExperimentalDesign数据管理与数据科学/DataManagementforDataScience数据科学家常用的统计机器学习/StatisticalMachineLearningforDataScientists面向数据科学的软件设计/SoftwareDesignforDataScience可扩展的数据系统与算法/ScalableDataSystems&Algorithms以人为中心的数据科学/Human-CenteredDataScience数据科学综合训练课程/DataScienceCapstoneProject纽约大学[7]数据科学理学硕士MSinDataScience数据科学导论/IntrotoDataScience大数据/BigData面向数据科学的统计学与概率论/ProbabilityandStatisticsforDataScience推理与表示/InferenceandRepresentation机器学习与计算统计学/MachineLearningandComputationalStatistics数据科学综合训练课程/CapstoneProjectinDataScience基于优化的数据分析/Optimization-basedDataAnalysis非光滑凸优化/ConvexandNonsmoothOptimization斯坦福大学[8]统计学:
数据科学理学硕士学位M.S.inStatistics:
DataScience现代应用统计学:
学习/ModernAppliedStatistics:
Learning现代应用统计学:
数据挖掘/ModernAppliedStatistics:
DataMining数据驱动型医学/DataDrivenMedicine现代统计学与现代生物学/ModernStatisticsforModernBiology大数据商务智能/BusinessIntelligencefromBigData基于数据的计算范式/ParadigmsforComputingwithData卡内基梅隆大学[9]计算数据科学硕士学位MasterofComputationalDataScience云计算/CloudComputing高级云计算/AdvancedCloudComputing多媒体数据库及数据挖掘/MultimediaDatabasesandDataMining移动与普适计算/MobileandPervasiveComputing大数据集的机器学习/MachineLearningwithBigDataSets智能信息系统的设计与开发/DesignandEngineeringofIntelligentInfoSystems大数据分析学/BigDataAnalytics哥伦比亚大学(纽约)[10]数据科学导论/IntroductiontoDataScience面向数据科学的计算机系统/ComputerSystemsforDataScience探索性数据分析与可视化/ExploratoryDataAnalysis&Visualization数据科学中的因果推理/CausalInferenceforDataScience大数据分析学/BigDataAnalytics数据科学综合训练及伦理/DataScienceCapstone&Ethics伦敦城市大学[11]数据科学理学硕士MScinDataScience数据科学原理/Principlesofdatascience大数据/BigData可视分析学/Visualanalytics数据可视化/Datavisualization神经计算/Neuralcomputing研究方法与专业问题/ResearchMethodsandProfessionalIssues高级并发编程/AdvancedProgramming:
Concurrency1.1加州大学伯克利分校该学校的数据科学专业由信息学院(SchoolofInformation)开设,专业名称为信息与数据科学,授予的学位为信息和数据科学专业硕士(ProfessionalMasterofInformationandDataScience,MIDS)[12]。
该专业主要侧重于培养学生的研究设计、数据清洗、存储与检索、挖掘与探索、数据可视化、道德与隐私、数据分析、沟通与呈现的能力,如图1所示。
图1加州大学伯克利分校MIDS专业所关注的学生能力(KeySkillAreasofMIDSatUCBerkeley)[12]为了达到上述人才培养目的,该专业开设基础课程、高级课程和综合训练课程等3类课程。
其中,基础课程共有5门,即面向数据科学的Python语言(PythonforDataScience)、面向数据与分析的研究设计(ResearchDesignandApplicationforDataandAnalysis)、面向数据科学的统计学(StatisticsforDataScience)、数据存储与检索(StoringandRetrievingData)以及应用机器学习(AppliedMachineLearning);高级课程有7门,包括试验与因果分析(ExperimentsandCausality)、数据、人与价值(BehindtheData:
HumansandValues)、(纵向扩展及真正的)大数据(ScalingUp!
ReallyBigData)、面向离散响应,时间序列和面板数据的统计方法(StatisticalMethodsforDiscreteResponse,TimeSeries,andPanelData)、可扩展的机器学习(MachineLearningatScale)、基于深度学习的自然语言处理(NaturalLanguageProcessingwithDeepLearning)以及数据可视化与沟通(DataVisualizationandCommunication)。
除了基础课程和高级课程,该学校还开设一门综合训练课程(SyntheticCapstone),培养学生综合运用所学专业知识及解决现实问题的能力。
从总体上看,人才培养定位在培养数据科学领域的领导者,侧重培养学生的运用新工具和新方法,从现实数据中获得洞见(Insights)以及如何有效地沟通与阐释自己的研究发现,进而改变他人行动和思想的能力。
该学校的数据科学专业的人才培养具有如下几个特点:
强调数据科学的多学科交叉特点,将社会科学,计算机科学,统计学,管理学和法学等多学科知识融入具体课程之中;凸显数据科学本身的讲解,注重提升学生的基于数据提出好问题的能力以及面向数据科学的研究设计、数据清理、存储与检索、交流与沟通、统计分析、道德与隐私、数据可视化以及数据挖掘与探索等关键技能;引入基于项目的学习方法,借鉴本校信息学院其他专业的培养经验,通过基于项目的教学方式,鼓励学生综合运用多种不同的工具和方法来解决复杂问题;强调动手实践能力的培养,为学生提供亚马逊Web服务和IBM大数据平台等实践平台。
1.2约翰·霍普金斯大学该学校的怀廷工程学院(WhitingSchoolofEngineering)开设名为数据科学(DataScience)的新专业,授予的学位为数据科学理学硕士(MasterofScienceinDataScience)。
该专业的课程体系包含先修课程(PrerequisiteCourses)、基础课程(FoundationCourse)、必修课程(RequiredCourses)、选修课程(Electives)以及独立学习(Independentstudy)课程等近60门课程[13]。
基础课程有2门,即算法基础(FoundationsofAlgorithms)和统计方法与数据分析(StatisticalMethodsandDataAnalysis);必修课程包括数据库系统原理、数据科学、数据可视化、优化导论(IntroductiontoOptimization)、统计模型与回归、计算统计学;选修课分为机器学习和统计学两个大方向,共有14门主要课程,均为较为常见课程。
值得一提的是,该专业另提供了近30门扩展选修课程(AdditionalSelections),供学生用于置换同一个领域的必须/选修课程,这些扩展课程均为统计学和计算机科学与技术专业常见课程。
独立学习(Independentstudy)课程主要包括独立动手实战(Capstone项目)和独立学习(IndependentStudy)。
从总体上看,该学校的数据科学专业的人才培养具有如下几个特点:
从人才培养的目的看,专业旨在培养“有竞争力”的数据科学家,要求学生具备三方面的能力:
综合运用计算机科学和应用数学的知识,分析与处理大规模数据集的能力;从复杂数据中快速洞察到有价值信息的能力和从信息中发现相关关系的能力;基于规范的技术和抽象的方法以及面向现实世界中的具体问题的建模能力[14]。
强调学生对数据科学的理论基础的掌握程度,突出了三个主要领域:
计算机科学与技术、统计学与应用数学。
其中,对应用数学的重视是该学校数据科学专业的一大特色。
从课程设计及内容选择看,该专业鼓励在每一门课程中引入来自现实世界的具体问题作为例题和主要关注点。
例如,独立学习(IndependentStudy)课程中强调对具体行业中实际问题的处理能力。
强调培养学生的数据全生命期管理、统计分析和故事化描述能力。
1.3华盛顿大学整合自己的应用数学系、生物统计学系、PaulG.Allen计算机科学与工程学院、以人为本的设计与工程系、统计系、信息学院6大院系以及电子科学研究所的资源,开设出了一种面向在职人员的夜大类数据科学专业项目,所授予的学位为数据科学理学硕士(MasterofScienceinDataScience)。
该专业的课程设计较为简洁,包括8门核心课程以及1个Capstone项目。
其中,8个核心课程分别是统计与概率论(IntroductiontoStatistics&Probability)、信息可视化(InformationVisualization)、应用统计与试验设计(AppliedStatistics&ExperimentalDesign)、面向数据科学的数据管理(DataManagementforDataScience)、数据科学家常用的统计机器学习(StatisticalMachineLearningforDataScientists)、面向数据科学的软件设计(SoftwareDesignforDataScience)、可扩展的数据系统与算法(ScalableDataSystems&Algorithms)和以人为中心的数据科学(Human-CenteredDataScience)。
Capstone项目要求学生自己组队,并自主完成项目的选题、研究设计和研究过程等工作,侧重培养学生对大规模数据集的处理能力、从数据中获得洞察能力(Insights)以及与其他人分享自己所发现的洞见的能力[15]。
从整体看,该学校的数据科学专业主要定位在应用型人才的培养,尤其是数据分析师和应用型数据科学家。
人才培养的主要特点如下:
面向在职人员。
该专业主要针对刚毕业的学生或在职人员开设,上课时间一般为业余时间,允许学生脱产或在职学习。
重视团队协作能力。
多数课程的作业均需要团队方式完成,而并非为个人独立完成。
强调动手操作能力,加强学生运用Python和R进行数据分析的能力,部分作业还需要进行Java编程。
突出以人为中心的数据科学与可视化(human-centereddatascienceandvisualization)能力,开设有专门《以人为中心的数据科学(Human-CenteredDataScience)》。
1.4纽约大学该学校的数据科学专业由数据科学中心(CenterforDataScience)开设,授予的学位为数据科学理学硕士(MasterofScienceinDataScience)[16]。
主要必选课程有数据科学导论、面向数据科学的统计学与概率论(ProbabilityandStatisticsforDataScience)、机器学习、大数据以及Capstone项目。
此外,该专业还要求学生从以下6门课程中选择1门:
推理与表示、深度学习、基于表示学习的自然语言处理、自然语言理解与计算语义、基于优化的数据分析(Optimization-basedDataAnalysis)、优化与计算线性代数。
值得一提的是,该学校的数据科学专业设有多个培养方向(Track):
大数据方向(DataScience:
BigDataTrack)设有自然语言理解与计算语义、信息可视化、大规模可视化分析、数据库导论、高级数据库系统等课程;数学与数据方向(DataScience:
MathematicsandDataTrack)设有基于优化的数据分析、推理与表示、数据科学中数学:
图与网络(MathematicsofDataScience:
GraphsandNetworks)以及非光滑凸优化(ConvexandNonsmoothOptimization)等课程。
自然语言处理方向(DataScience:
NaturalLanguageProcessingTrack)开设基于表示学习的自然语言理解、自然语言理解与计算语义、统计自然语言理解、推理与表示、深度学习、文本数据(TextasData)、自然语言处理以及高级语言学等课程。
物理学方向(DataScience:
PhysicsTrack)中开设的主要课程有推理与表示、实验物理研究(ExperimentalPhysicsResearch)、理论物理研究(TheoreticalPhysicsResearch)、研究式阅读(ResearchReading)、计算物理(ComputationalPhysics)、统计物理、生物物理(Biophysics)、专题研讨课、天体物理学专题(SpecialTopicsinAstrophysics)以及相变与临界现象(PhaseTransitionsandCriticalPhenomena)。
生物学方向(DataScience:
BiologyTrack)重点讲解基础生物学、健康与疾病等基础知识,并要求选修生物学的课程。
纽约大学的数据科学专业的人才培养定位在“下一代数据科学家”,为具备数学、计算机科学和应用统计基础的学生提供了多个可选的培养方案,其主要特点如下:
设有多个培养方向,如大数据、数学与数据、自然语言处理、物理学和生物学等,其人才培养特别强调数据科学与其他专业的深度融合。
重视对优化论的学习,在课程体系中设置了多个与优化论相关的课程,如《基于优化的数据分析(Optimization-basedDataAnalysis)》和《优化与计算线性代数(OptimizationandComputationalLinearAlgebra)》、《非光滑凸优化(ConvexandNonsmoothOptimization)》。
强调实践操作能力,重视来自现实世界的具体问题的处理能力。
1.5斯坦福大学该学校的数据科学专业由统计系(DepartmentofStatistics)和计算与数学学院(InstituteforComputationalandMathematicalEngineering)联合开设,授予的学位为数据科学方向的统计学理学硕士(M.S.inStatistics:
DataScience)。
共开设有29门课程[17],分为以下5个模块:
基础课程模块:
数值线性代数(NumericalLinearAlgebra)、离散数学与算法、优化论、工程中的随机方法(StochasticMethodsinEngineering)以及随机算法与概率分析(RandomizedAlgorithmsandProbabilisticAnalysis);数据科学模块:
统计推理导论、回归模型及方差分析导论、统计模型导论、现代应用统计学:
学习以及现代应用统计学:
数据挖掘;高级科学编程及高性能计算(AdvancedScientificProgrammingandHighPerformanceComputing)模块,涉及的课程有高级科学编程(AdvancedScientificProgramming)、并行计算导论、分布式算法与优化论、数值分析的并行方法、并行计算、并行计算机的架构及编程以及高级多核系统;专业选修(SpecializedElectives)模块,设有以下课程:
计算分子生物学中的表示与算法(RepresentationsandAlgorithmsforComputationalMolecularBiology)、数据驱动型医学(DataDrivenMedicine)、面向现代生物学的统计学、社会与信息网络分析、机器学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 推荐 数据科学与大数据技术专业特色课程研究 数据 科学 技术 专业 特色 课程 研究