TSQL查询进阶数据集之间运算.docx

资源ID：484629 资源大小：1.61MB 全文页数：86页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

TSQL查询进阶数据集之间运算.docx

1、TSQL查询进阶数据集之间运算简介数据库范式在数据库设计中的地位一直很暧昧，教科书中对于数据库范式倒是都给出了学术性的定义，但实际应用中范式的应用却不甚乐观，这篇文章会用简单的语言和一个简单的数据库DEMO将一个不符合范式的数据库一步步从第一范式实现到第四范式。范式的目标应用数据库范式可以带来许多好处，但是最重要的好处归结为三点： 1.减少数据冗余（这是最主要的好处，其他好处都是由此而附带的） 2.消除异常（插入异常，更新异常，删除异常） 3.让数据组织的更加和谐但剑是双刃的，应用数据库范式同样也会带来弊端，这会在文章后面说到。什么是范式简单的说，范式是为了消除重复数据减少冗余数据，从

2、而让数据库内的数据更好的组织，让磁盘空间得到更有效利用的一种标准化标准，满足高等级的范式的先决条件是满足低等级范式。(比如满足2nf一定满足1nf)DEMO 让我们先从一个未经范式化的表看起,表如下：先对表做一个简单说明，employeeId是员工id,departmentName是部门名称，job代表岗位，jobDescription是岗位说明，skill是员工技能，departmentDescription是部门说明，address是员工住址对表进行第一范式(1NF) 如果一个关系模式R的所有属性都是不可分的基本数据项，则R1NF。简单的说,第一范式就是每一个属性都不可再分。不符合第一范

3、式则不能称为关系数据库。对于上表，不难看出Address是可以再分的，比如”北京市XX路XX小区XX号”，着显然不符合第一范式，对其应用第一范式则需要将此属性分解到另一个表,如下:对表进行第二范式(2NF)若关系模式R1NF，并且每一个非主属性都完全函数依赖于R的码，则R2NF简单的说，是表中的属性必须完全依赖于全部主键，而不是部分主键.所以只有一个主键的表如果符合第一范式，那一定是第二范式。这样做的目的是进一步减少插入异常和更新异常。在上表中，departmentDescription是由主键DepartmentName所决定，但却不是由主键EmployeeID决定，所以department

4、Description只依赖于两个主键中的一个，故要departmentDescription对主键是部分依赖，对其应用第二范式如下表：对表进行第三范式(3NF)关系模式R Y）, 使得XY，YZ，成立，则称R中若不存在这样的码X、属性组Y及非主属性Z（Z 3NF。简单的说，第三范式是为了消除数据库中关键字之间的依赖关系，在上面经过第二范式化的表中，可以看出jobDescription(岗位职责)是由job(岗位)所决定，则jobDescription依赖于job,可以看出这不符合第三范式，对表进行第三范式后的关系图为：上表中，已经不存在数据库属性互相依赖的问题，所以符合第三范式对表进行BC范

5、式(BCNF)设关系模式R1NF，如果对于R的每个函数依赖XY，若Y不属于X，则X必含有候选码，那么RBCNF。简单的说，bc范式是在第三范式的基础上的一种特殊情况，既每个表中只有一个候选键（在一个数据库中每行的值都不相同，则可称为候选键），在上面第三范式的noNf表中可以看出，每一个员工的email都是唯一的（难道两个人用同一个email?）则，此表不符合bc范式，对其进行bc范式化后的关系图为:对表进行第四范式(4NF)关系模式R1NF，如果对于R的每个非平凡多值依赖XY（Y X），X都含有候选码，则R4NF。简单的说，第四范式是消除表中的多值依赖，也就是说可以减少维护数据一致性的工作。对

6、于上面bc范式化的表中，对于员工的skill，两个可能的值是”C#,sql,javascript”和“C#，UML,Ruby”,可以看出，这个数据库属性存在多个值，这就可能造成数据库内容不一致的问题，比如第一个值写的是”C#”,而第二个值写的是”C#.net”,解决办法是将多值属性放入一个新表，则第四范式化后的关系图如下：而对于skill表则可能的值为:总结上面对于数据库范式进行分解的过程中不难看出，应用的范式登记越高，则表越多。表多会带来很多问题：1 查询时要连接多个表，增加了查询的复杂度2 查询时需要连接多个表，降低了数据库查询性能而现在的情况，磁盘空间成本基本可以忽略不计，所以数据冗余

7、所造成的问题也并不是应用数据库范式的理由。因此，并不是应用的范式越高越好，要看实际情况而定。第三范式已经很大程度上减少了数据冗余，并且减少了造成插入异常，更新异常，和删除异常了。我个人观点认为，大多数情况应用到第三范式已经足够，在一定情况下第二范式也是可以的。由于本人对数据库研究还处于初级阶段，所以上述如有不当之处，还望高手不吝指教SQL查询入门(上篇) 引言 SQL语言是一门简单易学却又功能强大的语言，它能让你快速上手并写出比较复杂的查询语句。但对于大多数开发者来说，使用SQL查询数据库并没有一个抽象的过程和一个合理的步骤，这很可能会使在写一些特定的SQL查询语句来解决特定问题时被”卡”住，

8、本系列文章主要讲述SQL查询时一些基本的理论，以及写查询语句的抽象思路。SQL查询简介 SQL语言起源于1970年E.J.Codd发表的关系数据库理论，所以SQL是为关系数据库服务的。而对于SQL查询，是指从数据库中取得数据的子集,这句话貌似听着有些晦涩是吧，下面通过几张图片简单说明一下：假如一个数据库中只有一个表，再假如所有数据如下图(取自AdventureWork示例数据库): 而对于子集的概念,look下图: 最后,子集如下：其实，SQL中无论多复杂的查询，都可以抽象成如上面的过程.精确查询的前置条件对于正确取得所需要的数据子集.除了需要思路正确并将思路正确转变为对应SQL查询语句

9、之外。还有很重要的一点是需要数据库有着良好的设计.这里的良好设计我所指的是数据库的设计符合业务逻辑并至少实现第三范式,对于实现第三范式，这只是我个人观点，对于范式的简单介绍，请看我的博客:数据库范式那些事.如果数据库设计很糟糕，存在很多冗余，数据库中信息存在大量异常，则即使SQL写的正确，也无法取得精确的结果。两种方式，同一种结果在SQL中，取得相同的数据子集可以用不同的思路或不同的SQL语句，因为SQL源于关系数据库理论，而关系数据库理论又源于数学，思考如何构建查询语句时，都可以抽象为两种方法: 1.关系代数法关系代数法的思路是对数据库进行分步操作，最后取得想要的结果. 比如如下语句:S

10、elect Name,Department,AgeFrom Employeewhere Age20 关系代数的思路描述上面语句为:对表Employee表进行投影(选择列)操作，然后对结果进行筛选，只取得年龄大于20的结果. 2.关系演算法相比较关系代数法而言，关系演算法更多关注的是取得数据所满足的条件.上面SQL可以用关系演算法被描述为：我想得到所有年龄大于20的员工的姓名，部门和年龄。为什么需要两种方法对于简单的查询语句来说，上面两种方法都不需要.用脚就可以想出来了。问题在于很多查询语句都会非常复杂。对于关系演算法来说更多的是关注的是所取出信息所满足的条件，而对于关系代数法来说，更多关

11、注的是如何取出特定的信息.简单的说，关系演算法表示的是”what”,而关系代数法表达的是”how”.SQL语句中所透漏的思路，有些时候是关系代数法，有些时候是关系演算法，还有些是两种思路的混合. 对于某些查询情况，关系代数法可能会更简单，而对于另外一些情况，关系演算法则会显得更直接.还有一些情况.我们需要混合两种思路。所以这两种思维方式在写SQL查询时都是必须的.单表查询单表查询是所有查询的中间状态，既是多个表的复杂查询在最终进行这种连接后都能够被抽象成单表查询。所以先从单表查询开始。选择列的子集根据上面数据子集的说法，选择列是通过在select语句后面添加所要选择的列名实现的：比如下面

12、数据库中通过在select后面选择相应的列名实现选择列的子集. 相应sql语句如下：SELECT Name ,GroupName FROM AdventureWorks.HumanResources.Department选择行的子集选择行的子集是在Sql语句的where子句后面加上相应的限制条件，当where子句后面的表达式为“真”时，也就是满足所谓的“条件”时，相应的行的子集被返回。 where子句后面的运算符分为两类，分别是比较运算符和逻辑运算符. 比较运算符是将两个相同类型的数据进行比较，进而返回布尔类型(bool)的运算符，在SQL中，比较运算符一共有六种，分别为等于(=),小于()

13、,小于或等于（=）以及不等于(),其中小于或等于和大于或等于可以看成是比较运算符和逻辑运算符的结合体。而逻辑运算符是将两个布尔类型进行连接，并返回一个新的布尔类型的运算符，在SQL中，逻辑运算符通常是将比较运算符返回的布尔类型相连接以最终确定where子句后面满足条件的真假。逻辑运算符一种有三种，与（AND），或（OR），非（NOT）. 比如上面，我想选择第二条和第六条，为了说明比较运算符和逻辑运算符，可以使用如下Sql语句：SELECT Name ,GroupName FROM AdventureWorks.HumanResources.Department WHERE Departmen

14、tID1 and DepartmentID5 and DepartmentID于（And）非（Or）当然，运算符也可以通过小括号来改变优先级，对于上面那个表对于不加括号时：SELECT * FROM AdventureWorks.HumanResources.Department WHERE DepartmentID=1 and DepartmentID=5 or DepartmentID=1 and DepartmentID=5 or DepartmentID（大于）、=（大于或等于）、=（小于或等于）、（不大于）、!（不小于）和（不等于）。当然，限制条件所涉及的两个列的数据类型必须匹配

15、. 对于上面的查询语句，如果将on后面限制条件由等于改为大于:SELECT * FROM Class c inner join Student s on c.ClassIDs.StudentClassID 则结果从第一步的笛卡尔积中筛选出那些ClassID大于StudentClassID的子集: 虽然上面连接后的表并没有什么实际意义，但这里仅仅作为DEMO使用:-) 关系演算上面笛卡尔积的概念是关系代数中的概念，而我在前一篇文章中提到还有关系演算的查询方法.上面的关系代数是分布理解的，上面的语句推导过程是这样的：“对表Student和Class进行内连接，匹配所有ClassID和Studen

16、tClassID相等行，选择所有的列” 而关系演算法，更多关注的是我想要什么,比如说上面同样查询，用关系演算法思考的方式是“给我找到所有学生的信息，包括他们的班级信息，班级ID，学生ID，学生姓名” 用关系演算法的SQL查询语句如下：SELECT * FROM Class c , Student s where c.ClassID=s.StudentClassID 当然，查询后返回的结果是不会变的：外连接假设还是上面两个表，学生和班级.我在学生中添加一个名为Eric的学生，但出于某种原因忘了填写它的班级ID：当我想执行这样一条查询：给我取得所有学生的姓名和他们所属的班级:SELECT s

17、.StudentName,c.ClassName FROM fordemo.dbo.Student s inner join fordemo.dbo.Class c on s.StudentClassID=c.ClassID 结果如下图: 可以看到，这个查询“丢失”了Eric. 这时就需要用到外连接，外连接可以使连接表的一方，或者双方不必遵守on后面的连接限制条件.这里把上面的查询语句中的inner join改为left outer join:SELECT s.StudentName,c.ClassName FROM fordemo.dbo.Student s left outer join

18、fordemo.dbo.Class c on s.StudentClassID=c.ClassID 结果如下： Eric又重新出现. 右外连接右外连接和左外连接的概念是相同的，只是顺序不同，对于上面查询语句，也可以改成:SELECT s.StudentName,c.ClassName FROM fordemo.dbo.Class c right outer join fordemo.dbo.Student s on s.StudentClassID=c.ClassID 效果和上面使用了左外连接的效果是一样的. 全外连接全外连接是将左边和右边表每行都至少输出一次,用关键字”full oute

19、r join”进行连接，可以看作是左外连接和右外连接的结合.自连接谈到自连接，让我们首先从一个表和一个问题开始：上面员工表(Employee)，因为经理也是员工的一种，所以将两种人放入一个表中，MangerID字段表示的是当前员工的直系经理的员工id. 现在，我的问题是，如何查找CareySon的经理的姓名? 可以看出，虽然数据存储在单张表中，但除了嵌套查询(这个会在后续文章中讲到)，只有自连接可以做到.正确自连接语句如下:SELECT m.EmployeeName FROM fordemo.dbo.Employee e inner join fordemo.dbo.Employee m

20、on e.ManagerID=m.id and e.EmployeeName=Careyson 在详细解释自连接的概念之前，请再看一个更能说明自连接应用之处的例子: 这个表是一个出席会议记录的表，每一行表示出席会议的记录(这里，由于表简单，我就不用EmployeeID和MeetingID来表示了，用名称对于理解表更容易些) 好了，现在我的问题是:找出既参加“谈论项目进度”会议，又参加”讨论职业发展”会议的员工乍一看上去很让人迷惑是吧,也许你看到这一句脑中第一印象会是:SELECT EmployeeName FROM fordemo.dbo.MeettingRecord m where Mee

21、tingName=? and meetingName=?1 （我用的代码高亮插件不支持中文，所以上面where子句后面第一个字符串是谈论项目进度，第二个是讨论职业发展）恩，恭喜你，答错了如果这样写将会什么数据也得不到.正确的写法是使用自连接！自连接的是一种特殊的连接，是对物理上相同但逻辑上不相同的表进行连接的方式。我看到XX百科上说自连接是一种特殊的内连接,但这是错误的,因为两个相同表之间不光可以内连接，还可以外连接，交叉连接在进行自连接时，必须为其中至少一个表指定别名以对这两个表进行区分！回到上面的例子，使用自连接，则正确的写法为:SELECT m.EmployeeName FROM fordemo.dbo.MeettingRecord m, fo

注意事项

本文（TSQL查询进阶数据集之间运算.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。