在大型的虚拟社会网络的映射社区.docx
- 文档编号:11410106
- 上传时间:2023-05-31
- 格式:DOCX
- 页数:15
- 大小:30.35KB
在大型的虚拟社会网络的映射社区.docx
《在大型的虚拟社会网络的映射社区.docx》由会员分享,可在线阅读,更多相关《在大型的虚拟社会网络的映射社区.docx(15页珍藏版)》请在冰点文库上搜索。
在大型的虚拟社会网络的映射社区
在大型的虚拟社会网络的映射社区
摘要:
本文描述了一个社交网站Twitter的数据集从一个大的N多方法的方法来界定“现实世界”的社会实践。
起点是一个独立(“独立”)的开发人员创建苹果的Macintosh和iPhone平台软件的虚拟社区以前的定性研究。
独立开发一直活跃在Twitter的早期阶段,从他们使用Twitter来维持同行,交流技术信息和病毒的“回音室”的营销之间的相互作用。
公开的TwitterAPI用于开采几百万的边缘,这是一个大的网络,通过几种修剪方法含有大约1万边缘大小组成的一个网络。
快速贪婪算法,然后用在这个庞大的网络检测的子图。
三角定性数据证明,快速贪婪算法能够提取有意义的社区,从大,噪音大和虐待划定的网络。
这种方法的准确性产生了为企业和市场研究的价值的讨论,因为它提供了机会,以确定和监测在细粒度级别的目标受众。
但是,我们应该警惕隐私和道德方面的严重后果。
建议多方法方法允许从宏观数据集,其中个人的Twitter用户可能完全不知道的微观层面的推论。
结果可能为落后的社会和政治运动或任何其他社区的成员活跃在Twitter或其他社会网络的幕后关键人物不愿透露姓名的后果。
关键词:
社会网络软件,Twitter的独立开发的企业家社会网络分析,社会检测。
导言
社交软件正日益成为我们的社会生活中不可缺少的功能。
它会影响我们如何与我们的朋友,我们如何保持接触,而地理上分开的,它允许在某些行业的企业蓬勃发展,因为他们是距离摩擦缓解。
产生大的虚拟社会网络是一个有意义的社会实体-因为他们塑造的社会实践-有趣的数据源和学者。
然而,进入在线网络壁垒普遍较低,引入噪声产生的在线数据。
为了能够使任何推论,实际有意义的社会关系的水平上,我们需要从噪音是从网上资源开采的任何数据。
本文将解决这个问题,并提出去噪大N网络,从社会软件平台Twitter1的获得方法。
本文评估的早期社会的网络结构
1
Twitter的采用的独立Mac开发者社区。
我们建立在以前对这个社会进行的定性研究[1,2],并使用这些定性的结果,来评估我们提出的方法来推断从社会意义不明确的,嘈杂的大N集社区的有效性。
本文拟用于以下两个目的,社会网络分析:
1)隔离和对应的非主流的Mac社区,非主流发烧[1]从虐待分隔嘈杂的大N虚拟网络从Twitter开采研究;2)描述这个社区的社会结构,通过分析各种网络的措施。
纸是建立如下:
第二部分简要介绍了现有文献的一些社会检测。
第三,四对独立开发社区提供必要的背景,他们利用社会性软件和某些关键人物的角色-社会-或tastemakers。
在第五部分中,我们奠定了我们使用的方法来推断,从一个大的,嘈杂的在线社交网络对社会有意义的社区。
第六节提出的网络映射的结果,并证实整个网络的网络特性及其明显的子社区。
第七节论述,通过分析该子网络措施的非主流社会的内在属性。
第八节讨论的有效性,潜在的商业价值,社会和法律问题,以及潜在的道德风险所描述的方法问题。
第9平作进一步研究的一些结论和草图途径。
二。
文献回顾
西美尔的里程碑式的作品在上个世纪之交以来一直是社会科学家的魅力境界的理论和技术进步,结构的一组概念的定义。
[3]在网络中认识子的早期贡献了“自下而上”的方式,从个别成员和其连接到其他考虑,建立从微观到宏观的结构。
[4]1949年,卢斯和佩里介绍了一个集团,其中的所有成员都直接连接到所有其他成员,否则作为一个完整的子概念。
[5]这个概念的一系列变化,接着在随后的几十年,放宽严格的距离要求:
集团N-[6],N-氏族[7],N-俱乐部[8];此外,严格的密度要求:
组件[9],K-plex的[10],K-核心[11]。
于1983年,塞德曼建议,LS集的电气工程概念可能提供有用的网络形式化的社会学概念的一组。
[12,13]的LS-集的定义等,每个人都有其适当的子集
连接到组内比在较大的网络之外的其他参与者,其补。
在1990年Borgatti,埃弗雷特和Shirey的的放宽,在各个方向的严格LS集。
[14]他们介绍了计算的lambda设置为2步算法评价为基础,在一个多少的总流量在网络中的演员通过连接[15,16]方面的网络连接,然后应用层次聚类[17]。
这种方法不同于以上的技术研究小组,从整个网络的角度出发,从宏观结构微观结构。
在2002年,格文和纽曼物理学家提出了一个具有里程碑意义的“自上而下”的方法寻找措施边缘介,弗里曼的节点中介中心[18,19]的推广基于网络的子。
其算法的计算结果对沿连接运行的演员之间的最短路径的数目方面,在每个网络连接[20],除去最高的“中间连接,和迭代。
radicchi等适用于本地的方法为基础的措施,边缘集群,节点集群的推广。
[21]为了促进有意义的群体对象的歧视,他们还推出了社区的强与弱,类似,分别到LS集和K-内核的定义。
2004年,纽曼和格文介绍了模块化的概念,计算组内减去预期的分数,但在同一社区部门的等效网络与演员之间的随机连接的外来连接的一小部分。
[22]模块化,可以是正面或负面的,正面的价值观,表明可能存在的社会结构。
在一系列的进步,迅速在未来两年之后,物理学家介绍了模块化划分网络技术,如各种优化方法:
模拟退火[23,24,25],短[26]随机游动,快速贪婪算法[2728],极值优化[29],光谱图的分区结合微调搜索[30,31]。
模块化优化算法已在IGRAPH实施[32],一个开放源码的网络分析软件包在R[33]。
由于快速的贪婪算法是唯一能够处理数百万节点的网络,我们用这个在我们的分析。
然而,重要的是要注意从古典社会的重要途径检测问题,我们的问题是不同的。
在我们的例子中,我们想恢复社会网络是不明确。
就不可行鉴于Twitter的API的排雷的所有用户的整个Twitter的网络的限制-在四月2010.2,3,我们继续在1迭代方法,因此超过107万美元的账户组成,由有关网络的定性知识指导正在研究,采用模块化的快速贪婪优化连同其他社会网络分析技术,多方法的方法的一部分。
23此外,Twitter网络的动态特性,创建了一个情况,即即使限速的限制被取消,它是可行的挖掘整个网络,这将需要的时间会这么长的时间,“最后”节点将开采,较早开采节点的连接将最有可能显着改变。
第三。
加上独立的MAC社区
“独立制作的Mac”的开发者社区是指一组独立的软件公司,苹果公司的Macintosh平台开发软件。
他们中的绝大多数都是一人店,除了比较成功的,有时有少数员工(虽然十余是罕见的)。
这些公司出售他们的软件在互联网上的全球市场,规避传统物质生产和分配的成本,这需要大量的资本投资。
尽管事实上,这些软件公司可以彼此视为竞争对手,它们之间有一个活泼的互动。
这样做,主要是通过在线方式,因为它们很少被身体共同位于。
随着时间的推移,特定的非主流文化和习性其中,导游之间的相互作用和独立开发非正式的社会阶层[2]。
他们可以被认为是虚拟社区的做法[34]具体习性及相关的隐性知识嵌入在它引导Mac软件应该如何看,感觉和功能的想法。
自2008年3月引进iPhone开发平台第三方软件开发商,苹果的Cocoa软件开发技术(Mac和iPhone的软件开发技术密切相关),大大增加了开发人员的数量。
一些传统工作在Mac平台上的独立开发者还开发iPhone软件。
此前有研究表明,虽然绝大多数的iPhone开发者不认同传统的Mac开发者社区,有一个核心。
通过博客上的互动,像苹果公司的年度全球开发者大会[35]的事件,这些开发商拿地集成在更广泛的苹果开发者社区。
四。
在线通讯和虚拟社会网络的作用
软件可以被视为社会的非主流社会的基础设施骨干。
在以往的定性实地考察的时间是2008年2月期间,在使用各种一到,一到多,许多到许多社会性软件。
据报道,经常使用博客,邮件列表,IRC聊天,维基,聊天客户端和Twitter(这是对当时的崛起陡)。
当分析功能,独立开发的网上行为大致执行三个功能:
识别和社会化,信息化需求的满意度,市场营销[1]。
在本节中,这些功能将被突出显示,Twitter的重要性和的作用tastemakers将加以解释。
A.鉴定和社会
过多的博客,邮件列表和在线聊天,共同营造一个“非主流身份”,“归属感”和“行业特定的文化”,是实践社区的特点。
它传播隐性知识4和良好的非主流“的软件应该如何”,感觉和功能,如何正确在开发中的行为应该
4参考文献[1],第51-52阐述了为什么这次网上知识仍应被视为“默契”,尽管事实上,知识的来源是无处不在。
进行。
除了软件的质量,“适当”的网上行为起到了很大作用,其中印度举行崇高的敬意,他们的同龄人[2]。
[36]非主流社区内,在这种方式获得的象征性资本可以利用,以提高“回音室”的营销,获得其他开发商和可能获得苹果公司
B.信息需求的满意度
上网行为的第二个功能是,它帮助印度在空间上分散的信息传播。
在线网络工作作为一个“虚拟饮水机”[37]。
他们帮助提供同侪友爱和友谊,同时编码软件,它可以是一个漫长的孤独的任务。
此外,它允许印度传播业界盛传,编码问题上得到帮助和承包工作的人申请参考。
三市场
最后,独立开发的在线网络,发挥他们的软件市场营销中的作用。
非主流市场-因为缺乏物质生产和分销成本-被认为是一个“长尾巴”的市场[38]。
该产品可与互联网连接的人,但人们需要找到它,欣赏它,为了买它。
这意味着,在网上曝光是在市场营销和经济成功的主要因素是让你的软件过去有一定的“临界点”[39]得出的关键因素。
因为在互联网上是非常高的信号信噪比,有高的潜在增加值同行的软件产品的建议。
印度利用回声作为同行评议的形式销售。
如果一个新的软件标题被释放,其他开发商认可,如果他们欣赏它-通常,只有当他们共同欣赏的软件名称和开发商是谁做的。
这些签注去通过在线网络,往往达到的Macintosh世界的专业新闻记者。
因此,在线网络的规模和结构,和其他开发商和中介机构的倾向,以“回声”的消息影响经济的一个非常高的程度[2]开发成功。
四Twitter的
Twitter已经增长742%,在2008年5月,是目前采用全球最新的Web2.0创新,以达到广大观众,政治家和名人。
然而,Twitter的独立Mac社区内,获得了用户的关键质量比较早,它的用途是无处不在实地考察的时间,今天仍然是。
这个快速采用的原因之一,是一个众所周知的Iconfactory的CraigHockenberry,独立开发,研制为Twitter桌面客户端,这让Twitter在后台运行,使用户可以专注于其他事情。
Twitter的背后的想法是,你可以发布在互联网上最大的140个字符,随后大家谁是“继”你可以通过阅读消息。
你只能得到你遵循这些人的消息。
这允许您同时播出一条消息,很多人同时能够达到你的信息的数量限制。
问世后,采取的iPhone,很多Twitter的活动已转移到该平台。
各种Twitter客户端
5
为iPhone提供,并有一个快节奏,但友好表示对创新的竞争,它们之间的(凯尔巴克斯特,07-05-2009)6。
大肠杆菌的tastemakers的作用
在这样的营商环境,这是显而易见的社会资本的作用,在一家公司的经济机会。
您的社会认可的软件,可以在经济方面的巨大的财富。
这个代言通常如下遵守指南“正确”的行为在社会审美和社会话语。
强调对文化产业的文学tastemaking演员在这方面的作用[40]。
一个创造者-唐宁可以被定义为中介演员,谁产生,往往象征功率和使用权力,例如代言,帮助选定的作家,成为经济成功。
纵观历史,作出新的人才著名记者,艺术评论家和著名艺术家发挥了重要的角色:
例如,可以发现在19世纪的音乐行业或法国文学领域[40,41]。
受访者承认,这些“tastemakers”在独立Mac社区中发挥的重要作用,特别是因为这些人往往作为一个组的开发和关键用户的第一层之间的桥梁功能。
循环作为一项重要的创造者-唐宁出现的人是科技记者约翰·格鲁伯,维护DaringFireball的blog.7格鲁伯,谁拥有计算机科学的教育背景,被认为是一个重要的软件“鉴赏家”和两个高新技术产业内幕独立开发和更广泛的观众。
DaringFireball的RSS源有超过15万的用户和网站每星期130万页面访问量的估计数。
8的创造者-唐宁的作用,也标志着他的Twitter统计。
他于2009年5月16日,有27191追随者,而只有311人-谁是互惠。
五,通过社会网络分析的量化定性分析的可能性
研究虚拟社区的实践,没有注册会员时的问题之一是缺乏界定人口的手段。
成员是一个程度的问题,是模糊的实际开发之间的界限,热心网友贡献[42],记者和其他二级代理商和噪声。
尽管有这些困难,定性的证据推断,在社区内有一个共享的习性,文化,可比通常更正式的组织边界内发现[43]。
在本节中,我们设置了检测Twitter是在嘈杂的大型网络社区。
由于约翰·格鲁伯是针对印度作为一个重要的创造者-唐宁最好的例子,我们可以假设之一约翰的分离程度内可以发现,大多数开发者独立开发领域的一部分[1],使用Twitter格鲁伯的Twitter网络。
68/饲料/赞助商/
一旦位于特定的非主流社区,我们可以使用措施,分析了独立开发的社区内部分层的网络中心。
这将7节中阐述。
A.第一阶段数据采集
Twitter的网络是一个有向网络。
用户可以按照其他用户,但这个环节并不一定是相互的。
在Twitter上发言,每个用户都拥有“追随者”(出度)和“朋友”(度).9
约翰·格鲁伯最初是用来作为网络的起点。
格鲁伯2度之内的每个用户都包括在内。
在实践中,这意味着大家谁格鲁伯是“继”(约300个用户),或跟随他(27,000用户),所有用户都跟随他们或者是这些用户的朋友。
对于网络中的每个节点,我们将存储元数据,包括名称,位置,描述,加入日期,鸣叫源(Twitter客户端)和发布的鸣叫总数。
从Twitter收集数据,我们使用相结合的技术:
Twitter的API服务,10的Ruby脚本采矿的一部分,和MySQL来存储数据。
Twitter提供了一个广泛的搜索和RESTAPI,从“用户/显示”,“朋友/IDS”和“追随者/IDS”的方法是使用。
我们将与Twitter的API接口,使用Ruby宝石白头翁。
一个Ruby脚本编写:
1)丰收的所有朋友和追随者使用“朋友/IDS”和“追随者/IDS”从API的方法;2)收集这些节点的元数据;3)递归收成这些节点上的所有朋友和追随者4)收集这些节点的元数据;5)存储在MySQL数据库中的所有数据。
二修剪
这28万边缘和4万个顶点的巨大网络中的数据收集结果的第一阶段。
我们现在1格鲁伯分离度切断网络,但我们把所有的改变,在这种情况下之间的边缘。
我们现在有27218节点和150万边一个自我网络。
尽管相当小,这个网络还包含了很多体制不是由一个人单独维护的Twitter帐户和其他帐户所造成的噪音。
我们认为,任何个人,这是不可能按照600多人。
随着Twitter用户量只会导致在一个完整的信息超载。
作为真实的,个别的,用户使用Twitter的通信和信息的目的完全相同,排除了所有用户,按照600多人,是一个良好的去噪网络。
消除这些用户产生相当小的约22,000节点44万边缘网络。
C.社区检测
对于这个网络的分析,我们将使用一个开源的统计软件R和其社会网络分析的图书馆之一,IGRAPH组合。
为了查明的非主流
9无论是追随者和朋友应被视为或学位是有争议的,我们选择遵循信息流的方向,这些追随者是出度。
10
开发者社区,边列表装成河,要检测的独立的社会,我们使用快速开发Clauset,纽曼和摩尔(CNM)的贪婪算法。
它是专门设计检测非常大的网络中的社会结构有一个相对较低的计算成本。
它最初是在A建议网络测试,其中边在亚马逊商店的两个对象之间绘制,如果多个客户都买。
该算法发现在这个网络中有意义的社区,划分成类,如他们的爵士乐,工程,儿童视频的,等[28]在我们的情况下的快速贪婪算法产生5子图的最大的模块化(0.33),包含分别为5577,8780,445,6172和780节点。
D.定性野外数据的三角
三角与定性考察数据[2]显示,所有受访者从以往的研究可以发现子4(6172节点)。
这给了足够的理由相信,4子包含独立开发集群。
从而计算此子网络的中心测量器(度和出度中心,接近中心,中介中心和特征向量的中心)。
11
从中央节点的分析,它变得清晰格鲁伯的自我网络,虽然给人一种明显的非主流社会的全貌,也有一些缺少的重要组成部分。
因此,我们将额外的自我介绍,并挖掘他们相同的数据,因为我们做格鲁伯。
E.第二阶段的数据采集
其中的额外的自我是在检测到社区最核心的(特征向量的中心)的15节点和7个额外的自尊心根据从实地调查数据的定性结果。
因此,现在有23自我(包括约翰·格鲁伯)被用来作为新的起点,重复相同的过程描述为第一阶段的数据收集点。
F.重新修剪
然后,我们应用此扩展网络上相同的修剪过程再次把它背下来,以便于管理和有意义的比例。
唯一的选择节点内从上述名单中的自我分离的程度。
这样的结果约52,000节点的网络。
然后,我们选择只有那些节点与上述相同的假设的基础上,按照其他用户少于600。
这样的结果,我们将使用作进一步的分析和最终网络组成的40512顶点和1023317边缘。
G.社区重新检测
我们这个网络上运行的快速贪婪算法,再次获得见真章,比格鲁伯的自我网络为基础的独立开发社区更准确。
该算法产生最高的模块化(0.34),与5个社区分别与13978,11522,591,1428和12669节点。
虽然是比较低的-最有可能的后果-一个数据挖掘方法的模块化三角定性数据显示,检测生产但有见地的结果。
所有印度现在在
11这些详细的表,这里不包括由于空间的限制,以及潜在的隐私问题和法律问题。
子五(N=12669),这是后来被称为“非主流社会。
”
下面的部分将探讨完整的网络和非主流社区子,并根据“说明”每个用户领域的各种子图之间建立一些质的区别。
这说明提供由用户和经常提示用户有占领。
六。
比较整个网络和独特的非主流网络
正如已经指出,最终的网络组成了五个不同的社区,由全国妇女委员会的快速贪婪算法检测。
我们解释,在“描述”字段中使用频率词表,看看是否该算法确实提供定性有意义的区分不同的子社区。
为了便于分析,我们世界的云转换的频率表,这是什么图形表示一个字的频率。
该地块具有较高的频率比那些话,复发少较大的话。
在我们的例子,它给每个社区的本质洞察眼一瞥。
对于本文中,我们使用Wordle12提供的服务,因为它可以过滤掉,以取得更好的成绩在英语常用词。
所有节点的描述字段,汇总成一个大的文本文件,然后喂到Wordle服务。
总网络和各子图的不同的词云是可视化。
13字的总网络云显示了格鲁伯的博客读者的利益,反映:
我们可以清楚地辨别各种创意产业和技术相关的关键字,我们希望一个创造性的技术大师。
喜欢摄影,设计,音乐,网络,技术,媒体,怪胎和开发中的关键字脱颖而出(图1)。
,截然不同的社区五-印度-似乎相当整齐地捕捉软件开发商的利益。
这样的关键词:
苹果,开发,iPhone手机,软件和苹果中脱颖而出。
这已经是一个定性的反映,5条社区检测-不使用关键字的数据,而仅仅依赖于边缘-相当孤立有关的社会,在整个网络的良好工作。
只有社区三个,其中只有591名成员似乎有一个相关的重叠,但一般是5比社区更多样化。
社区两个有趣的是,因为它似乎捕捉格鲁伯观众的另一个特定领域:
网络,开发,设计,主宰这个子。
这些关键字指明对像Web开发和设计,这是一个从Mac/iPhone软件开发的不同领域的话题的兴趣。
最后,社区和四个显示的关键字更多样化的收集。
他们喜欢音乐,摄影和媒体捕获其他创意领域,并显示一个“消费者”的关键字如风扇,学生,怪胎和爱好者的程度更高。
答:
网络中心措施
本节将提供数据分析五,对社会的非主流社会。
对于所有在社区(n=12699),在入度和出度的中心,接近中心,中介中心和特征向量的中心节点进行计算。
随后根据这五个centralities,分别排在所有节点接收的最高的中心地位,第二个最高的位置,等等。
中的非主流社会的背景下,根据不同centralities排名具有以下含义:
1)在学位中心地位:
在开发网络(总格鲁伯网络社区五)其他演员一个给定的演员是以下(即收到的信息从)。
2)出度为中心开发的网络社区中的其他演员,按照给定的演员(即一个给定的演员,将信息发送到)的数量。
节点具有较高的出度的中心排名(演员),往往是在非主流社会非常流行。
3),接近中心:
接近中心的一项措施表明[19]在网络的其他节点,一个节点的总距离。
在本文中,我们使用一个倒置的措施,也就是说,得分最高的节点相对最接近网络中的所有其他节点。
4)中间中心:
中介中心表示节点往往属于在其他两个节点之间的最短路径。
[19]
5)特征向量特征向量的中心:
核心是设计来衡量社会网络内的“权力”[44]的一项措施。
与特征向量排名高得分的节点连接到其他节点,具有很高的
特征向量的中心。
因此,特征向量的中心是一个有力的工具,以确定在网络连接方面的“核心”的社区。
特征向量的中心地位将被用来作为主在本节中的排名顺序,因为它是最有力的方式来近似的相对独立开发的同侪团体的地位。
此外,在非主流社会的主题定性交叉检查确认,特征向量centralities排名是非常合理的,有意义的排名从独立开发的角度。
二职业
除了从centralities,我们定性推断占领在每个排名最高的为20个排名节点的节点。
建立了七个不同的“职业”,其中三个在此分析进一步讨论:
1)“开发”,谁不为苹果工作的软件工程师和开发人员的通用类别;2)“苹果”,人们目前受雇于苹果公司;3)“记者,”技术特约记者,流行的博客的维护者,或在技术新闻(在线)杂志的员工。
C.讨论
对于大量的非主流网络的网络,我们可以认为介和亲密centralities说的东西,到网络中的所有节点的节点相对位置的措施,而特征向量的中心说,有关节点位置的东西有关的其他重要节点。
应当指出的是,所有三项措施假设一个对称的网络,这意味着它在理论上是可能的(权利人)来实现网络中的一个高的排名,而无需这些关系相互承认。
度和出度的核心是不对称的措施,因此可以被用来控制这个问题。
演员有高的“自我任命”的特征向量的中心也将显示出度的中心度中心,而是一个相对较低的排名高排名(一个给定的演员,遵循了很多人,解释度排名高,但不是很多人跟随他或她,因此低出度排名)。
描述表中的前二十名的节点,每个核心措施,它们所包含的实际价值,名次,姓名,并占领节点。
14,为了能够比较值,特征向量的中心排名包括在内。
当我们在度centralities看,这是有趣的,除了被用来作为一个起点节点,所有其他节点上的特征向量的排名相对较低的得分。
将需要进一步研究,看看是否这些开发商是“有抱负的开发商”,企图使一个名字在社会上故意继著名的“非主流星”或他们的子社区内的非主流网络的一部分,少聚类比顶级。
前二十程度centralities可能被视为“流行”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大型 虚拟 社会 网络 映射 社区