违反
RNC文件:美国选民最大的数据泄漏

RNC文件:美国选民最大的数据泄漏

UpGuard团队
UpGuard团队
2017年6月19日发布
加入27,000多个网络安全通讯订阅者

尽管此博客文章描述了涉及Deep Root Analytics和共和党全国委员会(RNC)的数据暴露发现,但不再活跃 数据泄露。一旦通知Deep Root Analytics该公开信息,便立即采取行动,保护数据库并防止进一步访问。 

UpGuard的网络风险团队现在可以知道,这是同类中最大的数据公开活动,该数据库配置错误,其中包含代表1.98亿美国选民的敏感个人详细信息的敏感数据已由一家由共和党国民代表工作的公司暴露于互联网中。委员会(RNC)努力选举唐纳德·特朗普(Donald Trump)。数据存储在共和党数据公司拥有的可公开访问的云服务器中 深层分析,其中包括1.1 TB的完全不安全的 个人身份信息(PII) 由DRA和至少其他两个共和党承包商汇编, TargetPoint咨询,Inc.数据信任。总体而言,潜在的个人信息 美国2亿注册选民的全部 暴露的信息包括姓名,出生日期,家庭住址,电话号码和选民登记详细信息,以及被描述为“模拟”选民种族和宗教的数据。

此披露使之前的违反行为相形见war 墨西哥的选举数据 (也由Vickery发现)和 菲律宾人 超过1亿多受影响的个人,暴露了全美国人口中超过61%的个人信息。

数据曝光可让您深入了解共和党全国委员会2016年总统大选的1亿美元数据运作的内部运作情况, 艰巨而艰巨的工作 在2012年Mitt Romney亏损之后成立。Deep Root Analytics,T​​argetPoint和Data Trust(所有共和党数据公司)是RNC雇用的机构中的一员,这些机构是特朗普竞选活动2016年大选数据团队的核心,是共和党努力的基础,以影响潜在的选民并准确预测其行为。 RNC数据存储库最终将获得大约五分之三的美国人约95亿个数据点,并使用四十八种不同类别的高级算法模型对1.98亿潜在美国选民的政治倾向进行评分。

包含这些累积数据的电子表格(最近一次于2017年1月总统就职典礼前后更新)构成了一系列政治数据和特朗普竞选活动使用的偏好模型。此数据还暴露在配置错误的数据库中,并且存在时间未知。

UpGuard的发现-可能是历史上已知最多的选民信息披露-受到技术证据以及负责任公司和政治工作人员的公开声明的佐证。

发现

6月12日傍晚,UpGuard网络风险分析师Chris Vickery代表网络风险团队(UpGuard致力于研究,保护和提高公众对此类风险的研究)Cyber​​ Risk Team搜索配置错误的数据源时发现了一个开放的云存储库。曝光。数据存储库(一个Amazon Web Services S3存储桶)缺乏针对访问的任何保护。这样,只要有互联网连接,任何人都可以通过导航到六个字符的亚马逊子域“ dra-dw”来访问用于推动唐纳德·特朗普总统大选的共和党数据业务。

选民-diagram.png

检查内容后,“ dra-dw”代表“深根分析数据仓库”。 “数据仓库”的概念在现代企业中很常见-本质上,它是专门为复杂分析准备的大量数据集合。 深层分析确认他们拥有并运营dra-dw存储桶,随后在6月14日晚上,即Vickery通知联邦政府之后不久,该存储桶就被禁止公众访问。

仓库中总共有1.1 TB的数据-大约相当于500小时的视频量—完全可下载。在这些文件中,清楚地表明了该存储库的政治重要性,并以许多强大而有影响力的共和党政治组织的文件目录命名。因此,暴露的Deep Root Analytics仓库包含大量可完全访问的数据。

但这还不是全部。仓库中另外存储了24 TB的数据,但已将其配置为阻止公共访问。最终,错误配置的数据库中存储的数据量相当于大约100亿页的文本。

有趣但难以访问的文件(例如标题为“ for_strategy_xroads_updated_FINAL”的文件)的重要性尚不清楚。 由前乔治·W·布什(George W.Bush)顾问卡尔·罗夫(Karl Rove)联合创立的超级十字路口(American PAC),在2016年选举融资中非常活跃。还发现大量Reddit帖子缓存,另存为文本:

redditcontent.png

从6月12日到6月14日,Vickery最终将花费数天的时间下载1.1 TB的公共可访问文件,其中包括名为“ data_trust”和“ target_point”的两个关键目录。

行动

共和党数据公司Deep Root Analytics创建并维护了暴露的数据仓库,由共和党竞选数据科学家Alex Lundry于2013年共同创立,他曾在罗姆尼(Mitt Romney)2012年总统竞选失败中担任数据总监。公司 账单本身 作为“共和党政治上最有经验的目标群体”,为希望达到特定目标人群的公司,游说团体和GOP政治运动提供媒体分析服务。 Deep Root声称能够通过使用大数据分析进行“微观定位”来更有效地覆盖这些所需的受众特征,从而使客户在购买广告时可以做出更明智的决策。

这是一个血统书,在2016年共和党前佛罗里达州州长杰布·布什(Jeb Bush)的共和党总统竞选活动中,伦德里(Lundry)成为“首席分析官”。尽管布什即使在组建了一支具有良好信誉的数据团队后仍无法赢得提名,但特朗普将面临一个反问题,即在没有在竞选活动中创建强大的数据操作的情况下赢得提名。在2016年7月由特朗普提名的GOP初赛正式结束后, 在即将举行的与希拉里·克林顿(Hillary Clinton)的大选之战中,RNC将迅速采取行动,协调其数据团队与特朗普竞选活动的努力.

为了赢得选举,该RNC将需要在几个私营公司专门从事数据分析的资源,大量借鉴。在这些私人顾问中, 数据信任,这家位于华盛顿的公司声称“通过收集,开发和增强选民的文件,不断发展共和党和保守的数据生态系统。”

数据信任,GOP的独家数据提供商”由RNC于2011年创建, 国家评论,“负担构建和管理GOP的选民文件的成本” —它的详细选民信息存储库对于任何成功的选举广告宣传和投票表决至关重要。 据报道 石板,Data Trust作为RNC的私营部门卫星运行,“ RNC是混合型的私营公司,由上司领导建立,但无法正式运营。”

在Deep Root Analytics数据库中,文件夹“ data_trust”似乎包含了该RNC / 数据信任努力的全部成果,以作为2016年潜在选民信息的全面而详细的资料库。

在“ data_trust”中,有两个庞大的个人信息存储库,它们共同代表多达1.98亿潜在选民。主要由两个文件存储库组成,用于2008年总统大选的256 GB文件夹和用于2012年的233 GB文件夹,每个包含五十一个文件-每个州和哥伦比亚特区一个。每个格式为逗号分隔值(.csv)的文件均列出一个内部32个字符的字母数字“ RNC ID”(例如530C2598-6EF4-4A56-9A7X-2FCA466FX2E2),用于唯一地标识每个潜在的投票者在数据库中。这些RNC IDS独特地将不同的数据集链接在一起,结合了数十个敏感的和个人识别的数据点,从而有可能拼凑出大量按姓名指定的美国人的详细信息。

Vickery和记者都在这些电子表格中进行了查找,确认文件中包含准确且敏感的个人信息。这里列出的是.csv类别:

"RNCID", "RNC_RegID", "State", "SOURCEID", "Juriscode", "Jurisname", "CountyFIPS", "MCD", "CNTY", "Town", "Ward", "Precinct", "Ballotbox", "PrecinctName", "CD_Current", "CD_NextElection", "SD_Current", "SDProper_Current", "SD_NextElection", "SDProper_NextElection", "LD_Current", "LDS_Current", "LDProper_Current", "LD_NextElection", "LDS_NextElection", "LDProper_Next选举", "NamePrefix", "FirstName", "MiddleName", "LastName", "NameSuffix", "Sex", "BirthYear", "BirthMonth", "BirthDay", "OfficialParty", "StateCalcParty", "RNCCalcParty", "StateVoterID", "JurisdictionVoterID", "AffidavitID", "LegacyID", "LastActiveDate", "RegistrationDate", "VoterStatus", "PermAbs", "自我报告人口统计", "ModeledEthnicity", "ModeledReligion", "ModeledEthnicGroup", "HHSEQ", "HTSEQ", "RegistrationAddr1", "RegistrationAddr2", "RegHouseNum", "RegHouseSfx", "RegStPrefix", "RegStName", "RegStType", "RegstPost", "RegUnitType", "RegUnitNumber", "RegCity", "RegSta", "RegZip5", "RegZip4", "RegLatitude", "RegLongitude", "RegGeocodeLevel", "RADR_LastCleanse", "RADR_LastGeoCode", "RADR_LastCOA", "ChangeOfAddress", "COADate", "COAType", "MailingAddr1", "MailingAddr2", "MailHouseNum", "MailHouseSfx", "MailStPrefix", "MailStName", "MailStType", "MailStPost", "MailUnitType", "MailUnitNumber", "MailCity", "MailSta", "MailZip5", "MailZip4", "MailSortCodeRoute", "MailDeliveryPt", "MailDeliveryPtChkDigit", "MailLineOfTravel", "MailLineOfTravelOrder", "MailDPVStatus", "MADR_LastCleanse", "MADR_LastCOA", "AreaCode", "TelephoneNUm", "TelSourceCode", "TelMatchLevel", "TelReliability", "FTC_DoNotCall", "PhoneAppendDate", "VH12G", "VH12P", "VH12PP", "VH11G", "VH11P", "VH10G", "VH10P", "VH09G", "VH09P", "VH08G", "VH08P", "VH08PP", "VH07G", "VH07P", "VH06G", "VH06P", "VH05G", "VH05P", "VH04G", "VH04P", "VH04PP", "VH03G", "VH03P", "VH02G", "VH02P", "MT10_Party", "MT10_GenericBallot", "MT10_Turnout", "MT10_奥巴马拒登", "MT10_Jobs", "MT10_Healthcare", "MT10_SoCo", "PG01", "PG02", "PG03", "PG04", "PG05", "PG06", "PG07", "PG08", "PG09", "PG10", "PG11", "PG12", "PG13", "PG14", "PG15", "PG16", "PG17", "PG18", "PG19", "PG20", "PG21", "PG22", "PG23", "PG24", "PG25", "PG26", "PG27", "PG28", "PG29", "PG30", "PG31", "PG32", "PG33", "PG34", "PG35", "PG36", "PG37", "PG38", "PG39"

从潜在选民的名字和姓氏开始-甚至限制了数据集掩盖所描述者的身份的最可能的可能性-文件继续列出了大量数据,包括选民的生日,住所和邮寄地址,电话号码,注册方,自我报告的种族人口统计信息,选民注册状态,甚至他们是否在联邦“请勿打扰”列表中。数据字段还包括潜在选民的“种族模型”和“宗教模型”,历史上一直引起争议的特别敏感的个人详细信息.

虽然不是每个人都填写了每个字段,但如果知道答案,则似乎已经包含了该答案。数据库中还包含一个用于2016年大选的较小文件夹,但与2008年和2012年文件夹不同,该文件夹仅包含俄亥俄州和佛罗里达州的.csv文件-可以说是两个最关键的战场州。需要重复的整个“ data_trust”文件夹可以由任何个人访问数据库的URL完全下载。

数百万美国人的个人信息暴露可能不是暴露的最具破坏性的数据池。要了解其重要性,还需要其他上下文。

RNC为建立世界一流的数据运营而进行的多年努力将是与其他数据公司合作使用Deep Root Analytics来为RNC所做的工作,就像奥巴马的数据团队为民主党所做的那样, 据报道 广告时代 在RNC数据操作的详细选举后配置文件中:

“在这种情况下,负责大部分数据建模和选民评分(尤其是现场操作,选民联系和电视广告)的人员来自RNC聘请的三家数据公司的集合:TargetPoint咨询,Causeway Solutions和Deep Root Analytics,它通过名为Needle Drop的新子公司与RNC正式合作。”

向数据库中提到的两家公司支付的RNC款项总计超过500万美元, 正如据报道 广告时代:

根据联邦选举委员会的报告,在2015年1月至2016年11月期间,RNC向TargetPoint支付了420万美元用于数据服务,并在当时向Causeway支付了约500,000美元。 RNC曾以“ Need Root”的身份向Deep Root支付$ 983,000。

落针原理 TargetPoint咨询在数据库中引用了名为“ target_point”的文件夹(Deep Root Analytics创始人Alex Lundry在2005年至2015年被聘为“首席数据科学家”)。 TargetPoint是一家总部位于弗吉尼亚州亚历山大市的符合GOP的“全方位服务市场研究和知识管理公司”,专门为企业和政治客户提供针对主要受众特征的微观定位-一种策略 他们声称已经开创了 “在布什总统为他成功的2004年竞选活动部署我们的服务之后。”

TargetPoint是保守派政治圈中数据操作方面值得信赖且建立良好的机构,过去曾参与Rudy Giuliani的2008年总统竞选,2008年McCain / Palin竞选以及全国共和党参议院委员会的改选工作。 TargetPoint创始人亚历山大·盖奇(Alexander Gage),前民意测验和市场研究员, 解释给 华盛顿邮报 在2007年 在担任总统候选人米特·罗姆尼(Mitt Romney)的战略总监期间,他的数据分析哲学是:

“'微观定位正在试图揭示您的政治基因,” [Gage]说。 ‘我掌握的关于您的信息越多,越好。"target clusters"带有“旗帜和家人共和党人”或“税收和恐怖分子适度”之类的名称。一旦定义了一个人,从竞选中找到正确的信息就变得非常简单。”

尽管对于像TargetPoint这样的数据公司来说,存储您最敏感的个人信息可能会更好,但是对于1.98亿美国人来说,其敏感的身份识别信息和潜在的政治倾向是在没有任何安全障碍的面向公众的云服务器上编写的,但看法可能有所不同。

“ target_point”文件夹的内容比Data Trust存储库的内容更具侵入性,即使乍一看也不那么令人生畏:十四个文件以Alteryx数据库格式(.yxdb)保存,这是专门为大型数据库设计的文件格式数据分析。大多数文件最后一次更新是在2017年1月中至下旬,其中一些被标记为“联系文件”,其中不同的日期表示它们的更新时间。

这些“联系文件”电子表格中包含上述针对1.98亿潜在美国选民的32个字符的字母数字RNC ID,以及相应的选民姓名和地址。每个RNC ID与姓名之间的明确联系以及所有1.98亿人的识别个人详细信息确保了将RNC ID作为标识符的所有数据都可以与该人的真实姓名联系起来。

剩余的文件让您难得一见,可以使用一个庞大的资料库来进行系统的大规模分析操作,该资料库可容纳1.98亿潜在选民,并结合个人详细信息,背景和政治行为,以解释盖奇的话来“揭示他们的政治基因”。结果是一个范围广泛,规模庞大的数据库,收集了该国大部分地区的模型化个人和政治偏好,从而形成了无担保的政治宝库,可免费在线下载。

文件日期和名称表示其他文件在很大程度上与2017年1月20日特朗普就职典礼前后进行的选举后数据分析有关。某些文件与RNC和TargetPoint官员关于以下类型的公开声明一致在整个运动过程中进行有针对性的分析。例如,名为“ DRA 2016年选举后勉强DJT得分1-6-17.yxdb”的文件包含6900万行,它说明了GOP数据团队在存储库中执行的选举后分析的类型。作为RNC数据团队产品的这种分析的可能性得到了以下方面的证实: 类似微目标在媒体上的公开披露,例如TargetPoint对"“ DJT表现不佳”的选民,或者共和党人仍然不支持特朗普。

在标题为50 GB的文件“DRA当选后2016年采用全比分1-12-17.yxdb,”每一个潜在的选民是拿下了横跨46列零和一之间的小数。在四十六列中的每个字段下,该字段表示潜在选民在模型上支持该列顶部的政策,政治候选人或信仰的可能性,其中零表示非常不可能,一个表示非常可能。

RNC_RegID, 州, 2012ObamaVoter_DRA_12_16, 2012RomneyVoter_DRA_12_16, 2016ClintonVoter_DRA_12_16, 2016TrumpVoter_DRA_12_16, AmericaFirstForeignPolicy_agree_DRA_12_16 AmericaFirstForeignPolicy_disagree_DRA_12_16 AutoCompaniesShipJobsOverseas_agree_DRA_12_16 AutoCompaniesShipJobsOverseas_disagree_DRA_12_16 CorpReputs_AmericanMakers_DRA_12_16, CorpReputs_DailyLives_DRA_12_16, CorpReputs_Egalitarians_DRA_12_16, CorpReputs_EnviroConscious_DRA_12_16, CorpReputs_OpportunitySeekers_DRA_12_16, CorpReputs_STEMSupporters_DRA_12_16, CorpReputs_SupplyChainers_DRA_12_16, CorpReputs_Unifers_DRA_12_16, DemLeadersStandUpToTrump_DRA_12_16, DemLeadersWorkWithTrump_DRA_12_16, DParty_DRA_12_16, FinancialServicesHarmful_agree_DRA_12_16 FinancialServicesHarmful_disagree_DRA_12_16 FinServicesCompany_Dreamers_DRA_12_16 FinServicesCompany_RiskMitigators_DRA_12_16 FossilFuelsImportantForUSEnergySecurity_DRA_12_16 FossilFuelsNeedToMoveAwayFrom_DRA_12_16, InvestInfrastructure_agree_DRA_12_16, InvestInfrastructure_disagree_DRA_12_16, LowerTaxes_agree_DRA_12_16, LowerTaxes_disagree_DRA_12_16, NonReluctantDJTVoter_DRA_12_16, NonReluctantHRCVoter_DRA_12_16, PharmaCompsDoGreatDamage_agree_DRA_12_16, PharmaCompsDoGreatDamage_disagree_DRA_12_16, ReformGovtRegulations_agree_DRA_12_16, ReformGovtRegulations_disagree_DRA_12_16, ReluctantDJT_Above.5_DRA_12_16, ReluctantHRCVoter_DRA_12_16, RepealObamacare_agree_DRA_12_16, RepealObamacare_disagree_DRA_12_16 RParty_DRA_12_16, StopIllegalImmigration_agree_DRA_12_16, StopIllegalImmigration_disagree_DRA_12_16, TrumpStandUpToDems_DRA_12_16, TrumpWorkWithDems_DRA_12_16, USAFinancialSituation_Optimistic_DRA_12_16, USAFinancialSituation_Pessimistic_DRA_12_16

根据1.98亿潜在选民的计算结果,这总共形成了一个包含95亿个模型化概率的电子表格,涉及的问题包括个人在2012年为奥巴马投票的可能性有多大,以及他们是否同意特朗普的“美国优先”外交政策。他们将汽车制造作为一个问题的可能性有多大。

表决投影.png

电子表格是分析能力的令人印象深刻的部署。但是,虽然每个潜在的投票者都由其32个字符的RNC内部ID表示,但是确定与建模的策略首选项相关联的真实姓名是一个一步的过程,因为数据库中还公开了上述“联系人文件”, RNC ID至潜在选民的实际身份。

记者确定了RNC ID后,便可以查看由TargetPoint计算得出的他的建模政策偏好和政治行为。无论是他们的才华,还是这种曝光的真正危险,都证明了结果是惊人的准确。

意义

这次曝光引发了有关美国人期望获得其最特权信息的隐私和安全性的重大问题。这也是在美国选举程序的完整性已经由 针对州选民数据库的一系列网络攻击引起关注 网络风险 可能会日益威胁我们最重要的民主和政府机构。

如此庞大的国家数据库可以在线创建和托管,甚至缺少最简单的保护措施,即可以公开访问的数据,这令人感到困扰。收集此类信息并以不安全的方式存储这些信息的能力进一步质疑了私营公司和政治运动对那些功能日益强大的数据分析业务所针对的公民的责任。

2017年无可争议的是,人们越来越无法信任信息技术系统的完整性,特别是在规模上。随着对技术的依赖增加,网络风险面也随之增加。随着越来越多的生活功能迁移到数字平台上,越来越多的生活功能引发了网络风险。除了出于身份盗用,欺诈和在黑市上转售的目的而对裸露的数据进行几乎无限的犯罪应用之外,数据的庞大量和建模的分析能力还可以应用于更雄心勃勃的工作-公司营销,垃圾邮件,先进的政治目标。只要利益相关者在收集和存储数据时遵循一些简单的戒律,就可以防止对私人信息的任何潜在滥用。

暴露这些数据的根本问题并非罕见,罕见或导致党派分歧的一方面。的确,尽管造成这种情况的人是一个政党,但受影响的1.98亿美国人跨越了整个政治领域,无论他们的政治信仰如何,他们的信息都会泄露。导致数以千计的先前数据泄露的原因相同-被遗忘的数据库, 第三方供应商风险,不合适的权限-与RNC广告系列操作相结合,造成了前所未有的数据泄露。

尽管此漏洞的范围很广,但如果跨所有平台的网络弹性的思想不成为所有面向Internet的系统的通用语言,那么毫无疑问,它将在未来达到顶峰,可能造成更大的破坏性影响。

UpGuard如何帮助检测和防止数据泄露和数据泄漏

像这样的公司 洲际交流泰勒·弗莱纽约证券交易所, IAG, First 州 Super, Akamai, Morningstar, 和 NASA use UpGuard'的安全等级以保护其数据, 防止数据泄露 并评估他们的安全状况。

UpGuard供应商风险 可以最大程度地减少您的组织用于评估相关和第三方的时间 信息安全 通过自动化控制 供应商问卷 and providing 供应商问卷模板.

我们可以帮助您持续监控供应商'外部安全控制,并提供公正的安全评级。 

我们还可以帮助您立即针对您当前和潜在的供应商与他们的行业进行基准比较,以便您了解它们的堆叠方式。

为了评估您的信息安全控制, UpGuard BreachSight 可以监视您的组织以进行70多种安全控制,从而提供简单易懂的信息 安全等级 并自动检测S3存储桶,Rsync服务器,GitHub存储库等中泄漏的凭据和数据暴露。

UpGuard与其他安全评级供应商之间的主要区别在于,有非常公开的证据表明我们在预防 数据泄露 and 数据泄漏

我们的专业知识在以下方面得到了体现: 纽约时报华尔街日报彭博社华盛顿邮报福布斯路透社和 TechCrunch。

您可以详细了解我们的客户在说什么 Gartner评论和 在这里阅读我们的客户案例研究

如果你'd想看你的组织's 安全等级, 单击此处请求您的免费安全等级.

立即预订UpGuard平台的演示.

UpGuard客户支持团队UpGuard客户支持团队UpGuard客户支持团队

保护您的组织

取得联系或预订免费演示。
抽象形状抽象形状

相关违规

了解有关网络安全的最新问题的更多信息。
传送图标

注册我们的时事通讯

每周在收件箱中获取最新精选的网络安全新闻,漏洞,事件和更新。
抽象形状抽象形状
免费即时安全评分

您的组织有多安全?

索取免费的网络安全报告,以发现您的网站,电子邮件,网络和品牌上的主要风险。
  • 检查图标
    您可以立即采取行动的即时见解
  • 检查图标
    13个风险因素,包括电子邮件安全,SSL,DNS运行状况,开放端口和常见漏洞
网站安全扫描结果网站安全扫描等级抽象形状