你的旧tweet比你想象的提供更多的位置数据

An international group of researchers has developed an algorithmic tool that uses Twitter to automatically predict exactly where you live in a matter of minutes, with more than 90 percent accuracy. It can also predict where you work, where you pray, and other information you might rather keep private, like, say, whether you’ve frequented a certain strip club or gone to rehab.

该工具被称为lpauditor(location privacy auditor的缩写),利用了研究人员称之为"的入侵策略" Twitter,该策略是在2009年推出了将tweets标记为某个位置的功能之后部署的。多年来,选择在任何地点对tweet进行地理标记的用户,即使是像“纽约市”这样地理范围广泛的地方,也会自动给出精确的GPS坐标。用户不会看到Twitter上显示的坐标。他们的追随者也不会。但是GPS信息仍然会包含在tweet的元数据中,并且可以通过twitter的API进行访问。

直到2015年4月,Twitter才在其应用程序中改变这一政策。现在,用户必须选择分享他们的精确位置,据Twitter发言人说,只有很小比例的人会这么做。但是人们在更新之前共享的GPS数据至今仍然可以通过API获得。

研究人员开发了lpauditor来分析这些带有地理标签的tweet,并推断出人们最敏感位置的详细信息。他们将在下个月的网络和分布式系统安全研讨会上发表一篇新的同行评审论文,概述这一过程。通过分析一系列的坐标以及推文上的时间戳,lpauditor能够找出数万人在哪里生活、工作和度过他们的私人时间。

Twitter&x27;网站完整性团队的一名成员告诉Wired,在Twitter上共享位置数据始终是自愿的,而且该公司始终为用户提供在其帮助部分删除这些数据的方法。" Twitter的一位员工说:“我们在2015年认识到,我们可以更加清楚地了解这一点,但我们对位置共享的总体看法始终是,它是自愿的,用户可以选择他们所做的,不想分享。”

这是真的,它一直以来都是由用户来为他们的tweet添加地理标签。但是,在选择与他人分享你在巴黎的生活和选择与他人分享你在巴黎的生活之间有很大的不同。然而,多年来,不管用户选择分享的地点的平方英里数是多少,Twitter都在选择分享他们的地点到GPS坐标。这些细节在Twitter的“帮助”部分中有详细说明,这对那些不知道自己首先需要帮助的用户没有多大帮助。

"研究报告的合著者、芝加哥伊利诺伊大学专门研究隐私和安全的计算机科学助理教授Jason Polakis说,如果你不知道这个问题,你就永远不会删除这些数据。根据研究,这些数据可以揭示很多。

在2016十一月,Twitter改变了它的设置之后,克里特岛的研究和技术基金会的Polakis和研究人员开始从公司的API中提取Twitter元数据。他们是在先前的研究基础上建立起来的,这项研究表明,从地理标记的tweets中推断私人信息是可能的,但他们想看看他们是否可以使用自动化以更大的规模和更高的精度来做这件事。

研究人员分析了大约87000名用户的1500万条贴地理标签的微博。这些tweet附带的一些位置数据可能来自想要共享其确切位置的用户,例如博物馆或音乐场所。但也有很多用户只共享城市或一般附近的区域,但他们的GPS位置仍然是共享的。

从那里,lpauditor开始工作,将每个tweet分配到地图上的一个物理点,并按时区定位。这就在地图上生成了一组推特,其中一些比其他的更为繁忙,表明了特定用户花费大量时间或至少花费大量时间在推特上的位置。

"如果您不知道问题所在,您将永远不会删除该数据。"

芝加哥伊利诺伊大学Jason Polakis

为了预测哪一个集群可能与用户的家相对应,研究人员指导lpauditor寻找人们周末在tweet上花费时间最长的地点。他们的想法是:在一周中,你可能会在早上、晚上和休息日以一种不可预知的方式发微博,但大多数人大部分时间都在家里度过周末。

在寻找工作地点时,他们做了相反的事情,在一周内分析tweet模式。lpauditor分析了用户发tweet最多(不包括home)的位置,然后研究了发送这些tweet的时间范围。这让研究者们有了一种感觉,即在一个典型的8小时轮班的过程中,这些推特是否会被发送出去,即使是在一个晚上。最后,该工具查找了一周内出现频率最高的时间范围,并确定在该时间范围内推特最多的位置最有可能是此人的工作地点。

当需要检查他们的答案时,研究人员确定了大约2000名用户作为一种基本事实。编写这个小组是一个手工的过程,需要两个研究生独立筛选收集的所有tweet,以找到一些关键短语,这些短语可能会确认一个人在家或工作时发送了它。例如,“我在家”或“在办公室”,",可能提供了一个线索。他们检查了每一条tweet,寻找可能提供额外信息的上下文。

然后,他们将这些推文的位置与工具的预测进行了比较,发现它们非常准确,准确识别出92.5%的人的家。它在预测人们工作的地点方面做得不好,只占55.6%。但是,波拉基斯说,这可能仅仅意味着,他们认定的“工作”地点实际上是一所学校或一个地方,在那里,人们花费的时间本来就是工作时间。

最后,研究人员开始确定用户可能访问过的敏感位置。为了做到这一点,他们将tweet的位置与Foursquare的商业和场地目录进行了比较。他们在寻找医院、紧急护理中心、礼拜场所以及脱衣舞俱乐部和同性恋酒吧等场所。任何出现在27码以内的地点都被认为是一个潜在的地点。然后,他们进行了类似的关键词分析,搜索与健康、宗教、性和夜生活相关的词语,以检查用户是否可能出现在他们看起来的地方。使用这种方法,研究人员发现,在80%的时间里,lpauditor对于敏感位置是正确的。

当然,如果一个用户在推特上谈论,比如说,当他们在看医生的时候,他们在看医生,有人可能会说他们不太关心隐私。但是Polakis说,“这个位置可能会比用户想说的提供更多的信息。”在一个案例中,研究人员发现一个用户在推特上谈论一位医生,而这个位置的GPS坐标显示是一个康复设施。“这比他们愿意透露的要敏感得多,”他说。

即使tweet不包含上下文线索,lpauditor仍然能够通过研究人们在那里的时间长短和他们返回的次数来预测一个人是否真的在一个敏感的地方度过了时间。然而,研究人员无法测量这些具体预测的准确性。

这项研究的大部分是基于Twitter在2015年4月政策改变之前发送的tweet。Polakis说,这一变化在API提供的精确位置数据方面产生了巨大的差异。为了测量其规模,研究人员排除了他们在2015年4月之前收集到的所有推文,发现他们只能为他们所研究的大约15分之一的用户确定关键位置。换句话说,波拉基斯说,"这种侵入性的Twitter行为使我们可以攻击的人数增加了15倍。

今天注册

报名参加每日通讯,千万不要错过最好的有线新闻。

事实上,Twitter改变了它的政策是一件好事。问题是,2015年前的大部分位置数据仍然可以通过API获得。当被问到为什么Twitter在改变政策后没有删除它时,Twitter网站的诚信员工说,"我们觉得不适合我们回去,在没有得到他们同意的情况下单方面做出改变人们微博的决定。"

这不是第一个揭示从位置数据,甚至地理标签推特可以推断出什么的研究。但据罗切斯特大学的计算机科学家亨利·考兹(Henry Kautz)所说,这篇论文做出了关键性的贡献。" Kautz说,这里的进步在于他们研究了两种不同的地点——工作地点和家庭地点,而不是一种,他们通过更系统的评估和更精确的算法进行了更大的研究,因此得到了更高比例的正确答案。lpauditor也不排斥Twitter数据。它可以应用于任何一组位置数据。

Kautz认为,与其他仍在使用入侵定位数据的应用程序相比,Twitter的关注度相对较小。洛杉矶政府官员最近对IBM旗下的天气频道应用程序提起诉讼,指控其以帮助用户"Personaliz[E]本地天气数据、警报和预测的名义收集和销售用户的地理位置数据。"母板本周报告说,赏金猎人正在使用位置信息。从T-Mobile、Sprint和AT&T购买的数据,用于跟踪使用手机的个人。尽管公司和公众承诺停止销售此类数据,但这仍然存在。当然,还有一些应用程序感染了恶意软件,并吞噬了位置数据。

"今天的大问题不是那些讨厌的人看你贴了地理标签的微博。Kautz说,问题在于手机应用程序被破坏,窃取了你的整个GPS历史。"从这些数据中,你不仅可以提取你的家和工作地点,还可以提取你生活中大量重要的地方。"

然而,Polakis说,Twitter不再在所有带地理标签的tweet上附加GPS坐标这一事实是不够的,因为开发者仍然可以从2015年前获得价值数年的数据。是的,有些信息现在可能已经过时了。人们移动。他们换工作。但是,即使过时的信息对攻击者也是有用的,其他敏感信息,比如说,人的性取向,似乎也不太可能改变。这项研究证明,不仅可以从位置数据中推断出这类信息,而且机器几乎可以立即完成这项工作。

现在,Polakis说,大多数人现在能做的就是删除他们的位置数据,并在将来共享之前三思而后行。


本文来自投稿,不代表泡面小镇立场,如若转载,请注明出处:http://www.pmtown.com/archives/141725.html

发表评论

登录后才能评论
QR code