斯坦福大学的研究人员创建了人工智能模型,能够以惊人的精度识别照片拍摄的地点。他们的解决方案有很好的用例,但重要的伦理问题也需要解决。
如果你的假日照片背后有埃菲尔铁塔或拉什莫尔山,那么很容易分辨出照片是在哪里拍摄的。如果这张照片是在伊利诺斯州的一片田野里拍摄的,身后有一棵随机的树,那么确定位置就更具挑战性了。
这正是超过5000万的GeoGuessr游戏玩家所享受的挑战。
来自斯坦福大学的三名研究人员是该游戏的狂热玩家,他们想看看人工智能模型如何对抗最好的人类玩家。
他们从OpenAI开发的名为CLIP的神经网络开始,作为两种不同图像地理定位模型的基础。
第一个模型,预测图像地理位置(PIGEON),是使用GeoGuessr游戏中约10万个位置的数据集进行训练的。对于每个地点,PIGEON都提供了一个由四张谷歌街景图像组成的360度全景图。
第二个模型是使用全地形训练优化预测图像地理位置(PIGEOTTO),专门针对来自世界各地的400多万张带有地理标签的Flickr图像进行训练。
当向鸽子展示世界上任何地方的谷歌街景图片时,鸽子能够在95%的时间里正确地猜出这个国家,并在40%的时间里选择出大约16英里内的位置。
然后,研究人员将PIGEON与最好的GeoGuessr玩家进行了较量,结果PIGEON以很大的优势击败了他们。
在458场多轮比赛中,鸽子的地理定位距离误差与不同游戏内技能水平的人类GeoGuessr玩家的地理定位距离误差。冠军赛区由排名前0.01%的球员组成。来源:arxiv
PIGEOTTO是一个更广义的模型,在地理定位基准数据集上大大超过了当前最先进的模型。
当鸽子去与特雷弗雷恩波特,被认为是周围最好的地质学家之一,它击败了他好几次。这有点让人想起1997年深蓝在国际象棋中击败加里·卡斯帕罗夫的情景。
我们建立了一个人工智能来与世界上最好的GeoGuessr玩家竞争,并获胜!