用户画像這個理念是交互設計之父阿蘭・庫珀提出來的。他說用戶画像是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型。記住用戶画像就是用虛擬代表來表達我們的大部分用戶,情報分析師小編想說的再直接一點。
創始人怎麼樣作用戶画像,希望大家就記住一點,你就是要知道我的關鍵用戶,我的核心用戶到底長啥樣?是男是女,到底喜歡啥?或者說能不能用一句話描述出你的核心的用戶,用戶画像,甚至是互聯網公司核武器。
比如騰訊,比如百度,比如阿里巴巴,這三個公司被稱為 BAT 。BAT 最核心的能力,我認為就是大數據的用戶画像能力。再跟大家說個段子,大家都知道騰訊,騰訊做產品很強,如果你做了一個產品被騰訊盯上了,騰訊也做個產品,騰訊能很快超越你,為什麼呢?因為騰訊有一個非常強大的用戶的挖掘能力。
舉個例子,騰訊的技術分為 T1、T2、T3、T4、T5 。T5 相當於首席科學家,基本上就一兩個人,T4 在騰訊有不少人,幾十個人,什麼叫 T4?騰訊叫 T4 專家組,就是能在騰訊進入 T4 的,一般都是經過上億次用戶運營的這種技術高手。騰訊公司遇到問題,就上 T4 專家組,就讓這幫擅長用戶画像的 T4 專家組......
用戶画像這麼猛,這麼強,這麼核武器,這裡要講講第二個核心點,怎麼幹?一個創始人,他也不是產品經理,他怎麼樣做好用戶画像?要找到種子用戶。
好多人說什麼叫種子用戶?用戶是分層級的,知道用戶有什麼?有目標用戶,目標用戶中間還有核心用戶;核心用戶的中間又有什麼?叫種子用戶。種子用戶就像種子一樣,是用戶中的意見領袖,他們是用戶中的有話語權的人,甚至是核心用戶中的關鍵。
做用戶画像,一定要找到種子用戶,甚至做產品都要找到種子用戶,大家知道種子用戶幾乎是所有公司做產品的第一步。舉個例子,小米的種子用戶是什麼?小米現在是國內手機銷量非常大的公司,小米的種子用戶就是發燒友。
但是華為的銷量也是國內數一數二,那華為的主流用戶是什麼?跟小米一樣嗎?不一樣,華為的種子用戶是什麼呢?是商務精英。
再看一個 OPPO , OPPO 的銷量在國內也是數一數二, OPPO 的用戶画像跟他們一樣嗎?也不一樣。OPPO 的用戶画像是年輕女生,所以大家看找到種子用戶非常重要,所以說,得種子用戶得天下。
一、什麼是用戶画像
用戶画像是建立在一系列真實數據之上的目標群體的用戶模型,即根據用戶的屬性及行為特徵,抽象出相應的標籤,擬合而成的虛擬的形象,主要包含基本屬性、社會屬性、行為屬性及心理屬性。
需要注意的是,用戶画像是將一類有共同特徵的用戶聚類分析後得出的,因而並非針對某個具像的特定個人。
用戶標籤集合
二、用戶画像的步驟
(1)明確画像目的
確認画像目的是非常基礎也是關鍵的一步。要了解構建用戶画像期望達到什麼樣的運營或營銷效果,從而在標籤體系構建時對數據深度、廣度及時效性方面作出規劃,確保底層設計科學合理。
(2)數據採集
只有建立在客觀真實的數據基礎上,生成的画像才有效。在採集數據時,需要考慮多種維度,比如行業數據、全用戶總體數據、用戶屬性數據、用戶行為數據、用戶成長數據等等,並通過行業調研、用戶訪談、用戶信息填寫及問卷、平台前台後台數據收集等方式獲得。
(3)數據清洗
就自身採集到的數據而言,可能存在非目標數據、無效數據及虛假數據,因而需要過濾原始數據。
(4)特徵工程
特徵工程能夠將原始數據轉化為特徵,是一些轉化與結構化的工作。在這個步驟中,需要剔除數據中的異常值(如電商 APP 中,用戶可能用秒殺的手段以幾分錢價格獲得一部手機,但用戶日常購物貨單價都在千元以上)並將數據標準化(如消費者購物所使用的貨幣包括人民幣與美元,需要將貨幣統一)和判斷的標籤標準化。
画像構建中用到的技術有數據統計、機器學習和自然語言處理技術(NLP)等,如圖所示。具體的画像構建方法會在本章後面的部分詳細介紹。
用戶画像的構建技術
(5)數據標籤化
在這一步將得到的數據映射到構建的標籤中,並將用戶的多種特徵組合到一起。標籤的選擇直接影響最終画像的豐富度與準確度,因而數據標籤化時需要與 APP 自身的功能與特點相結合。如電商類 APP 需要對價格敏感度相關標籤細化,而資訊類則需要盡可能多視角地用標籤去描述內容的特徵。
優先級排序方法主要依據構建的難易程度和各類標籤的依存關係,優先級如圖所示。
各類標籤的構建優先級
(6)構建用戶画像
把標籤分為三類:
第一類是人口屬性
人口屬性包括年齡、性別、學歷、人生階段、收入水平、消費水平、所屬行業等
性別 | 男 |
女 | |
未知 | |
年齡 | 12 以下 |
12-17 | |
18-19 | |
20-24 | |
25-29 | |
30-34 | |
35-39 | |
40-44 | |
45-49 | |
50-54 | |
55-59 | |
60-64 | |
65 及以上 | |
未知 | |
月收入 | 3500 元以下 |
3500-5000 元 | |
5000-8000 元 | |
8000-12500 元 | |
12500-25000 元 | |
25001-40000 | |
40000 元以上 | |
未知 | |
婚姻狀態 | 未婚 |
已婚 | |
離異 | |
未知 | |
從事行業 | 廣告 / 營銷 / 公關 |
航天 | |
農林化工 | |
汽車 | |
計算機 / 互聯網 | |
建築 | |
教育 / 學生 | |
能源 / 采礦 | |
金融 / 保險 / 房地產 | |
政府 / 軍事 / 房地產 | |
服務業 | |
媒體 / 出版 / 娛樂 | |
醫療 / 保險服務 | |
製藥 | |
零售 | |
電信 / 網絡 | |
旅遊 / 交通 | |
其它 | |
教育程度 | 初中及以下 |
高中 | |
中專 | |
大專 | |
本科 | |
碩士 | |
博士 |
人口標籤
第二類是興趣屬性
在構建用戶興趣画像之前需要先對用戶有行為的內容進行內容建模。為了保證興趣画像既有一定的準確度又有較好的泛化性,我們會構建層次化的興趣標籤體系,使用中同時用幾個粒度的標籤去匹配,既保證了標籤的準確性,又保證了標籤的泛化性。
如何構建層次化的興趣標籤?通俗來講看看用戶對那些內容和事物感興趣,對感興趣的內容和事物進行抽取、標籤化和統計。
第三類是地理屬性
常駐地的挖掘基於用戶的 IP 地址信息,對用戶的 IP 地址進行解析,對應到相應的城市,對用戶 IP 出現的城市進行統計就可以得到常駐城市標籤。
用戶的常駐城市標籤,不僅可以用來統計各個地域的用戶分布,還可以根據用戶在各個城市之間的出行軌跡識別出差人群、旅遊人群等,如圖所示是人群出行軌跡的一個示例。
人群出行軌跡
GPS 數據一般從手機端收集,但很多手機 APP 沒有獲取用戶 GPS 信息的權限。能夠獲取用戶 GPS 信息的主要是百度地圖、滴滴打車等出行導航類 APP,此外收集到的用戶 GPS 數據比較稀疏。
百度地圖使用該方法結合時間段數據,構建了用戶公司和家的 GPS 標籤。此外百度地圖還基於 GPS 信息,統計各條路上的車流量,進行路況分析,如圖是北京市的實時路況圖,紅色表示擁堵線路。
北京的實時路況圖
(7)生成画像
數據在模型中運行後,最終生成的画像可以用下圖等可視化的形式展現用戶画像並非是一成不變的,因而模型需要具有一定靈活性,可根據用戶的動態行為修正與調整画像。
信息收集#
隱私#
抓包信息
積極參與的話題(關於社會事件的討論以及經歷)
喜歡使用的表情包及 emoji 表情、加入的群組和頻道
發言(身份、生活、職業、生活習慣、單位、吐槽、收入、價值觀、立場等)
行文方式(表達方式、句子結構、標點符號等)
截圖圖片內容(字體、應用頁面、上方通知欄裡的圖標等)
分享鏈接和圖片(參考)
照片(人、事物、位置、標誌性物體、天氣、光照、身份信息等)
社會性活動照片(名稱、舉辦時間、海報、宣傳語)
地域特徵(特產、香煙、圖騰、植物、地形)
語音(口音、方言、年齡、環境雜音)
分享文件(元數據、隱形水印、原圖 exif 信息、文件來源、內容)
賬號信息(頭像、網名、簽名 / 簡介、密碼,不同平台用相同信息)
(國內各種平台都開始陸續顯示 ip 屬地信息了,在不全局的情況下有沒有一個收集這些顯示歸屬地產品域名的項目,然後一鍵複製添加這些域名從而保護隱私?)
解決方法👇
哔哩哔哩 IP 定位接口#
host, api.bilibili.com, Location IP
知乎 IP 定位接口#
ip-cidr, 103.41.167.0/24, Location IP
微博 IP 定位接口#
host-suffix, api.weibo.cn, Location IP
贴吧 IP 定位接口#
host,www.baidu.com,Location IP
头条 IP 定位接口#
host-suffix,toutiaoapi.com,Location IP
抖音 IP 定位接口#
host-keyword,core-c-lq,Location IP
host-keyword,core-lq,Location IP
host-keyword,normal-c-lq,Location IP
host-keyword,normal-lq,Location IP
host-keyword,search-quic-lq,Location IP
host-keyword,search-lq,Location I
如何用一張照片推理具體位置|網絡迷蹤入門指南#
寫在前面#
在開始正經的教程之前首先需要說明幾點:
- 這篇文章將要介紹的是一種叫「網絡迷蹤」的,僅憑一張照片及有限提示信息判斷出照片拍攝具體地點的推理遊戲。它可以被認為是開源情報(Open-Source Intelligence, OSINT)[1] 的一種形式,指合法地從公開和可公開獲得的資源中收集數據和信息的做法。
- 這篇文章不會介紹如何獲取和分析「場外信息」,例如「本地人一看就知道」,或從出題者歷史內容、社交平台上獲取其身份和常住地信息。這篇文章不鼓勵在「網絡迷蹤」中使用「人肉搜索」等涉嫌侵犯他人隱私的行為。
- 作者本人僅是「網絡迷蹤」的愛好者,與本人中提到的社交平台以及工具之間沒有利益關係。同時,作者也是業餘玩家,下述內容是對個人經驗的總結,是一份快速入門指南,而並非嚴謹專業的教程。希望這篇文章能幫助一部分對這個遊戲感興趣的人入門,也同時希望能幫助大家意識到在公開渠道發表照片可能帶來的隱私風險。
一張照片,就能知道你在哪裡?丨網絡迷蹤初探「網絡迷蹤」是開源調查最具影響力的一種形式,因為它看上去極具戲劇性:一張圖片就能準確定位。但這種戲劇性源於人們低估了一張圖片所能包含的信息量,以及互聯網開源信息的規模和廣度。
編注:本文旨在科普「普通人如何通過一張照片反向推斷現實地點」這一流程並希望可以藉此方式給讀者帶來一點警醒。如讀者基於本文開展探索和研究,應注意尊重他人隱私和相關法規。
2011 年,一則名為《我是如何推理出王珞丹住址的?》的帖子被瘋狂轉載。帖子作者憑藉王珞丹幾條微博、自已對北京城的了解和 Google Earth,用時四十多分鐘就推理出了王珞丹前住址。(王珞丹是彼時大火的職場劇集《杜拉拉升職記》主演,當紅女明星,暴露年齡的作者注。)GGMM 们在驚呼「碉堡了」之餘,不免擔心自己也會被調查一番,紛紛表示再也不敢在網上發東西了。
相關報導。圖自 搜狐傳媒
十年後的 2021 年,在眾多愛好者和創作者的引介下,一種被稱為「網絡迷蹤」[註釋 1] 的偵探遊戲進入大眾視野:在只有一張圖片和寥寥提示的條件下,大師們僅憑一台聯網的電腦,足不出戶即可找到圖片拍攝地,有的甚至能確定拍攝時間。如今的網友們在驚呼「卧槽牛批」之餘,不免擔心自己也會被調查一番,紛紛表示再也不敢在網上發東西了。
炒飯社區網絡迷蹤板塊。圖自 炒飯社區
B 站 up 主「我是 EyeOpener」是較有影響力的網絡迷蹤引介者之一。圖自 bilibili
互聯網的歷史是「毅種循環」,但循環是螺旋上升的。十年間全球網民數量翻倍,網頁數量翻了兩番,雖然我們都沒什麼長進,但這種調查技術已在海量互聯網信息加持下日趨成熟。它的正式名字叫做開源調查(Open Source Investigations, OSI)或開源情報(Open Source Intelligence, OSINT)[註釋 2],指利用互聯網上的開源信息展開調查的技術。
「網絡迷蹤」是開源調查最具影響力的一種形式,因為它看上去極具戲劇性:一張圖片就能準確定位。但這種戲劇性源於人們低估了一張圖片所能包含的信息量,以及互聯網開源信息的規模和廣度。你是否擔心自己的照片會暴露隱私?你是否好奇偵探們如何抽絲剝繭得出拍攝者的位置?今天,經過這篇文章的介紹,你也可以揭開網絡迷蹤的神秘面紗,成為一名網絡偵探,成為自己的網絡內容安全專家。
網絡迷蹤的玩法#
炒飯社區是一個類似於貼吧的興趣聚合社交網站,其 網絡迷蹤版塊 在圈內極有影響力。每天,很多飯友在此處發布自己拍攝的照片,向「偵探們」發出挑戰。版主團隊定期舉辦網絡迷蹤積分賽,得勝還有精美獎杯相送。(非廣告,特此聲明。尚未註冊的作者注。)
炒飯社區網絡迷蹤板塊的內容。圖自 炒飯社區
並不是所有圖片都適合成為一道謎題。在炒飯社區,謎題圖片集中在城市建築、交通工具(尤其是飛機高鐵)、道路、景點等幾類內容上,且以遠景為主。如果拍一張自己桌上的擺件,或者路邊小花小草,偵探們是很難從圖片內容中獲得有效信息的。
網絡迷蹤的謎面還可以是全景圖、視頻等多媒體形式。少數派介紹過的 GeoGuessr 、百度地圖推出的「全景城市探險家」等就是以全景圖為載體的。
網絡迷蹤的基本思路可分為如下三步:
- 提取:仔細觀察圖片,提取其中所有有效信息。無論它多麼細小和模糊,都不能放過;
- 分析:利用自身知識儲備和互聯網工具分析所得信息,縮小排查範圍;
- 驗證:運用互聯網工具展開排查,直至搜索完分析階段獲得的排查範圍。如果未能成功找到,返回前兩步再試。
提取和分析信息是網絡迷蹤的關鍵,也是其樂趣所在。這有賴於偵探們廣博的知識面、強大的互聯網信息檢索能力和長期的經驗積累。
網絡迷蹤偵探更傾向於通過邏輯推理而非暴力破解得出答案,推理過程越難,得出答案的成就感越強。考慮到現實的複雜性,這一推理過程並不嚴格,更多是基於生活經驗的大概率推測。
圖片中隱藏著什麼?#
要成為合格的網絡迷蹤偵探,第一步就是會看圖,能夠挖掘出圖片中的隱藏信息。籠統地說,一張圖片可以包含以下幾方面信息:文字信息、基礎設施信息、自然地理信息。
文字信息#
文字信息是推測地理位置最快速簡單的方式。相比其他種類信息,文字信息優勢巨大:
- 可能直接透露位置:路牌、政府機關大樓、車站站名、門牌號等文字信息都與地理位置強關聯,很容易成為送分題。
- 沒有專業門檻:你可能需要一定的專業知識和比對分析過程才能確定植物的品種、飛機的型號,而解讀文字信息完全不需要這些,能認字即可。
- 便於搜索:你可以直接在搜索引擎裡搜索文字。雖然很多搜索引擎支持以圖搜圖,但其準確性尚不能與文字相比。
因此,網絡迷蹤偵探不會放過圖中任何文字信息,即使它模糊不清也要辨識一番。
例如,給出下面一張圖片,詢問拍攝者位置:
第一道謎題圖片,由作者拍攝。
這是一家沙縣小吃店。但直接搜索沙縣小吃並不是個好主意 —— 全國沙縣小吃店數以萬計。仔細觀察圖片細節,可以發現多處文字信息:隔壁「* 記」,門窗倒影上有「王府」「旺基」,門牌號「香榭 」「23」,電動車擋泥皮上「星橋莫拉克專賣店」的廣告。
電動車很少跨城市,因此可以通過其牌照和擋泥板廣告推斷拍攝地所在城市。牌照上城市字樣模糊不清,只能看出是兩個字,於是從擋泥皮入手。
在全國範圍搜索「星橋」,排除「三星大橋」之類的模糊匹配項,剩余可能項有 12 個:浙江省杭州市星橋街道、湖州市星橋村,福建省三明市星橋村、福清市星橋村,四川省資陽市星橋村、廣安市星橋村、廣元市星橋村,重慶市星橋鎮,雲南省麗江市星橋村,湖南省邵陽市星橋村、株洲市星橋村,湖北省咸寧市星橋村。從門窗倒影來看,此地商業活動密集,並不像是普通農村。
全國範圍內的「星橋」(部分)。圖自百度地圖
廣告上還提供了「莫拉克專賣店」的手機號。眾所周知,我國手機號前三位代表運營商,中間四位為地區編碼,所以手機號前七位足以確定號碼歸屬地。這未必一定是拍攝者所在地,但大概率是真的。
手機號比較模糊,前七位中能夠看清的數字是「1508*64」,第五位像 3、5 或 8。查詢可知,1508364 屬江西新余,1508564 屬貴州遵義,1508864 屬浙江杭州。比對星橋的搜索結果,只有杭州市重合。因此,可以暫且假定拍攝者位於杭州,展開下一步搜索。
接下來注意到門牌號「香榭 」「23」。門牌的內容有可能是道路名、小區名、村鎮名。考慮到附近商業密集,此處較大可能是道路名。「香榭」後內容被遮擋,從比例位置來看尚余一字,應該是「路」「街」之類。
在杭州市搜索「香榭路」,果然找到一條名為香榭的道路,屬星橋街道。
杭州市星橋街道香榭路。圖自百度地圖
在該區域搜索沙縣小吃,找到一家「疑似目標」:
疑似沙縣小吃店。圖自百度地圖
可惜街景較舊,沒有找到與圖片類似的店面。但建築風格和路牌格式均相符。
香榭路全景圖。圖自百度地圖
在美團上能夠找到這家店鋪,門牌號為「香榭路 23-1 號」,店面圖片與謎題圖片一致。至此,確定拍攝者位置在浙江省杭州市臨平區香榭路 23-1 號沙縣小吃門口附近。
沙縣小吃天都城店。圖自美團
以上便是一道網絡迷蹤 送分題,因為僅需分析文字信息即可得出答案。
基礎設施信息#
大到城區,小到垃圾桶,基礎設施包羅萬象,涵蓋市政、交通、建築等領域。根據基礎設施展開網絡迷蹤,理論依據在於如下兩點:
- 可識別性。作為工業社會的產物,相同功能的基礎設施外形表現大同小異,這使我們能夠分辨「這是什麼」。確定如港口、機場、體育場等大型設施對確定位置會起到關鍵作用。
- 地域差異性。受到國家和地區政策、氣候條件、經濟地理條件的影響,基礎設施彼此之間也會存在差異。這使我們能夠推測「這在哪裡」。
簡要列舉一些常用的基礎設施信息:
- 地標建築:地標建築一般具備一定的獨特性,可以借助以圖搜圖定位到城市。若是山寨模仿者,利用新聞報導也不難找到。
- 城區:中心城區、城中村、城鄉結合部的天際線和鳥瞰圖各有差異,城市規模的大小也會影響到這些城市景觀。
- 房屋:房屋一般坐北朝南,可用於判別方向。各地農村民房具有不同風格,如紅瓦尖頂、粉牆黛瓦、窯洞、四合院等,可推測所在地區。
- 道路:不同類型的鐵路、公路各有其特殊設施,如鐵路接觸網、護坡、隔離網等。鐵路車站、公路收費站、立交橋、交通標誌等也是重要線索。風格獨特的路燈也有可能成為解謎的突破口。
- 車輛:車牌可幫助推測所在國家,有的還可進一步精確到一級行政區。如果汽車靠左行駛,則可排除掉規定汽車靠右行駛的國家,反之亦然。城市公交車、出租車通常採用統一或成系列塗裝。
- 列車、飛機:根據列車、飛機的外形細節可確定其型號。列車、飛機的班次均可在網上查詢。特殊塗裝也能透露重要信息。根據飛機上照片的拍攝角度,可大致判斷飛機是否處於起飛或降落狀態。
- 特殊設施:氣象站、雷達站、體育場、港口碼頭等地常有特殊設施,如體育場專用照明燈、碼頭龍門吊等。識別這些特殊設施具備相關知識背景。
基礎設施信息是網絡迷蹤中最常見、最主要的信息種類,本文無法面面俱到,只能蜻蜓點水。這裡我們介紹一個典型的根據基礎設施信息判定位置的案例,它來自開源信息專家 NixIntel 的博客。這位專家的博客為國內的網絡迷蹤博主提供了豐富素材。
第二道謎題圖片,圖自 Swapfiets 公司
這是一張 Swapfiets 公司發布的廣告照片,需要尋找照片的位置。NixIntel 從圖中提取出如下信息:
- 這是一座擁有高樓的城市。
- 道路上的軌道表明該城市運營有軌電車。
- 能夠看到部分車牌,格式為 PJ-620-*。
- 燈柱上有黑白色條紋。
- 道路左側建築有顯眼的修長白色柱子。
NixIntel 訪問了該公司官網,得知彼時該公司在荷蘭、德國、丹麥、比利時四個國家運營。具體在哪個國家,可以用車牌判定。WorldLisencePlates 網站收錄了全球各國的車牌樣式,上述四國樣式如下:
四國車牌比較。圖自 WorldLisencePlates
比對下來,荷蘭車牌的樣式最為接近,下一步就先搜索荷蘭好了。如果不是荷蘭也沒太大關係,我們退回來重新選擇即可。
選定了國家,有沒有辦法細化到省區或市呢?回顧剛剛的線索,有軌電車似乎不錯,畢竟不是所有城市都有。查詢 維基百科的荷蘭有軌電車頁面 可知,荷蘭目前只有五個城市尚在運營有軌電車:代爾夫特、烏德勒支、鹿特丹、阿姆斯特丹和海牙。
荷蘭有軌電車詞條,圖自 維基百科
大白柱子的建築此時派上用場,它大概率就在這五個城市之中。Phrio 網站收錄了世界各地的大型建築,可按城市篩選,並配有圖片。代爾夫特的頁面如下:
Phrio 網站代爾夫特頁面。圖自 NixIntel 博客,發稿時該網站尚在維護中
代爾夫特沒有發現明顯匹配的建築,它的建築體量普遍沒有廣告照片中那麼大。烏德勒支有幾座更大的商業建築,但依然沒有符合的。鹿特丹、阿姆斯特丹和海牙的規模要大得多,答案很有可能在它們之中。大規模城市必然有大量高層建築,這是鹿特丹的大樓們:
鹿特丹高層建築一覽。圖源同上
瀏覽過後可以發現一棟熟悉的建築,高挑的白色柱子非常顯眼。它叫做聯合利華大廈:
聯合利華大廈。圖源同上
進入街景,熟悉的黑白電線杆、電車軌道和路面,確認拍攝地就在這裡。
鹿特丹街景。圖源谷歌地球
這個案例很好地體現了互聯網開源信息的強大之處。在沒有用到專業知識的情況下,我們僅提取了幾個信息點,就可以利用互聯網的多樣化資源展開探索,得出答案。這是網絡時代賦予我們每個人的超能力。
自然地理信息#
常見的自然地理信息有光影、天氣、地形地貌、植物等。提取解讀自然地理信息需要博物君般廣博深厚的自然地理知識積累,以及在此基礎上的直覺。在很多著名網絡迷蹤案例中,關鍵步驟只是大佬的一句「我感覺像這個地區」,其中奧妙不可言傳。
常用的自然地理信息有:
- 地形地貌:水域(河流湖泊水庫海洋)、山脈(積雪)、土壤顏色等。
- 植物:植物通常有一定的分布區域,當目標範圍不明確時,可以用植物信息輔助排除。但因為廣泛的物種引進,這一排除並不十分可靠。
- 光影:從影子可以得出大致方向,進而判斷行進方向或道路方向。Suncalc 網站可幫助確定影長、位置或時間。圖片中通常不難看出是白天還是黑夜,這有助於排除一部分不符合圖片日夜狀態的班次。
- 天氣:天氣是常見的輔助信息之一。根據所在地歷史天氣變化情況,可以推知拍攝的日期範圍。
- 人物:姑且算作地理信息吧。根據圖片中的人種,可以猜測圖片拍攝地。
本節以炒飯社區的 一個帖子 為例。本題是由炒飯社區兩位大佬 鞍山吳彥祖 和 貓(下稱「貓佬」)合作解出的。題面圖片如下,詢問拍攝者位置。
第三道謎題圖片。圖自 炒飯社區
鞍山吳彥祖對這張圖片的判斷是:
根據天氣及山形植被,可以判斷應該是北京以北(包括東北三省及內蒙部分地區)。
根據遠處房屋紅瓦尖頂,且門前有類似於玉米農作物,基本可以確定是在東北地區。
這個判斷過程更多是基於經驗,但東北地區這一範圍仍然較大。這也是依據自然地理信息推斷的特點:需要豐富的經驗知識,但又不能把範圍縮到很小的區域。
貓佬進一步給出了兩點判斷:
左側鐵路有路燈和站名牌,推斷拍攝位置位於鐵路車站附近。
遠外民房應該是南北向的,再加上北向歸線以北的影子不可能在南邊,所以推測方位如下:
左側鐵路大致南北走向,上穿鐵路大致東西偏南走向,交叉點距離車站 500 米以內。
至此,圖片中的信息已經提取完畢。靠人力搜索東北地區的所有鐵路交叉點雖然可行,但時間成本過高且難免疏漏。有沒有工具能夠代替人類做這件事呢?有的!隆重介紹在開源調查領域具有劃時代意義的搜索工具:Overpass Turbo。這是一個地圖搜索引擎,能根據用戶指定的位置關係搜索所有符合條件的地點。在國內它收錄的興趣點較少,但鐵路相關信息還比較完整。
別激動地太早,下面這個消息可能會令人望而卻步 —— 使用它需要學習代碼。Overpass Turbo 使用一套被稱作 Overpass API 的查詢語句。
本例中我們使用的核心代碼如下,由貓佬給出。我嘗試了引入高鐵條件縮小範圍,但發現 maxspeed 字段存在缺失,因此此處沿用原代碼。限於篇幅,僅給出簡要註釋說明,感興趣的讀者可以自行搜索教程學習。
// 搜索區域內長度大於 1 公里的鐵路橋,存儲於 w1
way[railway = rail][bridge](if: length() > 1000)({{bbox}}) -> .w1;
// 搜索與 w1 交叉(距離為 0),長度大於 1 公里,非鐵路橋鐵路,存儲於 w2
way(around.w1: 0)[railway = rail][!bridge](if: length() > 1000) -> .w2;
// 給出所有在 w1 附近 500 米內、w2 附近 20 米內的鐵路車站
node(around.w1: 500)(around.w2: 20)[railway = station];
東北地區範圍較大,可以分兩三次搜索。結果如下,圓圈標記表示命中:
Overpass Turbo 搜索結果。圖自炒飯社區
根據前文分析的鐵路走向,可以篩選出一個符合條件的車站:塔黃旗車站。
塔黃旗車站。圖自炒飯社區、高德地圖
這個案例並非純粹依靠自然地理信息,但據此判斷所在區域大幅減少了搜索工作量。借助 Overpass Turbo,快速大範圍排查成為可能。
場外信息#
當圖片中的信息不足以判斷出位置時,偵探們不得不獲取場外提示了。以下各項若涉及到隱私和法律問題,請務必在出題者或當事人同意,或官方部門授權的情況下使用。
- 圖片 EXIF 信息:如果出題者發布了原始圖片,且網絡平台未抹除 EXIF 信息,則可通過此信息直接定位到拍攝地。
- 出題者歷史記錄:查看出題者在公共社交平台上發布過的內容,包括個人主頁和評論。有人會在不同公共社交平台使用相同頭像或用戶名、發布相似內容,這樣很容易跨平台搜索到。
- 社交網絡關係:出題者的好友網絡也有可能暴露其本身。與他頻繁互動的好友可能有相同生活經歷、相同興趣或屬於相同組織,而好友發布的內容也很可能與其本人相關。
再也不敢在網上發東西了?#
網絡迷蹤經常受到隱私方面的質疑。為了避免公眾疑慮,炒飯社區和推特上的 @Quiztime 均以出題人發布本人拍攝照片為主。但是,難免有心懷不軌者偷偷摸摸針對個人展開調查。因此,大家發布內容時應該多個心眼,假設自己的所有圖片都有可能暴露拍攝位置。
- 發布平台是公開平台嗎?查看我在該平台發布的內容前,是否需要加我好友或經我同意?發布人人皆可訪問的信息需要十分謹慎。
- 如果圖片拍攝地得知,會涉及到核心隱私嗎?展示自己去過的景點、公共場所其實影響不大;但倘若拍攝地與你及好友的居住地、工作地相關,則須確保圖片中不含上文介紹的可以展開調查的信息,文案也不涉及到對通勤、交通的描述。
- 避免發布國家安全相關圖片,例如武器、軍隊等。
注意到以上幾點,基本就不會像王珞丹那樣被偷家了。
假如圖片不涉及到核心隱私,但你也不希望被調查到拍攝位置,則須注意:
- 避免發布同一地點的多張圖片,這很有可能為開源調查提供充足信息。
- 避免發布含有較多文字信息的圖片。
- 避免發布含有特殊基礎設施信息和自然地理信息的圖片。
- 避免發布原圖。
相信經過本文的介紹,各位讀者已經了解了網絡迷蹤的基本玩法,能夠分析出一張圖片中含有的重要線索。現在,打開自己的微博和朋友圈,你也可以分析哪些圖片會暴露自身位置,進而成為自己的網絡內容安全專家。
教練,我想學#
在恪守隱私安全的前提下,網絡迷蹤不失為有益的解謎遊戲。它能夠擴展玩家知識面,增進對現實和網絡的了解,鍛煉推理能力和自主獲取信息能力。
本文側重於提取圖片信息的介紹,網絡資源只是順帶提及。因為在我看來,知道哪些信息可以搜索比如何搜索更重要,也是大部分人參與網絡迷蹤的最大障礙 —— 無法意識到圖片中存在著關鍵信息。在突破這一難關後,你可以借助以圖搜圖獲取進一步信息,或者到專門介紹這類信息的網站上篩選。假如不知道有什麼網站,你還可以搜索或者到專門的論壇上提問,這都是可以慢慢積累經驗解決的問題。
有哪些論壇可以交流?有哪些大神的博客可以訪問?有哪些資源可以為我提供幫助?這些是留給你的網絡迷蹤題:前面我已經給出了很多提示,現在是鍛煉自主獲取信息能力的時候了。
祝你的網絡探索之旅順利!
註釋 [1]:這一命名可能與 2018 年電影《網絡謎蹤》有關,但二者「迷」的寫法有差異。這部電影講述了一名工程師父親利用互聯網尋找失蹤女兒的故事。
註釋 [2]:相近的術語還有在線開源調查(Online Open Source Investigations, OOSI)。鑑於它們通常可以互換使用,本文不打算探討其中的差異。感興趣的讀者可以自行了解。
初入「網絡迷蹤」#
2011 年,人人網上一個名為「羅霄宇 BHSFer」的用戶發表的一篇名為《我是如何推理出王珞丹住址的?》的日誌被各家媒體轉載,作者介紹了自己利用王珞丹微博所發的照片以及 Google Earth 等工具,歷時 40 分鐘推理出王珞丹前住址的全过程,彼時曾掀起軒然大波 [2]。
2015 年,有微博網友發了一張形似龍的河流或水庫的照片 [3],當時很多網友留言說是「假的」、「P 的」(當然更多網友是在轉發求運氣),經過我的尋找,這是葡萄牙的奧德萊蒂河(Ribeira de Odeleite),證實確有此事。這應該算做我個人的第一次「網絡迷蹤」之旅吧。
進入到短視頻時代,B 站 up 主「我是 EyeOpener」的幾個「網絡迷蹤」系列視頻 [4] 獲得千萬次播放,「探照尋址」[5]、「宇宙百科君」[6]、「夜點短視頻」[7] 等人的「網絡迷蹤」專欄相繼開播,將「網絡迷蹤」這種玩法呈現給了大眾視野。
類似玩法在國外已經相當流行。例如在 Twitter 上,一位叫「Verif!cation Quiz Bot」的機器人 [8] 的迷蹤題每天都會吸引大量網友參賽。與此同時,Twitter 上還有大量關注「俄烏戰爭」的網友們自發地對各類網傳的圖片、視頻進行地理定位,並將其彙總在一張 Google 自定義地圖 [9] 上。在此期間,不少 OSINT 相關技術和工具應運而生。
如果你也希望玩類似推理遊戲,可以前往國內的「炒飯社區」的「網絡迷蹤」板塊:https://chao.fan/f/84。[10] 這個論壇是國內圈內最大的愛好者聚集地,不僅每天都有飯友發出各種圖片(絕大部分都是自己拍攝或授權發布的),向其他「偵探們」提出挑戰,社區還會根據成就贈送徽章,並定期舉辦比賽。論壇還有個子版塊叫「遠古難題」,6 個月沒有任何人能破解的謎題則會自動移動到該板塊,成功解決「遠古難題」則可以獲得寶貴的「初解遠古」以及「遠古粉碎機」徽章。
插播一句,「炒飯社區」還有一個叫「圖尋」的小游戏(https://chao.fan/tuxun),這個遊戲取材自類似的「GeoGuessr」,每分鐘玩家會出生在真實世界一個隨機位置上,玩家需要根據周圍環境的全景圖,推測出自己在世界地圖裡的位置,按推測位置與實際位置距離之差計算積分。可多人實時在線競技,可以匹配 Solo,還有每日挑戰賽,休閒的同時還能順便逛逛世界各地風景。
儘管「網絡迷蹤」本身並沒有明確的難度劃分標準,從我個人的經驗來看,「網絡迷蹤」的題型主要有三種:
- 送分題:分為識字題和識圖題兩種,並不考驗綜合分析能力技巧,適合新手入門。
- 分析題:需要通過識字、識圖提取畫面信息,結合個人知識儲備和各類工具進行縝密分析得到答案。
- 超綱題:畫面中可利用的信息過少,即便是老手也很難解讀,很容易成為「遠古難題」。
我將以「炒飯社區」中常見的各類不同難度的謎題為案例,通過由淺至深的方式來聊聊這篇入門指南的核心內容:如何用一張照片推理具體位置。
1. 送分題 —— 學會「識字」和「識圖」#
當看到一道「網絡迷蹤」題目後,首先要做的就是進行「識字」和「識圖」,仔細審題和觀察,提取畫面信息、擴大信息含量。實際上社區裡不少新手謎題僅僅通過簡單的「識字」或「識圖」就已經能完成解答了,如果還不夠,則再進行進一步分析。
1.1 識字#
文字信息是用於推測照片拍攝位置最簡單也是最直接的方式。照片的任何犄角旮旯都可能藏有文字,因此即便是模糊不清或已經被打碼過的信息,都要善加利用,它們很可能成為解題關鍵。文字信息可能來源於:
- 建築招牌、商鋪名稱
- 車輛牌照、電話號碼
- 路牌、公交車路線
- 宣傳海報、廣告牌等
先舉個簡單的例子:https://chao.fan/p/1199749(圖 1.1-1)
原帖作者聲稱這張圖片「拍攝於 2021 年 4 月 25 號重慶,女友坐在車裡拍攝的」。原圖非常模糊,除了能識別出一個「@汽車吧」的水印以外,還有一個「公園洋房 6850 01**」的廣告語文字。除此以外,建築和道路都非常普通,沒有什麼特徵可言。
看到這道題,我首先想到的是這個「@汽車吧」的百度貼吧水印 —— 這代表著這張圖可能從貼吧轉載而來,原帖可能包含高清大圖或者其他信息(其實屬於場外信息了),可惜在「汽車吧」搜索之後沒有找到這個帖子。所以我再次把注意力集中在這個「公園洋房 6850 01**」的廣告語文字(圖 1.1-2)上。
我們知道,這種樓盤圍牆廣告一般用於正在開盤中的樓盤附近,也就是說只要知道這個樓盤是什