分析稱19.42%的Twitter活躍賬號是虛假或垃圾郵件賬戶
2022年5月13-15日,SparkToro和Followerwonk對過去90天內活躍的44058個公共Twitter賬戶進行了嚴格的聯(lián)合分析。這些賬戶是通過機器從1.3億多個公開的、活躍的個人資料中隨機選擇的。該分析發(fā)現(xiàn),19.42%符合虛假或垃圾郵件賬戶的保守定義。詳情和方法見下面的報告全文。
在過去的三年里,SparkToro一直在運營一個名為 Fake Followers的Twitter個人資料免費工具。在過去的一個月里,許多媒體和其他好奇的各方都使用該工具來分析可能成為Twitter收購者的埃隆·馬斯克(Elon Musk)的粉絲。上周五,馬斯克發(fā)推文說他對Twitter的收購被 “擱置”了,因為有人質疑Twitter的用戶中有多少是虛假或垃圾郵件賬戶。
SparkToro是一個只有三個人的小團隊,F(xiàn)ake Followers旨在進行非正式的免費研究(實際業(yè)務是受眾研究軟件)。然而,鑒于公眾的重大興趣,SparkToro與Twitter研究工具Followerwonk(其所有者Marc Mims是一個長期的朋友)聯(lián)手進行了嚴格的分析回答。
什么是垃圾郵件或虛假Twitter賬戶?
多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?
馬斯克的粉絲中,有百分之多少是垃圾郵件、虛假或不活躍的賬戶?
為什么SparkToro的方法應該被信任?
SparkToro在下文中逐一討論這些問題。
什么是垃圾郵件或虛假Twitter帳戶?
SparkToro的定義(可能與Twitter自己的定義不同)可以最好地描述如下。
“垃圾郵件或虛假Twitter賬戶是指那些不經(jīng)常有人類親自撰寫其推文內容、消費其時間線上的活動或參與Twitter生態(tài)系統(tǒng)的賬戶。”
這個定義下的許多 “虛假”賬戶既不邪惡也沒有問題。例如,相當多的用戶發(fā)現(xiàn)關注@newsycombinator(它自動分享黑客新聞網(wǎng)站的頭版文章)或@_restaurant_bot(它推送通過Google地圖發(fā)現(xiàn)的隨機餐廳的照片和鏈接)這樣的機器人有價值。可以說,這些賬戶使Twitter成為一個更好的地方。他們只是沒有一個人在設備后面,親自參與到Twitter的生態(tài)系統(tǒng)中。
相比之下,大多數(shù)“垃圾郵件”賬戶是一種不受歡迎的滋擾。他們的活動范圍從兜售宣傳和虛假信息到那些試圖銷售產品、誘導網(wǎng)站點擊、推送網(wǎng)絡釣魚嘗試或惡意軟件、操縱股票或加密貨幣,以及(也許最糟糕的)騷擾或恐嚇平臺用戶。
SparkToro的假粉絲方法(下文有詳細描述)試圖識別所有這些類型的不真實的用戶。
然而,SparkToro的系統(tǒng)并不試圖識別可能由人類不定期操作但有一些自動化行為的Twitter賬戶(例如,一個有多個用戶的公司賬戶,如他們自己的@SparkToro,或一個由一個人操作的社區(qū)賬戶,如Aleyda Solis的@CrawlingMondays)。他們無法知道Twitter(或馬斯克)可能會選擇如何對這些賬戶進行分類,但他們偏向于對“垃圾郵件/虛假”的相對保守的解釋。
多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?
為了得到最全面的答案,SparkToro在五個獨特的數(shù)據(jù)集上應用了一個單一的垃圾郵件/虛假賬戶分析過程(如下所述)。
以上所代表的數(shù)據(jù)集是:
1.Followerwonk隨機樣本(44058個賬戶)--Followerwonk目前有10.47億個Twitter資料索引,以連續(xù)的周期更新,需要30天左右。任何被刪除的賬戶(由用戶或Twitter)都會被刪除,不包括在統(tǒng)計中。根據(jù)Followerwonk的定義,其中1.3億是 “近期活躍”的,即在過去9周內曾發(fā)布推文,并且是公開的,而不是“受保護”的(Twitter對私人賬戶的術語)。
Marc 寫了代碼,從Followerwonk的活躍數(shù)據(jù)庫中隨機選擇公共賬戶,并將它們傳遞給SparkToro進行分析。SparkToro團隊的Casey進一步刷新了這個名單,并通過他們的虛假粉絲垃圾郵件分析程序運行了44058個公共活躍賬戶,發(fā)現(xiàn)8555個賬戶的特征與虛假/垃圾郵件賬戶高度相關。他們相信這個數(shù)據(jù)集代表了對有多少活躍的Twitter用戶可能是垃圾郵件或假的問題的最佳、單一答案。
2.虛假追隨者工具的匯總平均值(約50萬個配置文件運行,分析了1億多個賬戶)--在過去3年半的運作中,SparkToro的虛假追隨者工具已經(jīng)在501532個獨特的賬戶上運行,并分析了其中每個賬戶的數(shù)千個追隨者,總計超過10億個配置文件(盡管這些并不一定獨特,而且他們沒有跟蹤哪些配置文件被分析為該過程的一部分)。
這代表了他們可以獲得的最大的賬戶集,但它包括對許多老賬戶的分析,這些賬戶在過去90天內沒有發(fā)送過推文,因此,很可能不符合Twitter對mDAUs(可盈利的日活躍用戶)的定義。他們把它包括在內是為了進行比較,并表明包括簡單的隨機Twitter賬戶(與那些最近活躍的賬戶相比)的分析可能不那么準確。
3.Twitter上@ElonMusk的所有追隨者(9340萬個賬戶)--鑒于人們對馬斯克的賬戶的獨特興趣,以及它在觸發(fā)這份報告中所發(fā)揮的核心作用,研究團隊認為包括對關注@ElonMusk的近億個賬戶的完整分析是明智的。這個數(shù)據(jù)集包括了在過去90天內沒有發(fā)過推文的舊資料(不符合Twitter的mDAUs定義)。
4.Twitter上@ElonMusk的活躍粉絲(2680萬個賬戶)--對馬斯克的Twitter粉絲進行更公平的評估,只包括在過去90天內發(fā)過推文的賬戶。為了與Followerwonk的分析方法相匹配,SparkToro團隊只選擇了那些符合這一標準的26,878,729個賬戶,并在上圖中把它們細分出來。
5.對關注@Twitter賬戶的100個用戶進行隨機抽樣(100個賬戶)--在5月13日周五的推文的后續(xù)報道中,馬斯克說,“我的團隊將對@twitter的100個關注者進行隨機抽樣;我邀請其他人重復同樣的過程,看看他們有什么發(fā)現(xiàn)。”
雖然SparkToro團隊不認為這個過程是一個嚴格的、具有統(tǒng)計學意義的樣本集,但他們還是把它包括在內,以便進行比較。5月14日,他們從@Twitter的粉絲公共頁面中手動抽取了一個隨機賬戶樣本。為了得到偏差最小的樣本,他們只包括公共賬戶,只包括在過去90天(2022年2月12日之后)發(fā)送推文的賬戶,只包括2021年5月之前創(chuàng)建的賬戶,即他們已經(jīng)在Twitter上呆了1年以上(許多最近的賬戶,特別是考慮到馬斯克的活動,可能使樣本產生偏差)。
6.Twitter最近的收益報告估計(賬戶數(shù)量不明)--馬斯克在最近的推文中引用了Twitter的公開收益報告,分享了<5%的mDAUs(可盈利的每日活躍用戶,在他們的2019年報告中定義)是虛假或垃圾郵件。SparkToro在圖表中加入了這一估計,以便進行比較,并指出其方法未被披露。
毫無疑問,其他研究人員將作出其他估計,希望有同樣大和嚴格的數(shù)據(jù)集。鑒于Twitter公開數(shù)據(jù)的局限性,SparkToro團隊認為最準確的估計是:在過去90天內發(fā)送過推文的公共賬戶中,有19.42%是虛假或垃圾郵件賬戶。
馬斯克的Twitter粉絲有多大比例是垃圾郵件、虛假或不活躍的?
2018年10月,SparkToro分析了當時的美國總統(tǒng)唐納德-特朗普在.Twitter上的所有54,788,369名追隨者。在這份報告中,SparkToro復制了這一過程,分析了馬斯克個人資料中的所有93,452,093名粉絲(截至2022年5月14日)。
當通過SparkToro的公共工具運行虛假追隨者報告時,其團隊分析了一個Twitter用戶的追隨者樣本(幾千個)。當一個賬戶有非常多的追隨者時,這種方法可能會偏離對每個追隨者的全面分析所顯示的情況。在5月14日星期六和5月15日星期日,SparkToro的Casey Henry 對馬斯克的賬戶進行了這一全面分析,以提供盡可能精確的數(shù)字。
上面是SparkToro的垃圾郵件分析系統(tǒng)中使用的一些因素的分類,總的來說,70.23%的@ElonMusk的粉絲不太可能是看到他的推文的真實、活躍用戶。這遠遠高于假粉絲的中位數(shù),但并不令人驚訝,原因有幾個。
非常大的賬戶往往比其他賬戶有更多的虛假/垃圾郵件粉絲
受到大量媒體報道和公眾關注的賬戶(如美國前總統(tǒng)特朗普和馬斯克)往往比其他賬戶吸引更多的虛假/垃圾郵件追隨者
Twitter向新用戶推薦的賬戶(通常包括@ElonMusk)往往會獲得更多的虛假/垃圾郵件關注者。
與其他Twitter賬戶的分布情況相比,@ElonMusk的虛假/垃圾郵件追隨者數(shù)量可能顯得不正常,但SparkToro不認為或暗示馬斯克對獲得這些可疑的追隨者負有直接責任。最有可能的解釋是上述因素的組合,而馬斯克對Twitter的積極使用、媒體對其推文的報道以及Twitter自己的推薦系統(tǒng)更加劇了這種情況。
SparkToro團隊也只對那些在過去90天內發(fā)過推文的2680萬@ElonMusk的粉絲進行了分析。這個過濾器與他們應用于Followerwonk數(shù)據(jù)集和@Twitter的隨機關注者的過濾器相匹配。
這種更有選擇性的分析發(fā)現(xiàn)23.42%的人可能是虛假或垃圾郵件賬戶,這個數(shù)字與估計的全球平均數(shù)相差不遠。
為什么要相信SparkToro和Followerwonk的方法學?
上述分析的數(shù)據(jù)集(除了@Twitter的隨機100名粉絲,研究團隊不贊成這種方法)范圍足夠大,過程足夠嚴格,其結果可由任何具有類似公共權限的Twitter研究人員復制。研究團隊邀請任何有興趣的人在他們自己的數(shù)據(jù)集上復制在這里使用的過程(并在下面詳細描述)。Twitter在這里提供了關于他們的API產品的信息。
Followerwonk只從那些在過去90天內有公開推文發(fā)表的賬戶中隨機抽取樣本,這是"活動"的明確標志。此外,F(xiàn)ollowerwonk定期更新其個人資料數(shù)據(jù)庫(每30天),以刪除任何受保護或刪除的賬戶。他們相信,這個樣本的規(guī)模足夠大,具有統(tǒng)計學意義,并且經(jīng)過精心策劃,最接近于Twitter可能認為的可盈利的每日活躍用戶(mDAU)。
SparkToro的虛假粉絲分析認為,如果一個賬戶觸發(fā)了SparkToro在他們的虛假粉絲工具中顯示的許多信號,那么它就是虛假的。
SparkToro識別虛假賬戶的模型來自于對數(shù)萬個已知的垃圾(和真實)Twitter賬戶進行的機器學習過程。以下是SparkToro如何建立這個模型的。
2018年7月,SparkToro團隊從3個不同的垃圾郵件和機器人賬戶供應商那里購買了3.5萬個虛假Twitter粉絲賬戶。他們的供應商讓這些賬戶關注一個空的Twitter賬戶,該賬戶創(chuàng)建于2016年,在2018年7月有0個粉絲。花了~3周的時間來交付這35,000名粉絲。在接下來的3周里,他們每天都會收集這些虛假/垃圾賬戶的數(shù)據(jù)。
除了這35000個已知的垃圾郵件賬戶,團隊又從SparkToro的大型檔案索引中隨機抽取了50,000個非垃圾郵件賬戶。這給了我們總共85,000個賬戶,在亞馬遜網(wǎng)絡服務上通過機器學習程序運行。
這85,000個賬戶被分成兩組,其中混合了垃圾郵件和非垃圾郵件賬戶。A組作為訓練集,B組作為測試集,以分析模型的性能。
以下數(shù)據(jù)被用于初始模型的生成:
資料圖片
簡介URL
已驗證的賬戶狀態(tài)
語言
Twitter語言
帳戶年齡(天數(shù))
個人簡介的長度
追隨者的數(shù)量
他們關注的賬戶數(shù)量
距離上次發(fā)推的天數(shù)
推文的數(shù)量
帳戶出現(xiàn)在名單上的次數(shù)
地點
顯示名稱
在找到符合數(shù)據(jù)的模型后,SparkToro團隊分析了結果,以確定與垃圾郵件密切相關的特征。不出所料,沒有一個特征與垃圾郵件有1:1的相關性。但是,很多特征在組合使用時顯示出前景。以下是與垃圾郵件賬戶相關的特征的例子。
資料圖片 - 缺乏這些資料的賬戶往往是垃圾郵件。
賬號年齡(天數(shù))--某些模式顯然與垃圾郵件有關(例如,當一天內創(chuàng)建的大量賬號關注特定的賬號或發(fā)送幾乎相同的推文)。
追隨者的數(shù)量 - 垃圾郵件賬戶往往只有很少的追隨者
自上一條推文以來的天數(shù)--許多垃圾郵件賬戶很少發(fā)推文,而且是以協(xié)調的方式發(fā)推文
帳戶出現(xiàn)在名單上的次數(shù) - 垃圾郵件帳戶幾乎從不出現(xiàn)在名單上
顯示名稱 - 某些關鍵詞和模式與垃圾郵件密切相關
然而,這些并不是唯一的,其他與垃圾郵件有適當相關性的信號(特別是當多個信號適用于一個賬戶時)也有助于建立一個有效的模型。通過試驗和錯誤(當然還有模式擬合),他們精心設計了一個評分系統(tǒng),可以正確識別超過65%的垃圾郵件賬戶。他們故意偏向于遺漏一些虛假/垃圾郵件賬戶,而不是意外地將任何真正的賬戶標記為錯誤的。
關鍵是要記住,沒有一個因素能告訴他們一個賬戶是垃圾郵件!這一點很關鍵。觸發(fā)的垃圾郵件信號越多,一個賬戶就越有可能是垃圾郵件。我們的虛假追隨者系統(tǒng)要求在將一個賬戶評為"低質量"或虛假之前,至少要有17個垃圾郵件信號中的一小部分,有時甚至多達10多個(取決于哪些信號,以及它們的預測性)。
這種方法可能低估了垃圾郵件和虛假賬戶的數(shù)量,但幾乎不包括假陽性(即聲稱一個賬戶是假的,但其實不是)。
對Followerwonk提供的約4.4萬個隨機的、最近活躍的賬戶應用這一模型,可以得出每個賬戶的質量分數(shù),如下圖所示。
一個賬戶觸發(fā)的垃圾郵件相關標志越多,其在該系統(tǒng)中的質量得分就越低。Sparktoro的保守方法意味著我們只將3、2和1的分數(shù)視為虛假/垃圾郵件賬戶,而這三個的組合產生了他們的最終估計,最好的說明是:19.42%的最近活躍的公共Twitter資料極有可能是虛假或垃圾郵件。
推薦
-
NAND閃存市場6月初解封后會逐步回歸正常 下半年反彈力道強勁
中國臺灣 NAND 閃存控制器大廠慧榮科技總經(jīng)理茍嘉章日前表示,今年第二季度 NAND 市場景氣受到中國...
來源:愛集微 -
為應對馬斯克收購 推特凍結大部分招聘并將大幅削減開支
推特首席執(zhí)行官在與全體員工分享的備忘錄中宣布,為應對世界首富埃隆?馬斯克(Elon Musk)的收購,該公...
來源:網(wǎng)易科技 -
每周發(fā)1900元補貼 特斯拉開始撒錢促產
做六休一,工作發(fā) 300(元)補貼,休息發(fā) 100(元)補貼。在艱難實現(xiàn)了復工之后,特斯拉開始撒錢促產。經(jīng)...
來源:車東西 -
洞察號火星探測器檢測到開始工作以來火星發(fā)生的最強震 達到里氏5級
美國國家航空航天局(NASA)宣布,旗下的洞察號火星探測器開始工作以來檢測到火星發(fā)生的最強震,達到里氏...
來源:網(wǎng)易科技 -
-
-
加快引進優(yōu)質裝備制造項目 海南兩部門印發(fā)相關文件
從海南省工業(yè)和信息廳獲悉,近日,海南省工業(yè)和信息化廳會同海南省財政廳制定印發(fā)了《海南省先進裝備制...
來源:央視新聞 -
英業(yè)達董事長表示 東南亞不太可能在短期內成為全球制造業(yè)中心
英業(yè)達董事長 Tom Cho 表示,東南亞不太可能在短期內取代中國大陸成為全球制造業(yè)中心,對中國臺灣企...
來源:愛集微 -
-
4月以來我國累計報告本土感染者55萬余例 疫情防控工作經(jīng)歷嚴峻考驗
4月以來,我國累計報告本土感染者55萬余例,新冠疫情防控工作經(jīng)歷了武漢保衛(wèi)戰(zhàn)之后最為嚴峻的考驗。在4...
來源:科技日報
直播更多》
-
LG新能源第二任CEO權暎壽 已前往美國同特斯拉高管會面
去年年底被任命為 LG 新能源第二任 C...
-
LG新能源第二任CEO權暎壽 已前往美國同特斯拉高管會面
去年年底被任命為 LG 新能源第二任 C...
-
太空公司SpaceX宣布 星鏈現(xiàn)已覆蓋全球四大洲32個國家可用
埃隆?馬斯克旗下太空公司(Elon Musk)S...
-
特斯拉對2170電池需求持續(xù)強勁 要求松下增加供應量
松下 CFO 梅田博和 (Hirokazu Umeda...
-
由于零部件供應短缺 索尼與任天堂全年游戲機都將供不應求
日本索尼集團和任天堂都表示,由于零部...
-
可作為合成氣制備乙二醇 C60電子緩沖劑功能被我科學家揭曉
以C60為代表的富勒烯被譽為納米王子,在...
資訊更多》
焦點
- 4月份韓國新能源汽車本土銷量同比大增57.7% 連續(xù)三個月呈現(xiàn)增勢
- 俄烏危機影響跨境業(yè)務 阿里巴巴集團對其俄羅斯合資企業(yè)裁員大約40%
- 載人飛船即將再次進行無人飛行測試 波音與飛船零部件關鍵供應商鬧翻
- 掃描二維碼更方便 安卓13新特性大盤點
- 高性能混聯(lián)加工機器人 獲得天津市技術發(fā)明一等獎
- 一次巨大撞擊的兩種結局 科學家對月球背面提出新解釋
- 一季度我國互聯(lián)網(wǎng)投融資案例數(shù)環(huán)比減少35.3% 同比減少38.3%
- 培育新增長引擎 三星電子在加速元宇宙相關技術研發(fā)
- 現(xiàn)代汽正與電池制造商SKOn討論 或在美國成立一家電池合資企業(yè)
- 科學家最新研究發(fā)現(xiàn) 動脈粥樣硬化斑塊與中樞神經(jīng)系統(tǒng)之間存在聯(lián)系