分析稱19.42%的Twitter活躍賬號是虛假或垃圾郵件賬戶

來源:cnBeta.COM

2022年5月13-15日,SparkToro和Followerwonk對過去90天內活躍的44058個公共Twitter賬戶進行了嚴格的聯(lián)合分析。這些賬戶是通過機器從1.3億多個公開的、活躍的個人資料中隨機選擇的。該分析發(fā)現(xiàn),19.42%符合虛假或垃圾郵件賬戶的保守定義。詳情和方法見下面的報告全文。

在過去的三年里,SparkToro一直在運營一個名為 Fake Followers的Twitter個人資料免費工具。在過去的一個月里,許多媒體和其他好奇的各方都使用該工具來分析可能成為Twitter收購者的埃隆·馬斯克(Elon Musk)的粉絲。上周五,馬斯克發(fā)推文說他對Twitter的收購被 “擱置”了,因為有人質疑Twitter的用戶中有多少是虛假或垃圾郵件賬戶。

SparkToro是一個只有三個人的小團隊,F(xiàn)ake Followers旨在進行非正式的免費研究(實際業(yè)務是受眾研究軟件)。然而,鑒于公眾的重大興趣,SparkToro與Twitter研究工具Followerwonk(其所有者Marc Mims是一個長期的朋友)聯(lián)手進行了嚴格的分析回答。

什么是垃圾郵件或虛假Twitter賬戶?

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?

馬斯克的粉絲中,有百分之多少是垃圾郵件、虛假或不活躍的賬戶?

為什么SparkToro的方法應該被信任?

SparkToro在下文中逐一討論這些問題。

什么是垃圾郵件或虛假Twitter帳戶?

SparkToro的定義(可能與Twitter自己的定義不同)可以最好地描述如下。

“垃圾郵件或虛假Twitter賬戶是指那些不經(jīng)常有人類親自撰寫其推文內容、消費其時間線上的活動或參與Twitter生態(tài)系統(tǒng)的賬戶。”

這個定義下的許多 “虛假”賬戶既不邪惡也沒有問題。例如,相當多的用戶發(fā)現(xiàn)關注@newsycombinator(它自動分享黑客新聞網(wǎng)站的頭版文章)或@_restaurant_bot(它推送通過Google地圖發(fā)現(xiàn)的隨機餐廳的照片和鏈接)這樣的機器人有價值。可以說,這些賬戶使Twitter成為一個更好的地方。他們只是沒有一個人在設備后面,親自參與到Twitter的生態(tài)系統(tǒng)中。

相比之下,大多數(shù)“垃圾郵件”賬戶是一種不受歡迎的滋擾。他們的活動范圍從兜售宣傳和虛假信息到那些試圖銷售產品、誘導網(wǎng)站點擊、推送網(wǎng)絡釣魚嘗試或惡意軟件、操縱股票或加密貨幣,以及(也許最糟糕的)騷擾或恐嚇平臺用戶。

SparkToro的假粉絲方法(下文有詳細描述)試圖識別所有這些類型的不真實的用戶。

然而,SparkToro的系統(tǒng)并不試圖識別可能由人類不定期操作但有一些自動化行為的Twitter賬戶(例如,一個有多個用戶的公司賬戶,如他們自己的@SparkToro,或一個由一個人操作的社區(qū)賬戶,如Aleyda Solis的@CrawlingMondays)。他們無法知道Twitter(或馬斯克)可能會選擇如何對這些賬戶進行分類,但他們偏向于對“垃圾郵件/虛假”的相對保守的解釋。

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶?

為了得到最全面的答案,SparkToro在五個獨特的數(shù)據(jù)集上應用了一個單一的垃圾郵件/虛假賬戶分析過程(如下所述)。

以上所代表的數(shù)據(jù)集是:

1.Followerwonk隨機樣本(44058個賬戶)--Followerwonk目前有10.47億個Twitter資料索引,以連續(xù)的周期更新,需要30天左右。任何被刪除的賬戶(由用戶或Twitter)都會被刪除,不包括在統(tǒng)計中。根據(jù)Followerwonk的定義,其中1.3億是 “近期活躍”的,即在過去9周內曾發(fā)布推文,并且是公開的,而不是“受保護”的(Twitter對私人賬戶的術語)。

Marc 寫了代碼,從Followerwonk的活躍數(shù)據(jù)庫中隨機選擇公共賬戶,并將它們傳遞給SparkToro進行分析。SparkToro團隊的Casey進一步刷新了這個名單,并通過他們的虛假粉絲垃圾郵件分析程序運行了44058個公共活躍賬戶,發(fā)現(xiàn)8555個賬戶的特征與虛假/垃圾郵件賬戶高度相關。他們相信這個數(shù)據(jù)集代表了對有多少活躍的Twitter用戶可能是垃圾郵件或假的問題的最佳、單一答案。

2.虛假追隨者工具的匯總平均值(約50萬個配置文件運行,分析了1億多個賬戶)--在過去3年半的運作中,SparkToro的虛假追隨者工具已經(jīng)在501532個獨特的賬戶上運行,并分析了其中每個賬戶的數(shù)千個追隨者,總計超過10億個配置文件(盡管這些并不一定獨特,而且他們沒有跟蹤哪些配置文件被分析為該過程的一部分)。

這代表了他們可以獲得的最大的賬戶集,但它包括對許多老賬戶的分析,這些賬戶在過去90天內沒有發(fā)送過推文,因此,很可能不符合Twitter對mDAUs(可盈利的日活躍用戶)的定義。他們把它包括在內是為了進行比較,并表明包括簡單的隨機Twitter賬戶(與那些最近活躍的賬戶相比)的分析可能不那么準確。

3.Twitter上@ElonMusk的所有追隨者(9340萬個賬戶)--鑒于人們對馬斯克的賬戶的獨特興趣,以及它在觸發(fā)這份報告中所發(fā)揮的核心作用,研究團隊認為包括對關注@ElonMusk的近億個賬戶的完整分析是明智的。這個數(shù)據(jù)集包括了在過去90天內沒有發(fā)過推文的舊資料(不符合Twitter的mDAUs定義)。

4.Twitter上@ElonMusk的活躍粉絲(2680萬個賬戶)--對馬斯克的Twitter粉絲進行更公平的評估,只包括在過去90天內發(fā)過推文的賬戶。為了與Followerwonk的分析方法相匹配,SparkToro團隊只選擇了那些符合這一標準的26,878,729個賬戶,并在上圖中把它們細分出來。

5.對關注@Twitter賬戶的100個用戶進行隨機抽樣(100個賬戶)--在5月13日周五的推文的后續(xù)報道中,馬斯克說,“我的團隊將對@twitter的100個關注者進行隨機抽樣;我邀請其他人重復同樣的過程,看看他們有什么發(fā)現(xiàn)。”

雖然SparkToro團隊不認為這個過程是一個嚴格的、具有統(tǒng)計學意義的樣本集,但他們還是把它包括在內,以便進行比較。5月14日,他們從@Twitter的粉絲公共頁面中手動抽取了一個隨機賬戶樣本。為了得到偏差最小的樣本,他們只包括公共賬戶,只包括在過去90天(2022年2月12日之后)發(fā)送推文的賬戶,只包括2021年5月之前創(chuàng)建的賬戶,即他們已經(jīng)在Twitter上呆了1年以上(許多最近的賬戶,特別是考慮到馬斯克的活動,可能使樣本產生偏差)。

6.Twitter最近的收益報告估計(賬戶數(shù)量不明)--馬斯克在最近的推文中引用了Twitter的公開收益報告,分享了<5%的mDAUs(可盈利的每日活躍用戶,在他們的2019年報告中定義)是虛假或垃圾郵件。SparkToro在圖表中加入了這一估計,以便進行比較,并指出其方法未被披露。

毫無疑問,其他研究人員將作出其他估計,希望有同樣大和嚴格的數(shù)據(jù)集。鑒于Twitter公開數(shù)據(jù)的局限性,SparkToro團隊認為最準確的估計是:在過去90天內發(fā)送過推文的公共賬戶中,有19.42%是虛假或垃圾郵件賬戶。

馬斯克的Twitter粉絲有多大比例是垃圾郵件、虛假或不活躍的?

2018年10月,SparkToro分析了當時的美國總統(tǒng)唐納德-特朗普在.Twitter上的所有54,788,369名追隨者。在這份報告中,SparkToro復制了這一過程,分析了馬斯克個人資料中的所有93,452,093名粉絲(截至2022年5月14日)。

當通過SparkToro的公共工具運行虛假追隨者報告時,其團隊分析了一個Twitter用戶的追隨者樣本(幾千個)。當一個賬戶有非常多的追隨者時,這種方法可能會偏離對每個追隨者的全面分析所顯示的情況。在5月14日星期六和5月15日星期日,SparkToro的Casey Henry 對馬斯克的賬戶進行了這一全面分析,以提供盡可能精確的數(shù)字。

上面是SparkToro的垃圾郵件分析系統(tǒng)中使用的一些因素的分類,總的來說,70.23%的@ElonMusk的粉絲不太可能是看到他的推文的真實、活躍用戶。這遠遠高于假粉絲的中位數(shù),但并不令人驚訝,原因有幾個。

非常大的賬戶往往比其他賬戶有更多的虛假/垃圾郵件粉絲

受到大量媒體報道和公眾關注的賬戶(如美國前總統(tǒng)特朗普和馬斯克)往往比其他賬戶吸引更多的虛假/垃圾郵件追隨者

Twitter向新用戶推薦的賬戶(通常包括@ElonMusk)往往會獲得更多的虛假/垃圾郵件關注者。

與其他Twitter賬戶的分布情況相比,@ElonMusk的虛假/垃圾郵件追隨者數(shù)量可能顯得不正常,但SparkToro不認為或暗示馬斯克對獲得這些可疑的追隨者負有直接責任。最有可能的解釋是上述因素的組合,而馬斯克對Twitter的積極使用、媒體對其推文的報道以及Twitter自己的推薦系統(tǒng)更加劇了這種情況。

SparkToro團隊也只對那些在過去90天內發(fā)過推文的2680萬@ElonMusk的粉絲進行了分析。這個過濾器與他們應用于Followerwonk數(shù)據(jù)集和@Twitter的隨機關注者的過濾器相匹配。

這種更有選擇性的分析發(fā)現(xiàn)23.42%的人可能是虛假或垃圾郵件賬戶,這個數(shù)字與估計的全球平均數(shù)相差不遠。

為什么要相信SparkToro和Followerwonk的方法學?

上述分析的數(shù)據(jù)集(除了@Twitter的隨機100名粉絲,研究團隊不贊成這種方法)范圍足夠大,過程足夠嚴格,其結果可由任何具有類似公共權限的Twitter研究人員復制。研究團隊邀請任何有興趣的人在他們自己的數(shù)據(jù)集上復制在這里使用的過程(并在下面詳細描述)。Twitter在這里提供了關于他們的API產品的信息。

Followerwonk只從那些在過去90天內有公開推文發(fā)表的賬戶中隨機抽取樣本,這是"活動"的明確標志。此外,F(xiàn)ollowerwonk定期更新其個人資料數(shù)據(jù)庫(每30天),以刪除任何受保護或刪除的賬戶。他們相信,這個樣本的規(guī)模足夠大,具有統(tǒng)計學意義,并且經(jīng)過精心策劃,最接近于Twitter可能認為的可盈利的每日活躍用戶(mDAU)。

SparkToro的虛假粉絲分析認為,如果一個賬戶觸發(fā)了SparkToro在他們的虛假粉絲工具中顯示的許多信號,那么它就是虛假的。

SparkToro識別虛假賬戶的模型來自于對數(shù)萬個已知的垃圾(和真實)Twitter賬戶進行的機器學習過程。以下是SparkToro如何建立這個模型的。

2018年7月,SparkToro團隊從3個不同的垃圾郵件和機器人賬戶供應商那里購買了3.5萬個虛假Twitter粉絲賬戶。他們的供應商讓這些賬戶關注一個空的Twitter賬戶,該賬戶創(chuàng)建于2016年,在2018年7月有0個粉絲。花了~3周的時間來交付這35,000名粉絲。在接下來的3周里,他們每天都會收集這些虛假/垃圾賬戶的數(shù)據(jù)。

除了這35000個已知的垃圾郵件賬戶,團隊又從SparkToro的大型檔案索引中隨機抽取了50,000個非垃圾郵件賬戶。這給了我們總共85,000個賬戶,在亞馬遜網(wǎng)絡服務上通過機器學習程序運行。

這85,000個賬戶被分成兩組,其中混合了垃圾郵件和非垃圾郵件賬戶。A組作為訓練集,B組作為測試集,以分析模型的性能。

以下數(shù)據(jù)被用于初始模型的生成:

資料圖片

簡介URL

已驗證的賬戶狀態(tài)

語言

Twitter語言

帳戶年齡(天數(shù))

個人簡介的長度

追隨者的數(shù)量

他們關注的賬戶數(shù)量

距離上次發(fā)推的天數(shù)

推文的數(shù)量

帳戶出現(xiàn)在名單上的次數(shù)

地點

顯示名稱

在找到符合數(shù)據(jù)的模型后,SparkToro團隊分析了結果,以確定與垃圾郵件密切相關的特征。不出所料,沒有一個特征與垃圾郵件有1:1的相關性。但是,很多特征在組合使用時顯示出前景。以下是與垃圾郵件賬戶相關的特征的例子。

資料圖片 - 缺乏這些資料的賬戶往往是垃圾郵件。

賬號年齡(天數(shù))--某些模式顯然與垃圾郵件有關(例如,當一天內創(chuàng)建的大量賬號關注特定的賬號或發(fā)送幾乎相同的推文)。

追隨者的數(shù)量 - 垃圾郵件賬戶往往只有很少的追隨者

自上一條推文以來的天數(shù)--許多垃圾郵件賬戶很少發(fā)推文,而且是以協(xié)調的方式發(fā)推文

帳戶出現(xiàn)在名單上的次數(shù) - 垃圾郵件帳戶幾乎從不出現(xiàn)在名單上

顯示名稱 - 某些關鍵詞和模式與垃圾郵件密切相關

然而,這些并不是唯一的,其他與垃圾郵件有適當相關性的信號(特別是當多個信號適用于一個賬戶時)也有助于建立一個有效的模型。通過試驗和錯誤(當然還有模式擬合),他們精心設計了一個評分系統(tǒng),可以正確識別超過65%的垃圾郵件賬戶。他們故意偏向于遺漏一些虛假/垃圾郵件賬戶,而不是意外地將任何真正的賬戶標記為錯誤的。

關鍵是要記住,沒有一個因素能告訴他們一個賬戶是垃圾郵件!這一點很關鍵。觸發(fā)的垃圾郵件信號越多,一個賬戶就越有可能是垃圾郵件。我們的虛假追隨者系統(tǒng)要求在將一個賬戶評為"低質量"或虛假之前,至少要有17個垃圾郵件信號中的一小部分,有時甚至多達10多個(取決于哪些信號,以及它們的預測性)。

這種方法可能低估了垃圾郵件和虛假賬戶的數(shù)量,但幾乎不包括假陽性(即聲稱一個賬戶是假的,但其實不是)。

對Followerwonk提供的約4.4萬個隨機的、最近活躍的賬戶應用這一模型,可以得出每個賬戶的質量分數(shù),如下圖所示。

一個賬戶觸發(fā)的垃圾郵件相關標志越多,其在該系統(tǒng)中的質量得分就越低。Sparktoro的保守方法意味著我們只將3、2和1的分數(shù)視為虛假/垃圾郵件賬戶,而這三個的組合產生了他們的最終估計,最好的說明是:19.42%的最近活躍的公共Twitter資料極有可能是虛假或垃圾郵件。

關鍵詞: Microblog 分析稱19.42%的Twitter活躍

推薦

直播更多》

關閉

資訊更多》

焦點

亚洲免费在线观看| 日产国产精品亚洲系列| 亚洲欧洲精品成人久久奇米网| 亚洲情A成黄在线观看动漫软件 | 亚洲色一色噜一噜噜噜| 亚洲国产成人五月综合网 | 亚洲色偷拍另类无码专区| 亚洲精品国产自在久久| 亚洲不卡无码av中文字幕| 亚洲?V无码乱码国产精品| 天天综合亚洲色在线精品| 国产精品亚洲专区无码WEB| 精品亚洲成A人在线观看青青| 337P日本欧洲亚洲大胆精品| 国产亚洲精彩视频| www国产亚洲精品久久久日本| 午夜亚洲国产成人不卡在线| 亚洲国产精品人人做人人爱| 亚洲va中文字幕无码| 亚洲男人第一无码aⅴ网站 | 亚洲视频国产精品| 亚洲婷婷天堂在线综合| 亚洲国产成人精品无码区在线网站| 亚洲国产成人91精品| 亚洲人成在线中文字幕| 亚洲色精品VR一区区三区| 国产 亚洲 中文在线 字幕| 亚洲男同gay片| 国产成人久久精品亚洲小说| 亚洲午夜福利精品久久| 亚洲一区二区三区自拍公司| 亚洲大尺度无码专区尤物| 99久久亚洲综合精品成人网| 亚洲精品在线免费观看视频| 亚洲AV无码成人专区| 色噜噜的亚洲男人的天堂| 亚洲精品乱码久久久久久不卡 | 亚洲字幕在线观看| 亚洲欧美日韩中文二区| 亚洲av片一区二区三区| 成人午夜亚洲精品无码网站|