日本免费中文字幕,亚洲精品电影久久久影院,一级毛片不收费

分析稱19.42%的Twitter活躍賬號是虛假或垃圾郵件賬戶

2022-05-17 11:37:02 來源：cnBeta.COM

2022年5月13-15日，SparkToro和Followerwonk對過去90天內活躍的44058個公共Twitter賬戶進行了嚴格的聯(lián)合分析。這些賬戶是通過機器從1.3億多個公開的、活躍的個人資料中隨機選擇的。該分析發(fā)現(xiàn)，19.42%符合虛假或垃圾郵件賬戶的保守定義。詳情和方法見下面的報告全文。

在過去的三年里，SparkToro一直在運營一個名為 Fake Followers的Twitter個人資料免費工具。在過去的一個月里，許多媒體和其他好奇的各方都使用該工具來分析可能成為Twitter收購者的埃隆·馬斯克(Elon Musk)的粉絲。上周五，馬斯克發(fā)推文說他對Twitter的收購被 “擱置”了，因為有人質疑Twitter的用戶中有多少是虛假或垃圾郵件賬戶。

SparkToro是一個只有三個人的小團隊，F(xiàn)ake Followers旨在進行非正式的免費研究（實際業(yè)務是受眾研究軟件）。然而，鑒于公眾的重大興趣，SparkToro與Twitter研究工具Followerwonk（其所有者Marc Mims是一個長期的朋友）聯(lián)手進行了嚴格的分析回答。

什么是垃圾郵件或虛假Twitter賬戶？

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶？

馬斯克的粉絲中，有百分之多少是垃圾郵件、虛假或不活躍的賬戶？

為什么SparkToro的方法應該被信任？

SparkToro在下文中逐一討論這些問題。

什么是垃圾郵件或虛假Twitter帳戶？

SparkToro的定義（可能與Twitter自己的定義不同）可以最好地描述如下。

“垃圾郵件或虛假Twitter賬戶是指那些不經(jīng)常有人類親自撰寫其推文內容、消費其時間線上的活動或參與Twitter生態(tài)系統(tǒng)的賬戶。”

這個定義下的許多 “虛假”賬戶既不邪惡也沒有問題。例如，相當多的用戶發(fā)現(xiàn)關注@newsycombinator（它自動分享黑客新聞網(wǎng)站的頭版文章）或@_restaurant_bot（它推送通過Google地圖發(fā)現(xiàn)的隨機餐廳的照片和鏈接）這樣的機器人有價值。可以說，這些賬戶使Twitter成為一個更好的地方。他們只是沒有一個人在設備后面，親自參與到Twitter的生態(tài)系統(tǒng)中。

相比之下，大多數(shù)“垃圾郵件”賬戶是一種不受歡迎的滋擾。他們的活動范圍從兜售宣傳和虛假信息到那些試圖銷售產品、誘導網(wǎng)站點擊、推送網(wǎng)絡釣魚嘗試或惡意軟件、操縱股票或加密貨幣，以及（也許最糟糕的）騷擾或恐嚇平臺用戶。

SparkToro的假粉絲方法（下文有詳細描述）試圖識別所有這些類型的不真實的用戶。

然而，SparkToro的系統(tǒng)并不試圖識別可能由人類不定期操作但有一些自動化行為的Twitter賬戶（例如，一個有多個用戶的公司賬戶，如他們自己的@SparkToro，或一個由一個人操作的社區(qū)賬戶，如Aleyda Solis的@CrawlingMondays）。他們無法知道Twitter（或馬斯克）可能會選擇如何對這些賬戶進行分類，但他們偏向于對“垃圾郵件/虛假”的相對保守的解釋。

多大比例的活躍Twitter賬戶是垃圾郵件或虛假賬戶？

為了得到最全面的答案，SparkToro在五個獨特的數(shù)據(jù)集上應用了一個單一的垃圾郵件/虛假賬戶分析過程（如下所述）。

以上所代表的數(shù)據(jù)集是：

1.Followerwonk隨機樣本（44058個賬戶）--Followerwonk目前有10.47億個Twitter資料索引，以連續(xù)的周期更新，需要30天左右。任何被刪除的賬戶（由用戶或Twitter）都會被刪除，不包括在統(tǒng)計中。根據(jù)Followerwonk的定義，其中1.3億是 “近期活躍”的，即在過去9周內曾發(fā)布推文，并且是公開的，而不是“受保護”的（Twitter對私人賬戶的術語）。
Marc 寫了代碼，從Followerwonk的活躍數(shù)據(jù)庫中隨機選擇公共賬戶，并將它們傳遞給SparkToro進行分析。SparkToro團隊的Casey進一步刷新了這個名單，并通過他們的虛假粉絲垃圾郵件分析程序運行了44058個公共活躍賬戶，發(fā)現(xiàn)8555個賬戶的特征與虛假/垃圾郵件賬戶高度相關。他們相信這個數(shù)據(jù)集代表了對有多少活躍的Twitter用戶可能是垃圾郵件或假的問題的最佳、單一答案。
2.虛假追隨者工具的匯總平均值（約50萬個配置文件運行，分析了1億多個賬戶）--在過去3年半的運作中，SparkToro的虛假追隨者工具已經(jīng)在501532個獨特的賬戶上運行，并分析了其中每個賬戶的數(shù)千個追隨者，總計超過10億個配置文件（盡管這些并不一定獨特，而且他們沒有跟蹤哪些配置文件被分析為該過程的一部分）。
這代表了他們可以獲得的最大的賬戶集，但它包括對許多老賬戶的分析，這些賬戶在過去90天內沒有發(fā)送過推文，因此，很可能不符合Twitter對mDAUs（可盈利的日活躍用戶）的定義。他們把它包括在內是為了進行比較，并表明包括簡單的隨機Twitter賬戶（與那些最近活躍的賬戶相比）的分析可能不那么準確。
3.Twitter上@ElonMusk的所有追隨者（9340萬個賬戶）--鑒于人們對馬斯克的賬戶的獨特興趣，以及它在觸發(fā)這份報告中所發(fā)揮的核心作用，研究團隊認為包括對關注@ElonMusk的近億個賬戶的完整分析是明智的。這個數(shù)據(jù)集包括了在過去90天內沒有發(fā)過推文的舊資料（不符合Twitter的mDAUs定義）。
4.Twitter上@ElonMusk的活躍粉絲（2680萬個賬戶）--對馬斯克的Twitter粉絲進行更公平的評估，只包括在過去90天內發(fā)過推文的賬戶。為了與Followerwonk的分析方法相匹配，SparkToro團隊只選擇了那些符合這一標準的26,878,729個賬戶，并在上圖中把它們細分出來。
5.對關注@Twitter賬戶的100個用戶進行隨機抽樣（100個賬戶）--在5月13日周五的推文的后續(xù)報道中，馬斯克說，“我的團隊將對@twitter的100個關注者進行隨機抽樣；我邀請其他人重復同樣的過程，看看他們有什么發(fā)現(xiàn)。”
雖然SparkToro團隊不認為這個過程是一個嚴格的、具有統(tǒng)計學意義的樣本集，但他們還是把它包括在內，以便進行比較。5月14日，他們從@Twitter的粉絲公共頁面中手動抽取了一個隨機賬戶樣本。為了得到偏差最小的樣本，他們只包括公共賬戶，只包括在過去90天（2022年2月12日之后）發(fā)送推文的賬戶，只包括2021年5月之前創(chuàng)建的賬戶，即他們已經(jīng)在Twitter上呆了1年以上（許多最近的賬戶，特別是考慮到馬斯克的活動，可能使樣本產生偏差）。
6.Twitter最近的收益報告估計（賬戶數(shù)量不明）--馬斯克在最近的推文中引用了Twitter的公開收益報告，分享了<5%的mDAUs（可盈利的每日活躍用戶，在他們的2019年報告中定義）是虛假或垃圾郵件。SparkToro在圖表中加入了這一估計，以便進行比較，并指出其方法未被披露。

毫無疑問，其他研究人員將作出其他估計，希望有同樣大和嚴格的數(shù)據(jù)集。鑒于Twitter公開數(shù)據(jù)的局限性，SparkToro團隊認為最準確的估計是：在過去90天內發(fā)送過推文的公共賬戶中，有19.42%是虛假或垃圾郵件賬戶。

馬斯克的Twitter粉絲有多大比例是垃圾郵件、虛假或不活躍的？

2018年10月，SparkToro分析了當時的美國總統(tǒng)唐納德-特朗普在.Twitter上的所有54,788,369名追隨者。在這份報告中，SparkToro復制了這一過程，分析了馬斯克個人資料中的所有93,452,093名粉絲（截至2022年5月14日）。

當通過SparkToro的公共工具運行虛假追隨者報告時，其團隊分析了一個Twitter用戶的追隨者樣本（幾千個）。當一個賬戶有非常多的追隨者時，這種方法可能會偏離對每個追隨者的全面分析所顯示的情況。在5月14日星期六和5月15日星期日，SparkToro的Casey Henry 對馬斯克的賬戶進行了這一全面分析，以提供盡可能精確的數(shù)字。

上面是SparkToro的垃圾郵件分析系統(tǒng)中使用的一些因素的分類，總的來說，70.23%的@ElonMusk的粉絲不太可能是看到他的推文的真實、活躍用戶。這遠遠高于假粉絲的中位數(shù)，但并不令人驚訝，原因有幾個。

非常大的賬戶往往比其他賬戶有更多的虛假/垃圾郵件粉絲

受到大量媒體報道和公眾關注的賬戶（如美國前總統(tǒng)特朗普和馬斯克）往往比其他賬戶吸引更多的虛假/垃圾郵件追隨者

Twitter向新用戶推薦的賬戶（通常包括@ElonMusk）往往會獲得更多的虛假/垃圾郵件關注者。

與其他Twitter賬戶的分布情況相比，@ElonMusk的虛假/垃圾郵件追隨者數(shù)量可能顯得不正常，但SparkToro不認為或暗示馬斯克對獲得這些可疑的追隨者負有直接責任。最有可能的解釋是上述因素的組合，而馬斯克對Twitter的積極使用、媒體對其推文的報道以及Twitter自己的推薦系統(tǒng)更加劇了這種情況。

SparkToro團隊也只對那些在過去90天內發(fā)過推文的2680萬@ElonMusk的粉絲進行了分析。這個過濾器與他們應用于Followerwonk數(shù)據(jù)集和@Twitter的隨機關注者的過濾器相匹配。

這種更有選擇性的分析發(fā)現(xiàn)23.42%的人可能是虛假或垃圾郵件賬戶，這個數(shù)字與估計的全球平均數(shù)相差不遠。

為什么要相信SparkToro和Followerwonk的方法學？

上述分析的數(shù)據(jù)集（除了@Twitter的隨機100名粉絲，研究團隊不贊成這種方法）范圍足夠大，過程足夠嚴格，其結果可由任何具有類似公共權限的Twitter研究人員復制。研究團隊邀請任何有興趣的人在他們自己的數(shù)據(jù)集上復制在這里使用的過程（并在下面詳細描述）。Twitter在這里提供了關于他們的API產品的信息。

Followerwonk只從那些在過去90天內有公開推文發(fā)表的賬戶中隨機抽取樣本，這是"活動"的明確標志。此外，F(xiàn)ollowerwonk定期更新其個人資料數(shù)據(jù)庫（每30天），以刪除任何受保護或刪除的賬戶。他們相信，這個樣本的規(guī)模足夠大，具有統(tǒng)計學意義，并且經(jīng)過精心策劃，最接近于Twitter可能認為的可盈利的每日活躍用戶（mDAU）。

SparkToro的虛假粉絲分析認為，如果一個賬戶觸發(fā)了SparkToro在他們的虛假粉絲工具中顯示的許多信號，那么它就是虛假的。

SparkToro識別虛假賬戶的模型來自于對數(shù)萬個已知的垃圾（和真實）Twitter賬戶進行的機器學習過程。以下是SparkToro如何建立這個模型的。

2018年7月，SparkToro團隊從3個不同的垃圾郵件和機器人賬戶供應商那里購買了3.5萬個虛假Twitter粉絲賬戶。他們的供應商讓這些賬戶關注一個空的Twitter賬戶，該賬戶創(chuàng)建于2016年，在2018年7月有0個粉絲。花了~3周的時間來交付這35,000名粉絲。在接下來的3周里，他們每天都會收集這些虛假/垃圾賬戶的數(shù)據(jù)。

除了這35000個已知的垃圾郵件賬戶，團隊又從SparkToro的大型檔案索引中隨機抽取了50,000個非垃圾郵件賬戶。這給了我們總共85,000個賬戶，在亞馬遜網(wǎng)絡服務上通過機器學習程序運行。

這85,000個賬戶被分成兩組，其中混合了垃圾郵件和非垃圾郵件賬戶。A組作為訓練集，B組作為測試集，以分析模型的性能。

以下數(shù)據(jù)被用于初始模型的生成：

資料圖片

簡介URL

已驗證的賬戶狀態(tài)

語言

Twitter語言

帳戶年齡（天數(shù)）

個人簡介的長度

追隨者的數(shù)量

他們關注的賬戶數(shù)量

距離上次發(fā)推的天數(shù)

推文的數(shù)量

帳戶出現(xiàn)在名單上的次數(shù)

地點

顯示名稱

在找到符合數(shù)據(jù)的模型后，SparkToro團隊分析了結果，以確定與垃圾郵件密切相關的特征。不出所料，沒有一個特征與垃圾郵件有1:1的相關性。但是，很多特征在組合使用時顯示出前景。以下是與垃圾郵件賬戶相關的特征的例子。

資料圖片 - 缺乏這些資料的賬戶往往是垃圾郵件。

賬號年齡（天數(shù)）--某些模式顯然與垃圾郵件有關（例如，當一天內創(chuàng)建的大量賬號關注特定的賬號或發(fā)送幾乎相同的推文）。

追隨者的數(shù)量 - 垃圾郵件賬戶往往只有很少的追隨者

自上一條推文以來的天數(shù)--許多垃圾郵件賬戶很少發(fā)推文，而且是以協(xié)調的方式發(fā)推文

帳戶出現(xiàn)在名單上的次數(shù) - 垃圾郵件帳戶幾乎從不出現(xiàn)在名單上

顯示名稱 - 某些關鍵詞和模式與垃圾郵件密切相關

然而，這些并不是唯一的，其他與垃圾郵件有適當相關性的信號（特別是當多個信號適用于一個賬戶時）也有助于建立一個有效的模型。通過試驗和錯誤（當然還有模式擬合），他們精心設計了一個評分系統(tǒng)，可以正確識別超過65%的垃圾郵件賬戶。他們故意偏向于遺漏一些虛假/垃圾郵件賬戶，而不是意外地將任何真正的賬戶標記為錯誤的。

關鍵是要記住，沒有一個因素能告訴他們一個賬戶是垃圾郵件！這一點很關鍵。觸發(fā)的垃圾郵件信號越多，一個賬戶就越有可能是垃圾郵件。我們的虛假追隨者系統(tǒng)要求在將一個賬戶評為"低質量"或虛假之前，至少要有17個垃圾郵件信號中的一小部分，有時甚至多達10多個（取決于哪些信號，以及它們的預測性）。

這種方法可能低估了垃圾郵件和虛假賬戶的數(shù)量，但幾乎不包括假陽性（即聲稱一個賬戶是假的，但其實不是）。

對Followerwonk提供的約4.4萬個隨機的、最近活躍的賬戶應用這一模型，可以得出每個賬戶的質量分數(shù)，如下圖所示。

一個賬戶觸發(fā)的垃圾郵件相關標志越多，其在該系統(tǒng)中的質量得分就越低。Sparktoro的保守方法意味著我們只將3、2和1的分數(shù)視為虛假/垃圾郵件賬戶，而這三個的組合產生了他們的最終估計，最好的說明是：19.42%的最近活躍的公共Twitter資料極有可能是虛假或垃圾郵件。

關鍵詞： Microblog 分析稱19.42%的Twitter活躍