New York Times Op-Ed yazan Müqavimət Üzvü axtarılır

Çərşənbə günü günortadan sonra New York Times qəzetində, Trump -ın ən tələsik meyllərinin qarşısını almaq üçün Ağ Evin bəzi məsləhətçiləri arasında gizli bir əlaqəni izah edən, anonim nəşr olunan nadir (və ya deməyə cəsarət etməyən) bir qəzetin nadir bir nümunəsini əks etdirən bir bomba rəy parçası yazıldı. nəşr olunmuş Müəllifi yalnız adı açıqlanmayan "Trump Administrasiyasında Yüksək Məmur" olaraq xarakterizə olunan sütun, yazıçının dərhal işdən çıxarılmasının qarşısını almaq üçün anonimlik adı altında yazılmışdır, həm də oxucular hekayənin deyil, daha çox hekayənin vacib mesajına diqqət yetirə bilərlər. peyğəmbərin üzərində. Bir neçə dəqiqə ərzində əsər internetə yayıldı və 2018 -ci ildə olduğu kimi, Twitter və ölkənin hər yerində siyasi araşdırmaçılar dərhal müəllifi axtarmağa başladılar. Bir neçə nəzəriyyə tez bir zamanda aralarındakı şəbəkələri doldurdu və bir neçə bukmeykerin bahis əmsalları yerləşdirildi.İnternet dedektivləri müəllifin şəxsiyyətinə işarə edən bəzi qəribə ifadələrə imza atsalar da (məqaləni oxumazdan əvvəl "lodestar" ın nə demək olduğunu bildiklərini iddia edən hər kəs üçün - Google Trends qəbzləri saxlayır), mən tamamilə məlumat elminə qapılmışam. son 3 ay ərzində müəllifin şəxsiyyətini ortaya çıxarmaq üçün Təbii Dil İşlənməsindən istifadə etməyin mümkün olub -olmadığını dərhal düşündü. İşi açmaq üçün ilk cəhdim budur.İşi açmaq üçün ilk cəhdim budur.İşi açmaq üçün ilk cəhdim budur.

Fərziyyələr

Əvvəlcə sütun haqqında bəzi fərziyyələr etməliydim. Bir NYT tweetində əvvəlcə müəllifə 'o' adı verilsə də (Times sözçüsü sonradan bunu bir səhv olaraq izah etdi), müəllifin cinsiyyətinin bu qədər məsum şəkildə ortaya çıxması anlayışına məhəl qoymadım. Bunun əvəzinə, kişi olaraq adlandırıldıqlarını güman etdim, çünki idarədə yüksək rütbəli qadınların olmaması müəllifin bir qadın olaraq ortaya çıxması halında ictimaiyyətin kimliklərini açmasını asanlaşdıracaqdı. Mən də fikir parçasının müəllifin öz səsi ilə yazıldığını düşünmək məcburiyyətində qaldım, əksinə bir spiker tərəfindən hazırlanmış və ya müəllifin özünəməxsus üslubu ilə uyğunlaşdırmaq mümkün olmayacaq qədər ağır redaktə edilmişdir.Axios 'Johnathan Swan'ın əvvəlki hesabatında, Ağ Ev rəsmisi, izlərini örtmək üçün "digər işçilərin deyimlərinə necə diqqət yetirdiklərini və arxa planda istifadə etdiklərini" izah etdi.

Mənim son fərziyyəm belə idi ki, bir idarə rəsmisinin ictimai rədd cavabı verməsi, həmin şəxsin məqaləni yazdığını istisna etmir - kənarda qalmağın dəhşətli nəticələrini bilərək, onların iştirakı haqqında yalan danışmaq onların ən yaxşı maraqlarıdır. Bu fərziyyələr olmadan, müəllifi dəqiq proqnozlaşdırmaq mümkün olmazdı və qeyd etməliyəm ki, hazırda olduğu kimi bu məşq son dərəcə qeyri -dəqiq bir işdir.

Fərziyyələrim həll edildikdən sonra potensial müəlliflərin siyahısını almalı oldum. Təəssüf ki, həm özüm üçün, həm də ölkə üçün İcra Hakimiyyətinin bütün sahələrini əhatə edən potensial namizədlərin şok edici uzun siyahısı var idi.

Vaxtın maraqlarına görə siyahımı üç nəfərə daraltdım, hər biri inandırıcı bir namizəd idi, həm də ictimaiyyətə açıq çıxışları və internetdə nəşr olunan məqalələri var idi. Əvvəlcə baxmağı seçdiyim üç şəxs vitse -prezident Mike Pence, BMT -dəki səfiri Nikki Haley və hazırkı İqtisadi Məsləhətçilər Şurasının sədri Kevin Hassett idi. Pence, məqalənin yayımlanmasından bir neçə dəqiqə sonra Twitter istifadəçisi @danbl00m tərəfindən vitse -prezidentin (və heç kimin deyil) ən çox istifadə olunan sözlərindən biri olduğu kəşf edilən 'lodestar' sözünün qəribə istifadəsi səbəbiylə daxil edildi. Məqalə həm xarici siyasətdəki uğursuzluqlara, həm də iqtisadi və tənzimləyici uğurlarla öyünənlərə dərin bir nəzər saldı, buna görə də hər bir disiplin rəsmilərini daxil etməyi lazım bildim.Haley və Hassett'i seçdim, çünki mənim fikrimcə, hər ikisi də hazırda Ağ Evi əhatə edən reallıq TV -nin diqqət mərkəzindən uzaqlaşan yüksək rütbəli məmurlardır.

Kosinoloji oxşarlıq

Baxmaq istədiyim üç namizədin siyahısına sahib olduqdan sonra, həmin şəxslərə aid fikirlər və ya digər məqalə və çıxışlar üçün internetdə gəzdim. İstifadə etdiyim ilk üsul , oxşarlığı ölçmək üçün iki vektorlaşdırılmış cisimarasındakı kosinus açısını istifadə edən, 1 -ə yaxın oxşar hesab edilən Kosinoloji Oxşarlıqidi . Hər bir cismi vektorlara çevirmək üçün tezlik-tərs sənəd tezliyi (TF-IDF) istifadə edərək, potensial müəlliflərlə anonim müqavimət üzvü arasındakı oxşarlığı hesablaya bildim.

Yaxşı xəbər, müəllifin hər birinin 1 -ə yaxın bir kosinus oxşarlığının olması, yaxşı bir uyğunluq olduğunu göstərirdi. Pis xəbər, hər üç rəqəmin o qədər yaxından qruplaşdırılması idi ki, hansının müəllifə daha çox bənzədiyini müəyyən etmək mümkün deyildi. Üç kosinüs oxşarlığı arasında dəyişikliyin olmamasının kiçik bir hədəf dəsti səbəbiylə olduğunu düşündüm ki, bu halda yalnız çap edilmiş sütuna yazılmış 881 söz idi.

TF-IDF Ölçülərin Azaldılması

Çalışdığım növbəti üsul, hər bir namizədin TF-IDF vektor matrisinin ölçüsünü t-SNE istifadə edərək üç ölçüyə endirmək və sonra hər bir namizədin digərlərindən daha çox nəşr olunan yazıçıya əhəmiyyətli dərəcədə yaxın olub olmadığını görmək idi. Dəhşətə gətirdiyim kimi, 4 nöqtə, təsəvvür edə bildiyim qədər bərabər paylandı və müəllifin kim ola biləcəyi barədə sıfır fikir buraxdı.

Müəlliflik Əlaqəsi

Son cəhdim, Neil Yager tərəfindən hazırlanan, hansı müəllifin bir mətn yazma ehtimalının yüksək olduğunu təxmin etmək üçün dörd fərqli xüsusiyyəti təhlil edən bir müəlliflik atribut kodu istifadə etdi. Dörd xüsusiyyət bunlar idi: Bir cümləyə düşən sözlərin orta sayı və müəllifin lüğət ehtiyatının ölçüsü kimi leksik xüsusiyyətlər; Cümlə başına vergül, nöqtəli vergül və iki nöqtə daxil olan durğu işarələri; Sözlər Çantası xüsusiyyətləri,müəyyən sözlərin bir sənəddə nə qədər tez -tez göründüyünü əks etdirir; və sintaktik xüsusiyyətlər,hər bir sözü müəyyən bir nitq hissəsinə (isim, fel və s.) təsnif edən. Əksər NLP hallarda, bütün sənədlərdə tez -tez görünən 'və' kimi 'sözlərini çıxarmaq adi haldır; Bununla birlikdə, müəllif atributu normal mətn təsnifatından fərqli olaraq fəaliyyət göstərir və müəlliflərin bu ümumi sözləri fərqli, lakin ardıcıl bir şəkildə istifadə etdiklərinə inanılır.

Xüsusiyyət vektorlarını yaratdıqdan sonra, ən azından bəziləri, əgər olmasa da, op-ededilmiş xüsusiyyətlərin hamısı bir namizədin klasterlərini paylaşacaqları ümidi ilə xüsusiyyətlər məkanında üç klaster tapmağa davam etdim. Üç tanınmış müəllifin hər birinin öz xüsusiyyətlərinin bənzərsiz qrupların bir hissəsi olacağını və nəşr olunan xüsusiyyətlərin onlardan birinə düşəcəyini düşünərək üç qrupla sınamağa qərar verdim.

Dizidəki hər bir satır fərqli bir xüsusiyyəti, sütunlar isə dörd fərqli müəllifi təmsil edir (son sütun nəşr olunmuşdur). Nömrələr, hər bir xüsusiyyətin hansı qrupa aid olduğunu göstərir. Yenə də nəticələr qeyri -müəyyəndir, baxmayaraq ki, əvvəlki iki yanaşmadan bir qədər çox məlumat verir. Müəllifin durğu işarələri və sözlər çantası xüsusiyyətləri, Nikki Haley-in eyni xüsusiyyətlərinə malik bir qrupu paylaşır, digər xüsusiyyətlərinin heç biri digər iki müəllifin uyğunluğu ilə eyni qrupa daxil deyil. Düzgün bir addımdır, amma hələ də dəqiq bir cavab vermir.

Önümüzdəki bir neçə gün ərzində əlavə rəhbərlik üzvlərinin çıxışlarını və məqalələrini toplayacağam və diqqət çəkən bir məmurun olub olmadığını öyrənəcəyəm. Bu ilkin cəhd mənə dəqiq bir proqnoz vermək üçün istifadə etməli olduğum texnikalar haqqında möhkəm bir fikir verdi. Bu modeli təkmilləşdirməyi və müəllifin əsl kimliyi haqqında inamlı bir təxminlə qarşılaşmağı səbirsizliklə gözləyirəm.

Yeniləmə:WikiLeaks * daha yaşlı bir mühafizəkar kişinin axtarışını daraldır *.