transkan: Canonical Variates istifadə edərək Transformations/Imputations

transcan qeyri -xətti bir əlavə transformasiya və imputasiya funksiyasıdır və nəticələrinin istifadəsi və işləməsi üçün bir neçə funksiya mövcuddur. transcan, digər dəyişənlərin ən yaxşı xətti birləşməsi ilə maksimum əlaqəyə malik olmaq üçün davamlı və kateqoriyalı dəyişənləri avtomatik olaraq çevirir. Əvəzedici meyardan istifadə etmək üçün bir seçim var - digər dəyişənlərin birinci əsas komponenti ilə maksimum əlaqə. Davamlı dəyişənlər məhdud kub xətləri və kateqoriyalı dəyişənlər ziddiyyət kimi genişləndirilir (məsələn, saxta dəyişənlər). Varsayılan olaraq, ilk kanonik dəyişən komponent sütunlarının optimal xətti birləşmələrini tapmaq üçün istifadə olunur. Bu funksiya, ace -yə bənzəyir, lakin davamlı dəyişənlər üçün çevrilmələrin məhdud kub xətləri istifadə edərək qurulması, monotonluq məhdudiyyətlərinə icazə verilməməsi,və NA -lara icazə verilir. Bir dəyişənin hər hansı bir NA'sı olduqda, bu dəyişən üçün çevrilmiş ballar, ən yaxşı çevrilmələri özündə birləşdirən ən kiçik kvadratlar çoxlu reqressiya ilə hesablanır və ya NA'lar isteğe bağlı olaraq sabitlərə qoyulur. Büzülmə, hesablama zamanı həddindən artıq uyğunlaşmanın qarşısını almaq üçün istifadə edilə bilər. İsteğe bağlı olaraq, orijinal miqyasda hesablanmış dəyərlər də hesablanır və qaytarılır. Bu məqsədlə, ən çox ehtimal olunan kateqoriya olduğu proqnozlaşdırılanlardan istifadə edərək, kateqoriyalı dəyişənləri təyin etmək üçün rekursiv bölmə və ya çoxnomial logistika modelləri isteğe bağlı olaraq istifadə edilə bilər.orijinal miqyasda hesablanmış dəyərlər də hesablanır və qaytarılır. Bu məqsədlə, ən çox ehtimal olunan kateqoriya olduğu proqnozlaşdırılanlardan istifadə edərək, kateqoriyalı dəyişənləri təyin etmək üçün rekursiv bölmə və ya çoxnomial logistika modelləri isteğe bağlı olaraq istifadə edilə bilər.orijinal miqyasda hesablanmış dəyərlər də hesablanır və qaytarılır. Bu məqsədlə, ən çox ehtimal olunan kateqoriya olduğu proqnozlaşdırılanlardan istifadə edərək, kateqoriyalı dəyişənləri təyin etmək üçün rekursiv bölmə və ya çoxnomial logistika modelləri isteğe bağlı olaraq istifadə edilə bilər.

Varsayılan olaraq, transcan, orijinal ölçüyə çevrilmiş, dəyişdirilmiş dəyişənlərin "ən yaxşı təxmin edilən" gözlənilən dəyərləri olan NA -ları verir. Belə hesab edilən dəyərlər, çevrilmələrin dəyişənlərin paylanmasını simmetrik etdiyini düşündükdə, şərti medianlara bənzəyir (hesablanmış dəyərlər kateqoriyalı dəyişənlər üçün şərtli rejimlərə bənzəyir). Əvəzində n.impute təyin edərək, transcan hər bir dəyişənin şərti olaraq bütün digər dəyişənlərə görə paylanmasından çoxlu ehtimalları təxmin edir. Bu, dəyişdirilmiş dəyişəndən n.impute qalıqlarının dəyişdirilməsi (a la bootstrapping) və ya standart olaraq Rubin-in təxmini Bayesian açılış kəmərindən istifadə etməklə aparılır, burada n ölçüsündə n nümunəsi n itkin olmayan qalıqlardan seçilir. hədəf dəyişənin dəyərləri,və sonra bu nümunədən m ölçüsü olan bir nümunə seçilir, burada m, cari çoxlu təkrarların təkrarlanması üçün hesablamaya ehtiyacı olan itkin dəyərlərin sayıdır. Bu yükləmə prosedurlarının heç biri qalıqların normallığını və hətta simmetriyasını qəbul etmir. Bəzən itkin düşən kateqoriya dəyişənlər üçün, optimal ballar, bu hesabdan kənar təsadüfi qalıqlara "ən yaxşı tahmin" proqnozlaşdırılan orta balı əlavə etməklə hesablanır. Daha sonra bu proqnozlaşdırılan skorlara ən yaxın puanları olan kateqoriyalar təsadüfi çoxlu hesablamalar kimi alınır (impcat = "rpart" hazırda n.impute ilə icazə verilmir). Ədəbiyyat n.impute = 5 və ya daha çoxunu istifadə etməyi tövsiyə edir. transcan çoxsaylı hesablamalara yalnız yaxınlaşma təmin edir,xüsusən, hər bir hesablama üçün fərqli reqressiya əmsallarını istifadə etməkdənsə, çoxsaylı ehtimalları çəkməzdən əvvəl imputasiya modelini "dondurduğu" üçün. Birdən çox ehtimal üçün aregImpute funksiyası hələ də xətti fərziyyələr tələb etməyərək tam Bayes yanaşmasına daha yaxşı yaxınlaşma təmin edir.

N.impute transcan üçün göstərdiyiniz zaman fit.mult.impute istifadə edərək n.impute tamamlanmış məlumat kümelerine əsaslanan hər hansı bir modeli n.impute vaxtlarını yenidən yerləşdirə bilərsiniz (bəzən transcan üçün göstərilməyən çatışmayan dəyişənlər varsa, bəzi müşahidələr hələ də davam edəcək. bu vəziyyətdən çıxarılsın). N.impute modelləri quraşdırıldıqdan sonra fit.mult.impute, uyğun olmayan obyekti son imputasiyadan qaytaracaq, əmsalları n.impute əmsal vektorlarının ortalaması ilə əvəz edilsin və imputasiya düzəldilmiş varyans-kovarians matrisinə bərabər bir var var. . fit.mult.impute, siçanlar kitabxanasındakı siçanlar funksiyası tərəfindən yaradılan obyekti, birdən çox ehtimal çəkmək üçün istifadə edə bilər, həmçinin aregImpute tərəfindən yaradılan obyektləri də istifadə edə bilər. Uyğun obyektlərin aşağıdakı komponentləri də n.impute modelinə uyğun olan ortalamalarla əvəz olunur: lineer.predictors, fitted.values, stats, means,icoef, miqyas, mərkəz, y.imputed.

Transcan üçün xülasə metodu, R^2funksiya çağırışını çap edirhər bir dəyişənin və hər bir dəyişən üçün ilkin dəyişənin çevrilməsini qiymətləndirmək üçün istifadə olunan bütün digər dəyişənlərin əmsallarının çevrilməsində əldə edilmişdir. Transcan çağırışında hesablanmış = TRUE istifadə olunarsa, hesablanmış dəyərlərin xülasəsini çap etmək üçün də təsvir funksiyasından istifadə edir. Uzun = TRUE olarsa, bütün təyin olunan dəyərləri müşahidə identifikatorları ilə yazdırın. Sadəcə transformasiya matrisini və funksiya zəngini yazdıran print.transcan sadə bir funksiyası da var. TRUE olaraq təyin edildikdə ətraflı parametrlərin çap olunmasına səbəb olan uzun bir isteğe bağlı arqument var. Transcan işləyərkən hiylə qurmaq əvəzinə, trantab = TRUE variantının transkan üçün təyin edildiyi təqdirdə, plot.transcan və ya ggplot.transcan istifadə edərək son dəyişiklikləri qura bilərsiniz.Transcan üçün əlavə olaraq imputed = TRUE seçimi təyin olunarsa, plot və ggplot oxlar boyunca hesablanmış dəyərlərin (çoxluqlar daxil olmaqla) yerini göstərəcəkdir. Ggplot üçün hesablanmış dəyərlər qırmızı artı işarələri kimi göstərilir.

transcan üçün impute metodu orijinal miqyasda seçilmiş bir orijinal məlumat dəyişəninə ehtimallar verir (əgər hesablanırsa = transcan üçün TRUE verildi). İmkan vermək üçün bir dəyişən təyin etməsəniz, ən az bir itkin dəyəri olan transkana verilən bütün dəyişənlər üçün hesablamalar aparacaq. Bu, orijinal dəyişənlərin əlçatan olduğunu (yəni əlavə edildiyini) və ehtimal olunan dəyişənlərin eyni adlara sahib olmasını istədiyinizi fərz edir. N.impute transcan üçün təyin edilibsə, hansı imputasiyanı istifadə edəcəyinizi bildirməlisiniz. List.out göstərilmədikdə nəticələr .GlobalEnv -də saxlanılır (list.out = TRUE istifadə etmək məsləhətdir).

Transcan üçün proqnozlaşdırma metodu, yeni məlumatların matrisindən proqnozlaşdırılan dəyişənləri və hesablanmış dəyərləri hesablayır. Bu matris, transcan ilə istifadə olunan orijinal matrislə eyni sütun dəyişənlərinə sahib olmalıdır və eyni qaydada (transkan ilə bir formula istifadə edilmədiyi təqdirdə).

Function funksiyası ümumi bir funksiya generatorudur. Function.transcan, transcan tərəfindən yaradılan çevrilmələrdən istifadə edərək dəyişənləri çevirmək üçün Rfunksiyaları yaradır . Bu funksiyalar, proqnozlaşdırıcıların orijinal miqyasda dəyərlərə qoyulması ilə proqnozlaşdırılan dəyərləri əldə etmək üçün faydalıdır.

Vcov metodları burada müəyyən edilmişdir ki, imputasiya ilə düzəldilmiş varyans-kovarians matrisləri fit.mult.impute obyektlərindən asanlıqla çıxarılsın və fit.mult.impute fərdi tamamlanmış məlumat dəstləri üçün ənənəvi kovaryans matrislərini asanlıqla hesablaya bilsin.

Transcan üçün alt kod metodu atributları qoruyur.

İnvertTabulated funksiyası ya tərs xətti interpolasiyanı yerinə yetirir, ya da istədiyiniz dəyərlərə yaxın y dəyərləri olan uyğun x-dəyərləri nümunə götürmək üçün nümunələrdən istifadə edir. Sonuncusu, çevrilmənin düz və ya demək olar ki, düz bir seqmentə malik olması səbəbindən ağlabatan paylanmaya malik olan tərs dəyərləri əldə etmək üçün istifadə olunur və bu bölgədə birdən çoxa çevrilir. Nümunə çəkilər, x aralığında y aralığında və əlaqəli y dəyərləri ilə hədəf y dəyəri (aty) arasındakı kvadrat məsafədə olan x dəyərlərinin meydana gəlmə tezliyinin birləşməsidir.

İstifadə

Arqumentlər

davamlı dəyişən dəyərləri və kateqoriyalı dəyişənlər üçün kodları olan bir matris. Matrisin sütun adları (dim adları) olmalıdır. Satır adları varsa, hesablanmış = TRUE olarsa, ehtimal olunan dəyərlərin adlar atributunun formalaşdırılmasında istifadə olunur. x də bir formul ola bilər, bu halda model matrisi zəng çərçivəsindəki məlumatlardan istifadə edərək avtomatik olaraq yaradılır. Bir düsturdan istifadə etməyin üstünlükləri, kateqoriya dəyişənlərin faktor dəyişən olması ilə avtomatik olaraq təyin oluna bilməsi və iki unikal səviyyəyə malik dəyişənlərin asis modelləşdirilməsidir. Bir düstur göstərildiyi təqdirdə 3 unikal dəyəri olan dəyişənlər kateqoriya sayılır. Bir düstur üçün, bir dəyişənin adının identifikasiya funksiyası ilə, məsələn I (x3) daxil edilməklə transformasiya edilməməsini də təyin edə bilərsiniz. İstifadəçi asis və kateqoriya vektorlarına başqa dəyişən adlar əlavə edə bilər.InvertTabulated üçün x, üç komponentdən ibarət bir vektor və ya siyahıdır: x vektoru, çevrilmiş dəyərlərin uyğun vektoru və orijinal və çevrilmiş dəyişənlərin cütlərinin uyğun vektorları. Çap, süjet, ggplot, impute və proqnozlaşdırmaq üçün x, transcan tərəfindən yaradılan bir obyektdir.

hər hansı bir Rmodel formulu

hər hansı bir R, rms, əmsal vektorunu hesablayan və vcov-un varyans-kovarians matrisini qaytaracağı modelləşdirmə funksiyası (dırnaqda deyil). Məsələn, montajçı = lm, glm, ols. Hal-hazırda reqressiya olmayan parametrləri əhatə edən modellər (məsələn, parametrik sağ qalma modellərindəki miqyas parametrləri) tam işlənmir.

transcan, aregImpute və ya siçanlar tərəfindən yaradılan bir obyekt

canonical variates (default) istifadə etmək üçün method = "canonical" və ya hər hansı bir ixtisarını istifadə edin. method = "pc" digər dəyişənlərin birinci əsas komponenti ilə əlaqəni maksimum dərəcədə artırmaq üçün əvəzinə bir dəyişəni çevirir.

yenidən işarələnmiş dəyərlərin sıralanmasının mütləq şəkildə qorunmadığı x kateqoriyalı olan dəyişənlərin adlarının xarakter vektoru. Kateqoriya çıxarılsa, bütün dəyişənlərin davamlı (və ya ikili) olduğu qəbul edilir. Bütün dəyişənləri kateqoriya kimi qəbul etmək üçün "=" kateqoriyasını təyin edin.

çevrilməyəcək dəyişənlərin adlarının xarakter vektoru. Bu dəyişənlər üçün lm.fit metodu = "qr" in cəsarəti, itkin dəyərləri hesablamaq üçün istifadə olunur. İkili dəyişənləri asis ilə müalicə etmək istəyə bilərsiniz (bu bir düsturdan istifadə edildikdə avtomatikdir). Hesablanmış = TRUE olarsa, ehtimal olunan dəyərləri orijinal məlumat dəyərlərindən biri olmağa məcbur etmək istəyirsinizsə, ikili dəyişənlər üçün "kateqoriyalı" istifadə etmək istəyə bilərsiniz. Bütün dəyişənləri müalicə etmək üçün asis = "*" qoyun.

məhdud bir kub spline funksiyasında hər bir davamlı dəyişənin (asisdə göstərilməmiş) genişləndirilməsində istifadə ediləcək düyünlərin sayı. Default 3dür (bir dəyişən üçün 2 parametr verir), əgər \ var , 4 əgər 30 \ eq \ var və 5 əgər \ var >= 100 (4 parametr).

Orijinal miqyasda ehtimal olunan dəyərləri ehtiva edən bir siyahını qaytarmaq üçün TRUE olaraq təyin edin. Bir dəyişənin çevrilməsi monotonik deyilsə, hesablanmış dəyərlər tək deyil. transcan, hesablanmış hesaba bərabər olan transformasiya edilmiş bal ilə dəyişənin ən yüksək dəyərini qaytaran təxminən funksiyasından istifadə edir. imputed = TRUE, show.na = TRUE (yalnız son iterasiya üçün) olduqda, orijinal miqyaslı hesablanmış dəyərlərin hər bir qrafikin üst kənarında işarələr kimi göstərilməsinə səbəb olur. Kateqoriyalı proqnozlaşdırıcılar üçün, bu ehtimal olunan dəyərlər, tezliklərinin görselleştirilebilmesi üçün jitter funksiyasından keçir. N.impute istifadə edildikdə, hər bir NA -da n.impute gənə işarələri olacaq.

çoxlu ehtimalların sayı. Əgər buraxılıbsa, tək proqnozlaşdırılan gözlənilən dəyər imputasiyası istifadə olunur. n.impute = 5 tez -tez tövsiyə olunur.

Varsayılan olaraq, təxmini Bayes bootstrapını istifadə etməkdir (qalıqların vektorunun dəyişdirilməsi ilə nümunənin əvəzlənməsi ilə nümunə). Əvəz edilməklə adi bootstrap bir mərhələli nümunə götürmək üçün boot.method = "simple" də təyin edə bilərsiniz.

Qaytarılmış matrisə bir atribut trantab əlavə etmək üçün TRUE olaraq təyin edin. Burada hər biri x və y komponentləri olan unikal dəyərləri və x sütunları üçün uyğun çevrilmiş dəyərləri ehtiva edən siyahılar vektoru var. Təxminən funksiya ilə asanlıqla istifadə etmək üçün qurulmuşdur. Daha sonra, type = "original" ilə guess.transcan funksiyasından istifadə etmək istəyirsinizsə trantab = TRUE təyin etməlisiniz.

Transcanın çevrilmiş dəyişənlərin matrisini ehtiva edən bir obyekti geri qaytarmasına səbəb olmaq üçün TRUE olaraq təyin edin

Bu arqument, kateqoriyalı dəyişənlərin orijinal miqyasda necə tətbiq olunacağını izah edir. Varsayılan, kanonik dəyişkən balı proqnozlaşdırılan bəyə ən yaxın olan kateqoriyanı hesablamaq üçün impcat = "hesab" dır. Rpart funksiyası ilə birlikdə bütün digər çevrilmiş proqnozlaşdırıcıların dəyərlərindən istifadə edərək kateqoriyalı dəyişənləri qiymətləndirmək üçün impcat = "rpart" istifadə edin. Daha yaxşı, lakin bir qədər yavaş bir yanaşma, transcan alqoritminin son iterasiyasında, çoxfunksiyalı bir logistik modeli kateqoriyalı dəyişənə uyğunlaşdırmaq üçün impcat = "multinom" istifadə etməkdir. Bu, MASS paketinin nnet kitabxanasındakı çox istifadəçi funksiyasından istifadə edir (istifadəçi tərəfindən quraşdırıldığı güman edilir), bütün digər dəyişənlərin cari iş transformasiyalarına polytomous bir logistika modelini uyğunlaşdırmaq üçün (itkin proqnozlaşdırıcılar üçün şərti ortalamadan istifadə etməklə). .Eksik kateqoriyalı dəyərlər üçün kateqoriya üzvlüyünün proqnozlaşdırılan ehtimallarının vektorundan multinomial dəyərlər çəkilərək birdən çox ehtimal edilir.

Hesablanırsa = TRUE, kateqoriyalı dəyişənlər var və impcat = "rpart", mincut bölünməyə icazə veriləcək ən aşağı düyün ölçüsünü təyin edir. Varsayılan dəyər 40 -dır.

Varsayılan olaraq, hesablanmış dəyərlər, quraşdırılmış cədvələ çevrilmiş dəyərlərdə tərs xətti interpolasiya istifadə edərək orijinal miqyasda geri həll olunur. Bu, təxmin edilən çevrilmənin düz və ya demək olar ki, düz bir hissəyə malik olduğu təqdirdə, ehtimal olunan dəyərlərin (məsələn, döşəmə və tavan təsirləri) təhrif olunmuş paylanmasına səbəb olacaq. Bunun əvəzinə "nümunə" seçimi ilə invertTabulated funksiyasını (yuxarıya baxın) istifadə etmək üçün tərs = "nümunə" göstərin.

invertTabulated in aty dəyərinin tolerantlığı daxilində y dəyərləri olan x dəyərlər toplusunu təyin etmək üçün freq və məsafə ölçüsü ilə ölçülmüş çevrilmiş dəyərlər aralığının vurucusu. Prognoz.transcan üçün tərs və tolInverse standart olaraq transcan üçün təyin edilmiş variantlardan əldə edilir. Əks təqdirdə, istifadəçi tərəfindən göstərilmədiyi təqdirdə, invertTabulated üçün istifadə olunan defoltlar bunlardır.

Transcan üçün, R^2çapını və büzülmə faktorlarını basdırmaq üçün YANLIŞ olaraq təyin edin . Göstərilən NA dəyərlərinin sayı ilə bağlı mesajları boğmaq üçün impute.transcan = FALSE seçin. Uydurma, itkin məlumatların dərəcəsi və sərbəstlik dərəcələrini nəzərə alan çap varyans inflyasiya faktorlarını yatırmaq üçün fit.mult.impute = FALSE seçin.

Hesablanmış dəyərlər üçün balların paylanması ilə son dönüşümlərin qurulmasını basdırmaq üçün YALAN olaraq təyin edin (əgər show.na = TRUE olarsa).

Aralıq təkrarlamalar üçün transformasiyalar qurmaq üçün TRUE olaraq təyin edin.

Eksik dəyərlərə təyin edilmiş skorların paylanmasını basdırmaq üçün YALAN olaraq təyin edin (hər qrafikin sağ kənarında işarələr kimi). Təqdim olunanlara da baxın.

Varsayılan, hər hansı bir NA dəyərinə malik olan bütün dəyişənlər üçün faktiki və hesablanmış dəyərlərin qurulmasını basdırmaq üçün "heç biri" dir. Digər seçimlər, tək bir süjet yaratmaq üçün məlumat sıxlığını istifadə etmək üçün "məlumat sıxlığı", bir-birinin ardınca histoqramlar hazırlamaq üçün "hist", bir sıra qq sahələri yaratmaq üçün "qq" və ya bir sıra etmək üçün "ecdf" dir. empirik cdf. Məsələn, imputed.actual = "datadensity" üçün, dəyişənlər üçün itkin olmayan dəyərlərin bir kilim sahəsini alırsınız və bunun altında hesablanmış dəyərlərin kilim sahəsini alırsınız. İmputed.actual "heç biri" olmadıqda, avtomatik olaraq DOĞRU olaraq təyin edilir.

transcan və ya proqnozlaşdırmaq üçün yerinə yetiriləcək maksimum təkrarlama sayı. Proqnozlaşdırmaq üçün, məlumatlarda heç bir NA dəyəri olmadıqda və ya imp.con istifadə edildikdə yalnız bir təkrar istifadə olunur.

transkan və proqnoz üçün yaxınlaşma meyarı. eps, bir iterasyondan digərinə çevrilən dəyərlərdəki maksimum dəyişiklikdir. Əgər müəyyən bir iterasiya üçün dəyişənlərin bütün yeni çevrilmələri əvvəlki iterasiyadakı transformasiyalardan eps -dən az fərqlə fərqlənirsə ("çevirmək" üçün çevrilməni inkar etmədən və ya etmədən), transkan üçün daha bir təkrarlama edilir. Bu son təkrarlama zamanı fərdi çevrilmələr yenilənmir, ancaq çevrilmə əmsalları yenilənir. Bu, sağ tərəfdəki kanonik dəyişkənliklərin əmsallarının sabitliyini artırır. rhsImp = "təsadüfi" olduqda eps nəzərə alınmır.

transkan üçün, çevrilmiş miqyasda hesablanmış dəyərlərin kəsilməsinə səbəb olur ki, onların aralıqları hesablanmamış çevrilmiş dəyərlər aralığında olsun. Proqnozlaşdırmaq üçün, proqnozlaşdırılmış çevrilmiş dəyərləri orijinal uyğunluqdakı aralığına (xt) kəsmək üçün Varsayılan olaraq DOĞRU olur.

transkan üçün NA dəyərlərini sabitlərlə (medianlar və ya ən çox rast gəlinən kateqoriya kodları) olan orijinal tərəzilərə tətbiq etmək üçün DOĞRU olaraq təyin edin. Sabitlərin vektorunu təyin edin, bunun əvəzinə həmişə bu sabitləri hesablama üçün istifadə edin. Bu dəyişən dəyərlər cari iş çevrilməsini uyğunlaşdırarkən nəzərə alınmır.

standart ən kiçik kvadratlar və ya kanonik dəyişkən təxminlər istifadə etmək üçün FALSE -dir. NA -ları tətbiq etmək üçün hər bir dəyişəni digərlərindən proqnozlaşdırmaq üçün bir proqnoz tənliyi hazırlayarkən həddindən artıq uyğunlaşmamaq üçün shrink = TRUE təyin etmək istəyə bilərsiniz (aşağıdakı detallara baxın).

Kateqoriyalı dəyişənlərin qiymətləndirilməsini başlatma üsulu. Varsayılan dəyər, ən çox görülən dəyərdirsə, 1 -ə qoyulmuş bir saxta dəyişəndən istifadə etmək üçün "rejim" dir (bu standartdır). Təsadüfi 0-1 dəyişənindən istifadə etmək üçün "təsadüfi" istifadə edin. Puanları başlayaraq orijinal tam ədəd kodlarından istifadə etmək üçün "asis" olaraq təyin edin.

n.impute göstərildikdə saxlanılacaq qalıqların sayı. Veri toplusunda nres müşahidələrindən az olarsa, bütün qalıqlar saxlanılır. Əks təqdirdə, uzunluq nres qalıqlarının dəyişdirilmədən təsadüfi bir nümunəsi saxlanılır. Boot.method = "təxmini bayesian" olduqda nres üçün standart daha yüksəkdir.

Formulu doldurmaq üçün istifadə olunan məlumat çərçivəsi. Ggplot üçün trantab = TRUE ilə transkanın nəticəsidir.

uyğun müşahidələrin alt qrupunu ifadə edən tam ədəd və ya məntiqi vektor

X bir düsturdursa istifadə edilə bilər. Varsayılan na.action, bütün müşahidələri hər hansı bir NA dəyəri ilə saxlayan na.retain (transcan tərəfindən təyin olunur). Impute.transcan üçün məlumatlar, pos.in istifadə etməkdənsə, hesablanacaq dəyişənlərin mənbəyi olaraq istifadə ediləcək bir məlumat çərçivəsidir. Fit.mult.impute üçün məlumatlar məcburidir və modelin uyğunlaşdırılmasında istifadə ediləcək məlumatları ehtiva edən bir məlumat çərçivəsidir, lakin tətbiq edilməzdən əvvəl. Verilərdən çıxarılan dəyişənlərin çərçivə 1 -dən mövcud olduğu qəbul edilir və hesablanmağa ehtiyac yoxdur.

Kateqoriya üzvlüyünün proqnozlaşdırılan ehtimalları kimi impcat = "rpart" olduqda əlavə məlumatların çap edilməsi üçün DOĞRU olaraq ayarlayın.

Bəzən itkin bir dəyişən digər itkin düşən dəyişənlərin proqnozlaşdırıcısı olaraq köçürüldükdə təsadüfi çəkilişdən istifadə etmək üçün "təsadüfi" olaraq təyin edin. Varsayılan, rhsImp = "ortalama" dır və bu, çevrilmiş miqyasda şərti orta hesablamadan istifadə edir. İstifadə olunan qalıqlar, çevrilmiş miqyasdakı qalıqlardır. "Təsadüfi" istifadə edildikdə, transcan 5 dəfə təkrarlanır və eps -ə məhəl qoymur.

Yaranan transcan obyektinə bir elementin detallarını daxil etmək üçün kateqoriya dəyişəninin adı olan bir xarakter skalyarını təyin edin.

scat1d -ə və ya montajçı funksiyasına verilən arqumentlər (fit.mult.impute üçün). Ggplot.transcan üçün bu arqumentlər facet_wrap -ə ötürülür, məsələn ncol = 2.

xülasə üçün, bütün hesablanmış dəyərləri çap etmək üçün DOĞRU olaraq təyin edin. Çap üçün, transformasiyaların/ehtimalların detallarını çap etmək üçün TRUE olaraq təyin edin.

xülasə ilə çap dəyərləri üçün əhəmiyyətli rəqəmlərin sayı

ggplot.transcan üçün miqyas = TRUE, çevrilməmiş dəyərləri qrafikdən əvvəl [0,1] olaraq ölçeklendirmek üçün.

istifadə olunmur; jenerik qaydaları səbəbindən lazımdır

Impute üçün, əvvəlcə x -də bir sütun olan, ehtimal olunan dəyərlərin doldurulacağı bir dəyişəndir. Vəziyyəti pozda yeni dəyişənlər yaratmaqla bütün dəyişənləri qiymətləndirmək üçün var buraxın (atama bax).

NA dəyərlərini doldurmaq üçün birdən çox ehtimaldan hansını təyin edir

impute funksiyası üçün impute ediləcək dəyişənin adı. Varsayılan, impute çağırışında ikinci arqumentin (var) xarakter simli versiyasıdır. InvertTabulated üçün, çevrilən dəyişənin adıdır (yalnız xəbərdarlıq mesajları üçün istifadə olunur).

bütün dəyişənlərin avtomatik olaraq impute.transcan (məsələn, heç bir giriş dəyişən adı göstərilmədikdə) tərəfindən hesablanması lazım olan dəyişənləri tapmaq üçün təyin etməklə təyin olunan yer. Varsayılan, hesablanacaq ilk dəyişəni ehtiva edən mövqedir.

Var göstərilməyibsə, impute.transcan tələb olunan dəyərləri ehtiva edən dəyişənləri ehtiva edən bir siyahı qaytara biləcəyi üçün list.out = TRUE təyin edə bilərsiniz. Bu siyahıda tək bir ehtimal olacaq. Təqdimata ehtiyacı olmayan dəyişənlər olduğu kimi siyahıya köçürülür. Bu siyahıdan məlumat çərçivəsi kimi analiz üçün istifadə edə bilərsiniz.

müəyyən xəbərdarlıq mesajlarını söndürmək üçün FALSE olaraq təyin edin

çevrilmiş dəyişənləri hesablamaq üçün yeni bir məlumat matrisi. Kateqoriya dəyişənləri, transcan çağırışında istifadə edilən eyni tam ədəd kodlarından istifadə etməlidir. Bir düstur əvvəlcə transcan üçün təyin edilmişsə (məlumat matrisi əvəzinə), yeni məlumatlar isteğe bağlıdır və verildiyi təqdirdə bir məlumat çərçivəsi olmalıdır; bir model çərçivəsi əvvəlki formuldan avtomatik olaraq yaradılır. Na.action avtomatik olaraq işlənir və faktor dəyişənlərinin səviyyələri transkana verilən düsturda göstərilən orijinal dəyişənlərdə istifadə edildiyi kimi eyni və eyni qaydada olmalıdır.

fit.mult.impute -də hər uyğunlaşdırma obyektini uyğun vəziyyətdən saxlamaq üçün TRUE olaraq təyin edin. Sonra qaytarılan obyekt, i elementi i -ci uyğun obyekt olan bir siyahı olan uyğun bir komponentə sahib olacaq.

tək bir doldurulmuş verilənlər bazasından əldə edilən dəyişənlərin yaradılmasına yanaşma təmin edir. Dtrans olaraq təyin olunan funksiya, ehtimal olunan verilənlər bazasını yenidən formalaşdıra bilər. Bu cür istifadəyə bir nümunə, "start, stop" fasilələri ilə yaradılan bir Cox modelinə zamandan asılı olan kovaryatları yerləşdirməkdir. Dtrans tərəfindən mövzu başına birdən çox qeydə çevrilən hər bir mövzu məlumat çərçivəsinə görə bir qeyd edilə bilər. Hesablama, müəyyən dəyişənlərin ardıcıllığını tətbiq edə bilər, belə ki, məsələn, cinsin itkin bir dəyəri mövzunun qeydlərindən biri üçün kişi, digəri kimi qadın hesab edilməyəcək. Dtransın necə təyin oluna biləcəyinə bir nümunə dtrans = function (w) aylar hesablanmış ola bilər, amma illər heç vaxt itmir. Uzunlamasına bir analizdə itkin baza dəyişənlərini tətbiq etmək üçün 'dtrans' istifadə etmək üçün bir kontur aşağıdakı Detallarda görünür.

model düsturunda istifadə olunan törəmə dəyişənlərin hesablanması üçün Rifadələrini ehtiva edən bir ifadə . Bu, komponent dəyişənləri üçün birdən çox ehtimal edildikdə faydalıdır, lakin faktiki model bunların birləşmələrini (məsələn, nisbətlər və ya digər törəmələr) istifadə edir. Tək bir əldə edilən dəyişən üçün, məsələn, ifadə edilə bilən = ifadə (nisbət ) və ya ifadəni ayrı giriş sətirlərinə qoyun. Çarpılmış əmələ gələn dəyişənləri izləmək üçün ifadəyə çap (təsvir (nisbət)) kimi bir əmr əlavə edə bilərsiniz. Aşağıdakı nümunəyə baxın. Qeyd edək ki, əldə edilənlər hələ tətbiq olunmayıb.

montajçı üçün vcov metoduna keçmək üçün əlavə edilmiş əlavə arqumentlərin siyahısı. Orm modelləri üçün yalnız ortasını deyil, bütün kəsişmələri (vcovOpts = list (intercepts = 'hamısı')) saxlamaq üçün faydalıdır.

Varsayılan olaraq, çevrilmiş dəyişənlərin matrisi, çevrilmiş miqyasda hesablanmış dəyərlərlə qaytarılır. Transcan üçün trantab = TRUE təyin etmisinizsə, type = "original" yazaraq cədvəl x giriş matrisini geri qaytarmaq üçün xətti interpolasiya ilə yoxlayır, lakin NA dəyərləri üçün daxil edilmiş orijinal miqyasda hesablanmış dəyərlərlə işləyir. Kateqoriyalı dəyişənlər üçün burada istifadə edilən üsul, proqnozlaşdırılan çevrilmiş dəyərə ən yaxın olan müvafiq ölçülü dəyərə sahib olan kateqoriya kodunu seçməkdir. Bu, standart impcat -a uyğundur. Qeyd: "orijinal" növü n.impute -də belə gözlənilən tək dəyər dəyərləri olduqda belə hesablanmış dəyərlər qaytarılır.

transcan tərəfindən yaradılan bir obyekt və ya Rfunksiyası koduna çevriləcək bir obyekt , adətən bir növ uyğun bir model obyektidir

X -də hər bir dəyişən üçün ayrı -ayrı Rfunksiyaları yaradılarkən, yeni funksiyanın adı dəyişən adın önünə, sonu isə adın arxasına yerləşdiriləcək. Varsayılan formanın adlarını istifadə etməkdir .varname, burada varname dəyişən addır.

yeni funksiyaların saxlanılacağı yerdəki mövqe (Funksiya üçün). Varsayılan pos = -1-dir.

invertTabulated üçün x -ə uyğun bir vektor, əgər onun ilk arqumenti x siyahı deyilsə

x siyahı deyilsə, çapraz təsnif edilmiş x və y-yə uyğun olan tezliklərin vektoru. Varsayılanlar bir vektordur.

tərs çevrilmənin istədiyi çevrilmiş dəyərlərin vektoru

təqribən bax transkan, qaydanın həmişə 2 olduğunu qəbul edir.

hər hansı bir reqressiya olmayan əmsallar üçün kovarians matrisindəki mövqeləri vcov.default silmək üçün TRUE olaraq təyin edin (məsələn, psm və ya survreg-dən log miqyaslı parametr)

Bu, ilk növbədə orm obyektləri üçündür. Kovaryans matrisindən bütün kəsişmələri ləğv etmək üçün "yox" olaraq təyin edin və ya orm tərəfindən yaradılan bütün elementləri saxlamaq üçün "hamısı" və ya "orta" olaraq təyin edin (ya da yalnız mediana uyğun olan kəsişmə üçün kovarians matrisini çıxarır). Çox kəsişməli bir modeldə müəyyən kəsişmələri seçmək üçün alt kodlar vektoruna kəsişmələr də təyin edə bilərsiniz.

Detallar

Hər bir dəyişən üçün çevrilmənin başlanğıc yaxınlaşması, dəyişənin orijinal kodlaşdırması olaraq qəbul edilir. Hər bir itkin dəyər üçün ilkin yaxınlaşma, dəyişən (davamlı olanlar üçün) və ya ən çox rast gəlinən kateqoriya (kateqoriyalar üçün) üçün itkin olmayan dəyərlərin medianı olaraq qəbul edilir. Bunun əvəzinə, imp.con bir vektordursa, onun dəyərləri NA dəyərlərini təyin etmək üçün istifadə olunur. Hər bir dəyişəni asılı bir dəyişən olaraq istifadə edərkən, bu dəyişənin NA dəyərləri bütün müşahidələrin müvəqqəti olaraq silinməsinə səbəb olur. Dəyişən üçün yeni bir iş çevrilməsi tapıldıqdan sonra, bütün digər dəyişənlərdən çevrilməni proqnozlaşdıran bir model ilə birlikdə, sonuncu model, imp.con göstərilmədiyi təqdirdə, seçilmiş asılı dəyişənə NA dəyərləri daxil etmək üçün istifadə olunur.

Bu dəyişən yeni bir asılı dəyişəni proqnozlaşdırmaq üçün istifadə edildikdə, cari işləyən hesablanmış dəyərlər daxil edilir. Dönüşümlər, hər bir dəyişən asılı bir dəyişənə çevrildikdən sonra yenilənir, buna görə x -də dəyişənlərin sırası son təxminlərdə fərq yarada bilər. Nümunə xaricində proqnozlar/çevrilmələr əldə etmək üçün, proqnoz, transcan tərəfindən istifadə edildiyi kimi, doldurma üçün eyni başlanğıc dəyərlərə malik olan, yalanlama üçün transcan ilə eyni təkrarlanan prosedurdan istifadə edir. Həm də (standart olaraq) orijinal dəyişənlər daxilində olmaq üçün dəyişdirilmiş dəyişənlərin məhdudlaşdırılmasının mühafizəkar bir yanaşmasından istifadə edir. Metod = "pc" göstərildikdə belə, itkin dəyərləri hesablamaq üçün kanonik dəyişənlər istifadə olunur.

Diqqət yetirin ki, quraşdırılmış çevrilmələr hesablanmış dəyişən dəyərlərlə (orijinal miqyasda) qiymətləndirildikdə, xt ilə qaytarılmış çevrilmiş hesablanmış dəyərlərlə tam uyğun gəlmir. Bunun səbəbi, transcan, ehtimal olunan dəyərləri orijinal miqyasda geri həll etmək üçün xətti interpolasiyaya əsaslanan təxmini bir metoddan istifadə etməsidir.

Büzülmə Van Houwelingen və Le Cessie (1990) metodundan istifadə edir (Copas, 1983 -ə bənzər). Büzülmə faktorudur

[1 - (1 - \ var ) (\ var - 1)/(\ var - \ var - 1)]/\ var

burada R2 , dəyişəni proqnozlaşdırmaq üçün görünən R-kvadratdır, n-itkin olmayan dəyərlərin sayı və k-azadlıq dərəcələrinin təsirli sayıdır (kəsilmələr istisna olmaqla). Evristik bir qiymətləndirmə k üçün istifadə olunur: A - 1 + sum (max (0, Bi - 1))/ m + m, burada A - proqnozlaşdırılan dəyişəni təmsil etmək üçün lazım olan df sayı, Bi - sütun sayıdır bütün digər dəyişənləri təmsil etmək üçün tələb olunur və m, bütün digər dəyişənlərin sayıdır. M ilə bölünmə, digər dəyişənlər üçün edilən dəyişikliklər sonuncu dəfə proqnozlaşdırıldıqları zaman cari çevrilmələrində sabit olduğu üçün edilir. The+ \ var termini, ən kiçik kvadratlar və ya kanonik dəyişiklər olsun, sağ tərəfdə təxmin edilən əmsalların sayından gəlir. Büzülmə faktoru mənfi olarsa, 0 olaraq təyin olunur. Büzülmə əmsalı, düzəldilmiş R-kvadratınd-nin adi R-kared -ə nisbətidir . Düzəldilmiş R kvadratıd-dir

1 - (1 - R2) (n - 1)/(n - k - 1)

mənfi olarsa sıfıra da təyin olunur. Shrink = FALSE və tənzimlənmiş R-squares adi R-s -dən çox kiçikdirsə , shrink = TRUE ilə transkanı işə salmaq istəyə bilərsiniz.

Kanonik dəyişkənliklər, cancordan kanonik əmsalları sqrt (\ var - 1) .

Fit.mult.impute (məsələn, lm, glm) üçün qeyri-rms kitabxana uyğunlaşdırma funksiyasını təyin edərkən fit.mult.impute nəticəsini bu uyğunluğun xülasə üsulu ilə işlətmək, imputasiya ilə tənzimlənmiş fərqləri istifadə etməyəcək. Yeni varyansları fit $ var və ya vcov (fit) istifadə edərək əldə edə bilərsiniz.

Fit.mult.impute (məsələn, lrm, ols, cph, psm, bj, Rq, Gls, Glm) üçün bir rms funksiyası təyin etdiyiniz zaman, ilk hesablama üçün təxmin edilən avtomatik olaraq transformasiya parametrləri (məsələn, rcs üçün düyün yerləri) hesablanır. bütün digər ifadələr üçün istifadə olunur. Bu, düyün yerlərinin dəyişməyəcəyini təmin edir ki, bu da reqressiya əmsallarının mənasını dəyişir.

Xəbərdarlıq: fit.mult.impute, reqressiya əmsalı dəyişkənliklərini hesablayarkən hesablamanı nəzərə alsa da, fərdiləşdirilmiş hesablama tənliklərinin formalarının və reqressiya əmsallarının qiymətləndirilməsindən yaranan dəyişikliyi nəzərə almır. Shrink = TRUE təyin etmək bu problemin kiçik bir hissəsini həll edir. Bütün dəyişmə mənbələrini tam hesablamaq üçün, icra müddəti imkan verərsə, transkan çağırışını bir açılış zolağına və ya döngəyə yerləşdirməyi düşünməlisiniz. Daha da yaxşısı, itkin dəyərləri düzgün şəkildə vurmaq üçün real Bayes posterior həyata keçirilməsini istifadə edən siçanlar kimi aregImpute və ya paketdən istifadə edin.

Hmisc naclus funksiyasından istifadə etməyiniz yaxşı bir əsas olduğunu müəyyən etmək üçün tövsiyə olunur. naclus, məsələn, diastolik qan təzyiqi olmadıqda sistolik qan təzyiqinin yox olduğunu söyləyəcək. Diastolik qan təzyiqi ilə yaxşı korrelyasiya olunan yeganə dəyişən sistolik bp -dirsə, bu halda diastolik qan təzyiqinin hesablanması üçün heç bir əsas yoxdur.

Hal -hazırda, proqnoz birdən çox ehtimal ilə işləmir.

Uyğun arqument olaraq glm ilə fit.mult.impute çağırarkən, ailənin arqumentini verməlisinizsə, ailəni sitat gətirərək edin, məsələn, family = "binomial".

fit.mult.impute, reqressiya imputasiyası istifadə edildikdə (proqnozlaşdırılan ortalamadan fərqli olaraq) nisbətli modellərlə işləməyəcək. Bunun səbəbi, reqressiya imputasiyasının modeldə kəsilmə şərtlərini dəyişdirərək, verilənlər bazasında olmayan cavab dəyişənlərinin dəyərlərini yaratmasıdır.

Fitmult.impute üçün verilən formuldakı bir dəyişəni, transkanın çağırılmasında bir faktor dəyişən olmasına baxmayaraq, reqressiya modelində ədədi dəyişən kimi istifadə edə bilməlisiniz. Məsələn fit.mult.impute (y

kodları (x), lrm, trans) (Trevor Thompson sayəsində trevor@hp5.eushc.org).

Fit.mult.impute ilə təkrarlanan analiz uzunlamasına bir analiz olduqda (məsələn, Gls istifadə etməklə), dtrans arqumentindən istifadə edərək əsas dəyişənləri hesablamaq üçün lazım olan addımların konturudur.

Başlanğıc dəyişənləri və pəncərələrə təyin olunan təqib dəyişənlərini ehtiva edən hər bir mövzu çərçivəsi üçün bir sıra yaradın. Məsələn, illər ərzində onlarla təkrar ölçmələr apara bilərsiniz, ancaq ölçmələri təhsilə girdikdən sonra 1, 2 və 3 ilə ən yaxın vaxtlarda çəkirsiniz.

Veri toplusunda mövzu kimliyi olduğundan əmin olun

Bu verilənlər bazası aregImpute -ə data = olaraq verilənə çevrilir. Sabit vaxtlarda təyin olunan təqib ölçmələrindən əskik olan əsas dəyişənləri qəbul edəcəksiniz.

Bütün itkin olmayan izləmə dəyərləri olan başqa bir məlumat dəstinə sahib olun, hər mövzu üçün bir ölçmə vaxtına bir qeyd. Bu verilənlər bazasında əsas dəyişənlər olmamalı və təqib ölçmələri əsas dəyişənlərlə eyni adlandırılmamalıdır; mövzu kimliyi də görünməlidir

Dtrans arqumentini fit.mult.impute -ə əlavə edərək, mövcud məlumatlardan dolğun itkin dəyərləri olan hər bir məlumat dəsti üçün bir rekordu təmsil edən bir arqumenti olan bir funksiyanı təyin edin. Bu funksiya yuxarıdakı 2 məlumat toplusunu birləşdirir; bu funksiyanın qaytarılmış dəyəri birləşdirilmiş məlumat çərçivəsidir.

Bu birləşən məlumat dəsti, fit.mult.impute tərəfindən uyğunlaşdırma funksiyanıza verilir, buna görə fit.mult.impute üçün verilən formuldakı dəyişən adlar birləşmə tərəfindən yaradılan adlarla uyğun olmalıdır.

Dəyər

Transkan üçün, elementləri olan sinif transkanın siyahısı

(funksiya çağırışı ilə)

(edilən təkrarların sayı)

olan R-kvadrats və düzəlişlər R-kvadratdigər bütün hər dəyişən proqnozlaşdırılması əldə s

kateqoriyalar üçün verilən dəyərlər

asis üçün verilən dəyərlər

ilk kanonik dəyişikliyi hesablamaq üçün istifadə olunan dəyişən əmsallar

hər bir dəyişəni öz növbəsində proqnozlaşdıran ilk kanonik dəyişənin dəyişən əmsalları.

çevrilmənin parametrləri (spline üçün düyünlər, kateqoriya dəyişənlər üçün kontrast matrisi)

itkin dəyərlər üçün ilkin təxminlər (dəyişən heç vaxt itmirsə NA)

çevrilmiş dəyişənlərin diapazonlarının matrisi (birinci və ikinci dövrədə min və maksimum)

bir çevrilmənin yaxınlaşmasını təyin etmək üçün istifadə olunan tərəzi vektoru.

düstur (x bir düstur olsaydı)

və hər bir dəyişəni digərlərindən proqnozlaşdırmaq üçün istifadə olunan büzülmə faktorlarının vektoru. Asis dəyişənləri üçün miqyas, median arasındakı ortalama mütləq fərqdir. Digər dəyişənlər üçün birlikdir, çünki kanonik dəyişənlər standartdır. Xcoef üçün, i sırası, dəyişən i dəyişənini proqnozlaşdırmaq üçün əmsallara malikdir və I dəyişəninin əmsalının sütunu NA olaraq təyin olunur. Hesablanmış = DOĞRU verilmişsə, ehtimal olunan əlavə bir element də görünür. Bu, NA s ehtiva edən hər bir dəyişən üçün hesablanmış dəyərlərin vektoru (orijinal miqyasda) olan bir siyahıdır. N.impute verilsə vektorlardan çox matrislər qaytarılır. Trantab = TRUE olarsa, trantab elementi də yuxarıda göstərildiyi kimi görünür. N.impute>0 olarsa, transcan gələcəkdə birdən çox hesablama üçün istifadə edilə bilən bir siyahı qalıqlarını da qaytarır.

impute, NA dəyərləri ilə sinif impute vektorunu (var ilə eyni uzunluqda) qaytarır.

proqnozlaşdırma, x -də olduğu kimi eyni sayda sütun və ya dəyişənə malik bir matris qaytarır.

fit.mult.impute, tamamlanmış verilənlər bazasının son ehtimal üçün uyğunlaşdırılması ilə yaradılan uyğun obyektin modifikasiyası olan uyğun bir obyekti qaytarır. Uyğun obyektdəki var matrisi imputasiya ilə düzəldilmiş varyans-kovarians matrisinə malikdir. əmsallar, katsayı vektorlarının ortalamasıdır (fərqlər üzərində). inflyasiya.impute, imputation arasındakı varians matrisinin diaqonallarının orta görünən (imputasiya daxilində) varyans matrisinin diaqonallarına nisbətlərini ehtiva edən bir vektordur. missingInfo, Rubin-in itkin məlumat dərəcəsidir və dfmi, tək bir parametrin sınanması üçün t-statistikası üçün Rubinin sərbəstlik dərəcəsidir. Son iki obyekt dispersiya matrisinin diaqonalına uyğun olan vektorlardır. "Fit.mult.impute" sinfi, uyğunlaşdırma funksiyasının yaratdığı digər siniflərə əlavə olunur.

fit.mult.impute mağazalarında əmsal matrisində və orm uyğunluqlarında var atributları kəsir.

Yan təsirlər

çaplar, sahələr və impute.transcan yeni dəyişənlər yaradır.

Müəllif (lər)

Frank Harrell

Biostatistika

Vanderbilt Universiteti

Bölümü fh@fharrell.com

İstinadlar

Kuhfeld, Warren F: PRINQUAL Proseduru. SAS/STAT İstifadəçi Kılavuzu, Dördüncü Nəşr, Cild 2, s. 1265–1323, 1990.

Van Houwelingen JC, Le Cessie S: Statistik modellərin proqnozlaşdırılan dəyəri. Tibbdə Statistika 8: 1303–1325, 1990.

Copas JB: Reqressiya, proqnoz və daralma. JRSS B 45: 311-354, 1983.

He X, Shen L: Spline çevrilməsindən sonra xətti reqressiya. Biometrika 84: 474-481, 1997.

Kiçik RJA, Rubin DB: Eksik Məlumatlarla Statistik Analiz. New York: Wiley, 1987.

Rubin DJ, Schenker N: Səhiyyə məlumat bazalarında çoxsaylı fikirlər: Baxış və bəzi tətbiqlər. Med 10 -da Stat: 585-598, 1991.

Faris PD, Ghali WA, et al: Müşahidəli sağlamlıq nəticəsi analizlərində itkin məlumatlar ilə məşğul olmaq üçün çoxlu məlumat və məlumatların təkmilləşdirilməsi. J Clin Epidem 55: 184-191, 2002.