Selasa, 19 Maret 2013

UAS Information Retrieval

Metode / Algoritma yang digunakan untuk melakukan IR






Berikut merupakan metode/algoritma yang digunakan untuk melakukan Information Retrieval :

Model Boolean : Sistem pengambilan teks yang paling menawarkan fungsi identitas yang lebih maju, sehingga memungkinkan baik untuk mendefinisikan istilah pencarian beberapa merumuskan persyaratan mengenai hubungan antara istilah. Yang paling dikenal adalah berdasarkan pada aljabar Boolean, dinamai matematika George Boole Inggris (yang benar-benar berdasarkan beberapa contoh klasik tentang hukum makanan Yahudi). 

Logika Boolean memberikan pengguna kemungkinan kualifikasi hubungan antara istilah pencarian oleh operator Boolean seperti AND (hubungannya), OR (disjungsi) atau TIDAK (negasi). Misalnya permintaan pencarian



        R = T1 T2 AND NO T3


Hal ini membuat sistem mengambil semua dokumen yang mengandung istilah pencarian T1 dan T2, namun tidak termasuk yang mengandung kedua istilah maupun yang mengandung T3. Pada gambar 4/4 set dokumen ditunjukkan:

Gambar 4/4 - Ilustrasi pengambilan Boolean



Di = set dokumen yang berisi Ti

Operator OR dapat digunakan untuk mewakili persamaan :

S' =(T1 OR T12 OR ... OR T1m)
AND
(T2 OR T22 OR ... OR T2n)
NOT
(T3 OR T32 OR ... OR T3j)







Model Vector Space : model aljabar untuk dokumen teks yang mewakili (dan setiap objek , secara umum) sebagai vektor pengenal, seperti, misalnya, istilah indeks. Hal ini digunakan dalam penyaringan informasi , pencarian informasi , pengindeksan dan peringkat relevansi. Penggunaan pertama yaitu diterapkan dalam Sistem Information Retrieval SMART.


Dokumen dan query direpresentasikan sebagai vektor.

dj = (W1,j, W2,j, …, Wt,j)
q = (W1,q, W2q, …, Wt,q)

Setiap dimensi sesuai dengan istilah yang terpisah. Jika istilah terjadi dalam dokumen, nilainya dalam vektor adalah non-nol. Beberapa cara yang berbeda dari komputasi nilai-nilai, juga dikenal sebagai (istilah) bobot, telah dikembangkan. Salah satu skema yang paling dikenal adalah tf-idf bobot (lihat contoh di bawah).
Definisi dari istilah tergantung pada aplikasi. Biasanya istilah adalah kata-kata tunggal, kata kunci , atau frase lagi. Jika kata-kata yang dipilih untuk menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam kosa kata (jumlah kata yang berbeda yang terjadi di corpus ). 
Operasi vektor dapat digunakan untuk membandingkan dokumen dengan permintaan.








Model Probabilistik : pencarian informasi dikembangkan (Harvold 1980). Model itu sendiri terdiri dari dua komponen.

Komponen pertama memberikan jumlah dokumen diambil sebagai fungsi :
  • struktur koleksi dalam hal jumlah dokumen dan panjang dokumen,
  • struktur permintaan dalam hal co-terjadinya persyaratan pada kelas dan jumlah istilah yang ditentukan dalam masing-masing kelas.

Komponen kedua memberikan nilai recall dan presisi sebagai fungsi
  • struktur koleksi yang didefinisikan seperti di atas,
  • struktur permintaan dalam hal co-terjadinya persyaratan pada kelas dan sejauh mana kelas diperluas dengan istilah.


Dalam model, kelas ditafsirkan sebagai kelas searchonyms. Model ini didasarkan pada teori probabilitas tradisional digabungkan dengan distribusi jenis-tanda istilah dalam teks alami. Distribusi ini mencerminkan fakta bahwa istilah tidak terjadi secara independen satu sama lain dalam teks alami.

Model ini telah digunakan untuk menyelidiki berbagai aspek kinerja pencarian, seperti misalnya:
  • jumlah dokumen diambil, struktur permintaan yang diberikan berbagai struktur koleksi dokumen;
  • batas-batas kinerja pencarian informasi berdasarkan teks alami dalam hal mengingat dan presisi;
  • efek dari kegagalan pengambilan tertentu, juga dalam hal mengingat dan presisi.

Ada aspek lain dari kinerja pengambilan yang dapat dianalisis dari segi model, tetapi ada juga beberapa aspek yang tidak dapat dianalisis karena keterbatasan yang melekat dalam asumsi model. Sebagai contoh, karena semua dokumen dalam koleksi diasumsikan memiliki panjang yang sama, efek relatif dari algoritma peringkat, yang dirancang untuk mengkompensasi variasi panjang antara berbagai dokumen, tidak dapat diselidiki. Similary, karena semua kelas dalam permintaan diasumsikan mengandung jumlah yang sama dari istilah, efek "tidak seimbang" permintaan - satu atau lebih kelas yang sangat diperluas, sementara yang lain termasuk istilah hanya satu atau beberapa - tidak dapat dianalisis.

Model setidaknya telah titik terang pada faktor-faktor menentukan keterbatasan dalam proses pencarian berdasarkan pencocokan istilah. Dalam hubungan ini salah satu hasil yang menarik dari analisis ini adalah bahwa hilangnya presisi disebabkan oleh kurangnya konteks relatif kecil, asalkan dokumen yang tidak sangat panjang. Akibatnya, mungkin ada sedikit yang bisa diperoleh dengan pengembangan lebih lanjut dari fungsi pencarian ke arah analisis teks otomatis dengan tujuan menyelesaikan ambiguitas tekstual dalam dokumen. Peningkatan kinerja sistem dari perkembangan itu akan menjadi kecil, dan biaya pengembangan yang menyertainya akan sangat tinggi.



Perbedaan cara kerja Precision versus Recall


Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh search-engine. 
Cara Kerja : Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen.


Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan.



Definisi Recall dan Precision



S1: relevan dokumen
S2: diambil dokumen
S3: dokumen diambil menjadi relevan
Recall: S3/S1
Presisi: S3/S2

Hasilnya biasanya diukur dalam mengingat dan presisi - ingat menjadi ukuran untuk jumlah dokumen yang relevan yang diambil, dan ketepatan ukuran untuk berapa banyak dokumen yang diambil relevan.








Algoritma Web Crawler


Web Crawler adalah sebuah bot internet yang secara sistematis menelusuri World Wide Web , biasanya untuk tujuan pengindeksan Web .
Sebuah crawler Web juga dapat disebut laba-laba Web, semut, pengindeks otomatis, atau (dalam FOAF konteks software) yang scutter Web.
Mesin pencari web dan beberapa situs lain menggunakan perangkat lunak Web merangkak atau spidering untuk memperbarui konten web atau indeks konten web lain situs '. Web crawler dapat menyalin semua halaman yang mereka kunjungi untuk kemudian diolah oleh sebuah mesin pencari yang indeks halaman download sehingga pengguna dapat mencari mereka jauh lebih cepat.
Crawler dapat memvalidasi hyperlink dan HTML code. Mereka juga dapat digunakan untuk Scraping web.


Tidak ada komentar:

Posting Komentar