Selasa, 19 Maret 2013

UAS Information Retrieval

Metode / Algoritma yang digunakan untuk melakukan IR






Berikut merupakan metode/algoritma yang digunakan untuk melakukan Information Retrieval :

Model Boolean : Sistem pengambilan teks yang paling menawarkan fungsi identitas yang lebih maju, sehingga memungkinkan baik untuk mendefinisikan istilah pencarian beberapa merumuskan persyaratan mengenai hubungan antara istilah. Yang paling dikenal adalah berdasarkan pada aljabar Boolean, dinamai matematika George Boole Inggris (yang benar-benar berdasarkan beberapa contoh klasik tentang hukum makanan Yahudi). 

Logika Boolean memberikan pengguna kemungkinan kualifikasi hubungan antara istilah pencarian oleh operator Boolean seperti AND (hubungannya), OR (disjungsi) atau TIDAK (negasi). Misalnya permintaan pencarian



        R = T1 T2 AND NO T3


Hal ini membuat sistem mengambil semua dokumen yang mengandung istilah pencarian T1 dan T2, namun tidak termasuk yang mengandung kedua istilah maupun yang mengandung T3. Pada gambar 4/4 set dokumen ditunjukkan:

Gambar 4/4 - Ilustrasi pengambilan Boolean



Di = set dokumen yang berisi Ti

Operator OR dapat digunakan untuk mewakili persamaan :

S' =(T1 OR T12 OR ... OR T1m)
AND
(T2 OR T22 OR ... OR T2n)
NOT
(T3 OR T32 OR ... OR T3j)







Model Vector Space : model aljabar untuk dokumen teks yang mewakili (dan setiap objek , secara umum) sebagai vektor pengenal, seperti, misalnya, istilah indeks. Hal ini digunakan dalam penyaringan informasi , pencarian informasi , pengindeksan dan peringkat relevansi. Penggunaan pertama yaitu diterapkan dalam Sistem Information Retrieval SMART.


Dokumen dan query direpresentasikan sebagai vektor.

dj = (W1,j, W2,j, …, Wt,j)
q = (W1,q, W2q, …, Wt,q)

Setiap dimensi sesuai dengan istilah yang terpisah. Jika istilah terjadi dalam dokumen, nilainya dalam vektor adalah non-nol. Beberapa cara yang berbeda dari komputasi nilai-nilai, juga dikenal sebagai (istilah) bobot, telah dikembangkan. Salah satu skema yang paling dikenal adalah tf-idf bobot (lihat contoh di bawah).
Definisi dari istilah tergantung pada aplikasi. Biasanya istilah adalah kata-kata tunggal, kata kunci , atau frase lagi. Jika kata-kata yang dipilih untuk menjadi persyaratan, dimensi dari vektor adalah jumlah kata dalam kosa kata (jumlah kata yang berbeda yang terjadi di corpus ). 
Operasi vektor dapat digunakan untuk membandingkan dokumen dengan permintaan.








Model Probabilistik : pencarian informasi dikembangkan (Harvold 1980). Model itu sendiri terdiri dari dua komponen.

Komponen pertama memberikan jumlah dokumen diambil sebagai fungsi :
  • struktur koleksi dalam hal jumlah dokumen dan panjang dokumen,
  • struktur permintaan dalam hal co-terjadinya persyaratan pada kelas dan jumlah istilah yang ditentukan dalam masing-masing kelas.

Komponen kedua memberikan nilai recall dan presisi sebagai fungsi
  • struktur koleksi yang didefinisikan seperti di atas,
  • struktur permintaan dalam hal co-terjadinya persyaratan pada kelas dan sejauh mana kelas diperluas dengan istilah.


Dalam model, kelas ditafsirkan sebagai kelas searchonyms. Model ini didasarkan pada teori probabilitas tradisional digabungkan dengan distribusi jenis-tanda istilah dalam teks alami. Distribusi ini mencerminkan fakta bahwa istilah tidak terjadi secara independen satu sama lain dalam teks alami.

Model ini telah digunakan untuk menyelidiki berbagai aspek kinerja pencarian, seperti misalnya:
  • jumlah dokumen diambil, struktur permintaan yang diberikan berbagai struktur koleksi dokumen;
  • batas-batas kinerja pencarian informasi berdasarkan teks alami dalam hal mengingat dan presisi;
  • efek dari kegagalan pengambilan tertentu, juga dalam hal mengingat dan presisi.

Ada aspek lain dari kinerja pengambilan yang dapat dianalisis dari segi model, tetapi ada juga beberapa aspek yang tidak dapat dianalisis karena keterbatasan yang melekat dalam asumsi model. Sebagai contoh, karena semua dokumen dalam koleksi diasumsikan memiliki panjang yang sama, efek relatif dari algoritma peringkat, yang dirancang untuk mengkompensasi variasi panjang antara berbagai dokumen, tidak dapat diselidiki. Similary, karena semua kelas dalam permintaan diasumsikan mengandung jumlah yang sama dari istilah, efek "tidak seimbang" permintaan - satu atau lebih kelas yang sangat diperluas, sementara yang lain termasuk istilah hanya satu atau beberapa - tidak dapat dianalisis.

Model setidaknya telah titik terang pada faktor-faktor menentukan keterbatasan dalam proses pencarian berdasarkan pencocokan istilah. Dalam hubungan ini salah satu hasil yang menarik dari analisis ini adalah bahwa hilangnya presisi disebabkan oleh kurangnya konteks relatif kecil, asalkan dokumen yang tidak sangat panjang. Akibatnya, mungkin ada sedikit yang bisa diperoleh dengan pengembangan lebih lanjut dari fungsi pencarian ke arah analisis teks otomatis dengan tujuan menyelesaikan ambiguitas tekstual dalam dokumen. Peningkatan kinerja sistem dari perkembangan itu akan menjadi kecil, dan biaya pengembangan yang menyertainya akan sangat tinggi.



Perbedaan cara kerja Precision versus Recall


Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh search-engine. 
Cara Kerja : Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen.


Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan.



Definisi Recall dan Precision



S1: relevan dokumen
S2: diambil dokumen
S3: dokumen diambil menjadi relevan
Recall: S3/S1
Presisi: S3/S2

Hasilnya biasanya diukur dalam mengingat dan presisi - ingat menjadi ukuran untuk jumlah dokumen yang relevan yang diambil, dan ketepatan ukuran untuk berapa banyak dokumen yang diambil relevan.








Algoritma Web Crawler


Web Crawler adalah sebuah bot internet yang secara sistematis menelusuri World Wide Web , biasanya untuk tujuan pengindeksan Web .
Sebuah crawler Web juga dapat disebut laba-laba Web, semut, pengindeks otomatis, atau (dalam FOAF konteks software) yang scutter Web.
Mesin pencari web dan beberapa situs lain menggunakan perangkat lunak Web merangkak atau spidering untuk memperbarui konten web atau indeks konten web lain situs '. Web crawler dapat menyalin semua halaman yang mereka kunjungi untuk kemudian diolah oleh sebuah mesin pencari yang indeks halaman download sehingga pengguna dapat mencari mereka jauh lebih cepat.
Crawler dapat memvalidasi hyperlink dan HTML code. Mereka juga dapat digunakan untuk Scraping web.


Senin, 18 Maret 2013

Information Retrieval (Sistem Temu Kembali Informasi)


Pengertian Information Retrieval
“Information Retrieval merupakan suatu proses pencarian data yang tidak terstruktur dari beberapa koleksi besar, yang kemudian ditemukan hasil suatu informasi yang dibutuhkan, baik pencarian pada media penyimpanan data internal komputer maupun yang terdapat pada media penyimpanan internet”.#penulis

Adapun pengertian tentang Information Retrieval menurut Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, dalam bukunya yang berjudul Introduction to Information Retrieval, Cambridge University Press. 2008. 

Information retrieval (IR) is finding material (usually documents) of an unstructured nature   (usually text) that satisfies an information need from within large collections (usually stored on computers).”

Information retrieval  (IR) adalah proses menemukan bahan (biasanya dokumen) dari bersifat terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan di komputer).

Information Retrieval System (IRS) merupakan sistem yang digunakan untuk menemukan kembali (retrieve) dokumen yang relevan terhadap kebutuhan user dari suatu kumpulan informasi berdasarkan kata kunci atau keywoards atau query dari user. Selain menemukan dokumen yang relevan terhadap query, IRS juga melakukan perangkingan terhadap hasil pencarian tersebut. Suatu dokumen yang memiliki rangking yang lebih tinggi daripada dokumen lain akan dianggap lebih relevan terhadap query.

Cara Kerja Information Retrieval
Model sistem temu kembali informasi menentukan detail sistem temu kembali. Informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query. Salah satu model sistem temu kembali informasi yang paling awal digunakan adalah model boolean. Model boolean mempresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkan query direpresentasikan sebagai ekspresi booleanQuery dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan.

 
  1. Text Operations  (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen  dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). 
  2. Query Formulation (formulasi terhadap query) yang memberi bobot pada indeks kata-kata query.
  3. Ranking, mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
  4. Indexing, membangun data indeks dari koleksi dokumen. Dilkakukan terlebih dahulu sebelum pencarian dokumen, sistem temu balik informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang sistem, relevan dengan query, namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor.


Cara kerja Information Retrieval pada media penyimpanan data internal komputer dicontohkan oleh Aplikasi Windows Explorer :



Cara kerja Information Retrieval pada media penyimpanan data internet dicontohkan oleh Aplikasi mesin pencari Google :






Masa Depan Information Retrieval





Berbicara masa depan, tentunya membahas tentang impian yang masih dalam angan-angan, berkhayal sesuatu yang tidak mungkin, berharap untuk menjadi kenyataan. Karena dari sebuah khayalanlah suatu karya besar tercipta.

Berkhayal tentang masa depan Information Retrieval, sebenarnya manfaat dari Information Retrieval saat ini cukup dirasakan berguna bagi user yang baru mengenal maupun yang sudah mahir menggunakan teknologi komputer. Seperti contoh feature pencarian yang ditawarkan oleh mesin pencari Google (tanpa mengecilkan mesin pencari lainnya :D) seperti penelusuran menggunakan keyword text, gambar, maps, video yang terdapat pada situs Youtube, dll.


Adapun beberapa kemungkinan cara kerja Information Retrieval yang mungkin akan terjadi pada masa depan yaitu :

  1. Kemungkinan, adanya proses pencarian menggunakan suara menggantikan ketikan tangan.(saat ini)
  2. Kemungkinan, fitur tambahan pada Google Maps yaitu Video Live Streaming : user dapat melihat peristiwa di maps secara langsung apa yang terjadi saat ini.
  3. Kemungkinan, apabila wajah kita dipotret secara langsung pada mesin pencari, mesin pencari langsung dapat mengidentifikasi dan menampilkan hasil pencarian data kita yang terdapat di dunia maya.
  4. Kemungkinan, menampilkan data riwayat hidup seseorang selama mengakses internet.




Cara kerja Information Retrieval masa depan, saat ini pun sudah diperkenalkan oleh Google berupa teknologi Alat Pencari Google Glasses, seperti yang ditunjukkan oleh video di bawah ini :





Namun, inovasi yang akan diterapkan pada Information Retrieval masa depan diharapkan tidak membuat user ribet dalam memanfaatkan fitur terbarunya. hal ini mungkin terjadi seiring semakin canggih atau detailnya suatu inovasi baru, maka semakin banyak step yang harus dilakukan user untuk mendapatkan hasil yang sesuai diharapkan.