31 Mei 2009

Implementasi Distributed Computing : search.detik.com

Mesin pencari search.detik.com (bukan detiksearch.com) adalah search engine yang digunakan untuk mesin pencarian news/artikel di detik.com. search.detik.com ini dibuat dengan menggunakan framework teknologi distributed computing dan 100% Java code yang 100% open source http://wiki.apache.org/jakarta-lucene.

Fitur Search terdiri dari :
1. Basic News/Article Search berdasarkan waktu terkini
2. Pencarian berdasarkan relevansi antar dokumen (mirip pageRank)
3. Pencarian berdasarkan kombinasi logika waktu dan relevansi
4. Pencarian berdasarkan range tanggal (dari tanggal... sampai dengan tanggal...)
5. Pencarian berdasarkan lokasi berita
6. Pencarian berdasarkan waktu hari ini, minggu ini, tahun ini,pencarian dalam arsip)
7. Pencarian dalam hasil pencarian

Search engine yang menggunakan Lucene (http://lucene.apache.org/) dan Nutch (http://lucene.apache.org/nutch/) sebagai engine utamanya ditambah menggunakan hadoop (http://hadoop.apache.org/core/) sebagai running engine (hadoop adalah implementasi teknologi distributed computing yang dapat memproses data yang sangat besar secara paralel dan terdistribusi).

Fitur lainnya yang bisa dilihat di halaman utama search.detik.com yang juga menggunakan teknologi yang berbasis java n framework distributed computing :

1). Berita Terpopuler adalah list berita yang paling banyak dibaca oleh pembaca detik, dibuat dengan menggunakan hadoop dan pig script (http://hadoop.apache.org/pig/ - script ini banyak digunakan di yahoo dan menjadi platform bahasa untuk high level language and analysis program dari very large data yang digunakan yahoo, seperti untuk yahoosearch dan yahoomail)

2). 10 Topik paling dicari adalah list kata-kata yang paling banyak dicari di search.detik.com, dibuat dengan menggunakan hadoop dan pig script.

3). 10 Topik paling populer adalah list kata-kata yang paling banyak terdapat di dalam artikel berita detik, dibuat dengan menggunakan hadoop dan hbase (http://hadoop.apache.org/hbase/ - hadoop distributed database yang dibuat seperti Google BigTable -> http://labs.google.com/papers/bigtable.html).

Search.detik.com ini berjalan pada 2 cluster dengan menggunakan 9 komputer (beberapa komputer yang digunakan mempunyai spesifikasi sekelas nyaris hanya seperti PC biasa).
Masih banyak yang akan dikembangkan didalam search engine ini, yang tentunya tetap menggunakan teknologi yang berbasiskan distributed computing dan pastinya tetap berbasis opensource.

From: andreas