Pengenalan Search Engine

Ketika internet mulai berkembang dan menjadi bagian dari pekerjaan sehari-hari, maka menjadi nyaris mustahil bagi seorang pengguna untuk mengumpulkan sendiri semua informasi yang tepat atau relevan dari jaringan internet yang maha luas itu. Inilah alasan utama mengapa “mesin pencari” dikembangkan.

Mesin pencari menjadi begitu populer saat ini hingga lebih dari 80% pengunjung situs berasal darinya. Apa sesungguhnya mesin pencari itu? Menurut webopedia, sebuah “Mesin Pencari” adalah sebuah program yang mencari sejumlah dokumen bagi kata kunci-kata kunci yang spesifik dan menampilkan sebuah daftar dokumen dimana kata kunci-kata kunci tersebut ditemukan”.

Sebagai contoh, jika Anda ingin mencari hotel yang ada di Jakarta, Anda mungkin akan mengetikan sejumlah kata kunci seperti: hotel di jakarta, hotel sekitar kemayoran, hotel dekat pasar baru, dan lain-lain…. Bila Anda mengklik tombol pencarian, maka Anda akan memperoleh data relevan terbaik yang berhubungan dengan kata kunci-kata kunci tersebut.

Di awal penawaran perdana saham Google, survey terbaru dan data traffic menunjukkan bahwa mesin pencari telah menjadi cara yang penting dan popular bagi masyarakat untuk mencari informasi secara online. Sebuah survey nasional yang dilakukan melalui telepon atas 1.399 pengguna internet antara tanggal 14 Mei dan 17 Juni, oleh Pew Internet & American Life Project, menunjukkan:

  • 84% pemakai internet menggunakan jasa mesin pencari. Setiap harinya lebih dari separuh pemakai internet menggunakan mesin pencari. Lebih dari dua per tiga pemakai internet mengatakan bahwa mereka menggunakan mesin pencari beberapa kali dalam seminggu.
  • Penggunaan mesin pencari peringkatnya sering hanya berada di bawah penggunaan email dalam daftar aktifitas online yang paling popular. Saat berita-berita besar menjadi liputan utama, kegiatan mendapatkan berita online umumnya jauh melebihi pemakaian mesin pencari.
  • Ada hasil yang substansial dari meningkatnya kemampuan mesin pencari dan semakin mahirnya masyarakat dalam menggunakan mesin pencari. Sebanyak 87% pengguna mesin pencari menyatakan bahwa mereka umumnya menemukan informasi yang mereka inginkan ketika mereka menggunakan mesin pencari.
  • Kenyamanan dan efektivitas pengalaman pencarian turut mendukung daya tarik mesin pencari. Sejumlah 44% pengguna mengatakan bahwa ketika mereka menggunakan mesin pencari, mereka mencari informasi vital yang benar-benar mereka butuhkan.

COM Score Networks yang melacak penggunaan internet menunjukkan bahwa diantara 25 mesin pencari teratas:

  • Orang Amerika melakukan total 6,7 milyar pencarian dalam bulan Desember.
  • 44% dari pencarian tersebut dilakukan dari komputer rumah, 49% dilakukan dari komputer di tempat kerja, dan 7% dilakukan dari komputer berbasis perguruan tinggi.
  • Rata-rata pengguna internet melakukan 33 pencarian di bulan Juni.
  • Rata-rata kunjungan ke sebuah mesin pencari menghasilkan 4,4 pencarian.
  • Rata-rata pengunjung melihat 1,8 halaman hasil pencarian pada setiap pencarian biasa.
  • Di bulan Juni, rata-rata penggunan menghabiskan 41 menit di situs-situs mesin pencari.
  • COM Score memperkirakan 40 – 45% pencarian melibatkan 1 hasil pencarian dari pihak sponsor.
  • Sekitar 7% pencarian di bulan Maret melibatkan sebuah modifikasi lokal, seperti nama kota dan jalan, nomor telepon atau kata ”map” atau ”directions”.
  • Persentase pencarian yang muncul melalui browser toolbars di bulan Juni adalah 7%.

Pangsa Pasar Mesin Pencari
Empat kali terpilih sebagai Most Outstanding Search Engine, Google adalah pemimpin pasar terbesar dalam industri mesin pencari. Google adalah sebuah mesin pencari berbasis crawler yang dikenal menyediakan jangkauan halaman-halaman situs yang komprehensif dan informasi yang paling relevan. Mesin pencari ini melakukan pencarian terbanyak dan jumlah ini mencapai lebih dari 250 juta pencarian setiap harinya.

Yahoo! Adalah pemain terbesar kedua dalam industri ini dengan pangsa pasar 28%. Yahoo! Pada mulanya adalah sebuah direktori berbasis manusia namun pada tahun 2002 berganti menjadi berbasis crawler. Hingga awal 2004 mesin pencari ini digerakkan oleh Google namun setelah itu pengelolanya mulai menggunakan teknologi mereka sendiri.

Overture berdampingan dengan Google dalam hal jumlah pencarian setiap harinya. Mesin pencari ini dimiliki oleh Yahoo! dan melakukan lebih dari 167 juta pencarian setiap harinya. Overture adalah mesin pencari pertama yang menyediakan program PPC. AskJeeves awalnya menjadi terkenal di tahun 1998 dan 1999 sebagai mesin pencari ”berbahasa natural” yang membolehkan Anda mengajukan pertanyaan-pertanyaan dan meresponsnya dengan jawaban-jawaban yang dianggap sesuai dengan pertanyaan-pertanyaan tersebut. Ketika diluncurkan, mesin pencari ini dijalankan oleh lebih dari 100 editor yang memonitor jalannya pencarian. Namun demikian, saat ini AskJeeves bergantung pada teknologi berbasis crawler untuk menyediakan hasil bagi penggunanya.

Mesin-mesin Pencari dan Direktori-direktori Besar
Google : Sejak didirikan pada tahun 1999, hingga saat ini, Google adalah mesin pencari paling populer di jaringan internet. Sejak peluncuran versi betanya, Google telah memiliki hasil pencarian untuk kata NOT (tidak). Ia tidak memunculkan hasil pencarian untuk kata OR (atau) hingga Oktober 2000. Pada bulan Desember 2000, Google menambahkan hasil pencarian judul. Pada Juni 2000 ia mengumumkan database sebesar lebih dari 560 juta halaman, yang tumbuh hingga mencapai 4 milyar per Februari 2004. Kekuatan terbesarnya terletak pada ukuran dan cakupannya. Google memasukan dokumen-dokumen PDF, DOC, PS dan berbagai tipe file lain ke dalam indeksnya. Ia juga memiliki database tambahan dalam bentuk Google Groups, News, Directory, dst.

Yahoo! : Yahoo! Adalah salah satu dari portal internet yang paling dikenal dan paling populer. Sejatinya Yahoo! hanyalah sebuah direktori biasa yang berdasarkan subyek. Sekarang Yahoo! adalah sebuah mesin pencari, direktori dan portal sekaligus. Ia menyertakan salinan cached dari berbagai halaman dan menyediakan link ke direktori Yahoo!. Ia mendukung pencarian Boolean secara penuh, namun kurang menyediakan fitur-fitur pencarian yang lebih advance. Ia mengindeks 500KB pertama dari sebuah halaman situs dan pencarian link harus menyertakan bagian ”http://”.

Bing : Bing (Dahulu MSN Search) adalah mesin pencari untuk situs portal MSN. Selama bertahun-tahun ia menggunakan database dari vendor-vendor lain seperti Inktomi, LookSmart, dan Direct Hit. Per 1 Pebruari 2005, ia mulai menggunakan database sendiri yang unik yang memasukkan database News, Images dan Lokal yang terpisah bersama dengan tautan ke konten Microsoft’s Encarta Encyclopedia. Iklan teksnya saat ini berasal dari Yahoo! Search Marketing Solutions (dulu dikenal sebagai Overture). Database yang besar dan unik, pencarian dengan menggunakan Search Builder dan Boolean, salinan cached dari setiap halaman situs dan pilihan pencarian lokal adalah kekuatan MSN Search. Namun demikian, fitur lanjutan yang terbatas, pemotongan yang tidak konsisten dan tidak adanya pencarian judul menjadi sejumlah kelemahannya.

Ask Jeeves/Teoma : Muncul perdana di musim gugur 2001 dan diluncurkan kembali pada bulan April 2002, mesin pencari ini telah membangun database-nya sendiri dan menawarkan beberapa fitur pencarian yang unik. Dibeli oleh AskJeeves pada bulan September 2001, ia tidak memiliki pencarian Boolean secara penuh dan beberapa fitur lanjutan lainnya, namun belakangan memperluas dan meningkatkan kemampuan pencarian dan menambah kemampuan pencarian lanjutan. Sementara hasil pencarian Teoma dapat tampil dalam tiga bagian terpisah, semuanya berasal dari satu database halaman-halaman situs yang terindeks. Ini dapat termasuk iklan berbayar (dari database Google AdWords) di bawah judul ”Sponsored Links”. Tidak ada fitur database atau portal tambahan yang tersedia secara langsung. AskJeeves beralih ke Teoma ketimbang ke Direct Hit pada bulan Januari 2002 untuk hasil mesin pencarian. Mengidentifikasi Metasites dan fitur Refine untuk fokus pada komunitas situs adalah kekuatannya, sedang database yang lebih kecil, tidak adanya submisi URL yang bebas, serta tidak adanya salinan cached halaman adalah kelemahannya.

Direktori-direktori
Sebuah direktori situs adalah sebuah alat pencarian situs yang pengumpulannya dilakukan secara manual oleh sejumlah editor. Bila situs telah dimasukkan bersama informasi seperti judul dan deskripsi, maka akan dilakukan penilaian oleh seorang editor dan, jika dianggap cocok, akan dimasukkan ke dalam daftar di bawah satu kategori subyek atau lebih. Pengguna dapat menelusuri sebuah direktori menggunakan kata kunci atau frasa, atau mencari melalui hirarkhi subyek yang ada. Contoh terbaik dari sebuah direktori adalah Yahoo dan Open Directory Project.

Perbedaan besar antara mesin pencari dan direktori terletak pada faktor manusia. Sebuah direktori pencarian situs mengindeks sebuah situs berdasarkan deskripsi independen dari situs tersebut. Sedang direktori melakukan banyak fungsi yang sama dengan mesin pencari halaman situs, walaupun format pengindeksan mereka berbeda. Perbedaan utamanya adalah direktori tidak menelusuri situs Anda untuk mengumpulkan informasi. Mereka bergantung pada beberapa teks, biasanya sebuah judul, nama domain, dan deskripsi untuk menentukan kata kunci yang menggambarkan situs Anda. Sementara situs dalam mesin-mesin pencari di-scan dan dihasilkan oleh program (crawler), mereka diedit secara manual dalam direktori-direktori. Direktori berisikan kelompok-kelompok situs menurut tema atau industri tertentu, misalnya situs-situs yang berhubungan dengan kendaraan ditempatkan dalam satu sub-direktori, situs-situs olahraga ditempatkan dalam sub-direktori lainnya dan seterusnya. Direktori secara efektif membantu pengorganisasian ribuan situs secara bersama-sama. Sebuah direktori yang dimasukkan ke dalam direktori lain disebut sebuah sub-direktori. Secara keseluruhan direktori-direktori ini membentuk sebuah hirarkhi atau struktur pohon.

Terdapat lima jenis direktori, yaitu : Human Edited (diedit oleh manusia), User Categorized (dikategorisasi oleh pengguna), User Classified (diklasifikasi oleh pengguna), Independently Classified (diklasifikasi secara independen) dan Pay Per Click (PPC). DMOZ dan Yahoo! adalah direktori terbesar di dunia saat ini.

Hubungan antara Penyedia Pencarian
Ada ribuan mesin pencari yang terdapat di internet. Karena tidak mungkin jika semuanya membuat, membangun dan memperbarui database mereka sendiri, kebanyakan menampilkan hasil dari mesin-mesin pencari besar pada SERP (Search Engine Results Page) mereka.

Tidak selalu semua hasil pencarian yang primer dan sekunder disediakan oleh satu mesin pencari saja. Mesin pencari yang berbeda dapat memberikan hasil yang berbeda pula dibanding mesin-mesin lainnya. Direktori juda dapat digunakan oleh pihak ketiga. Hubungan pemasok – penerima ditunjukkan di antara mesin-mesin pencari yang berbeda. Hubungan ini sangat penting untuk dipahami jika Anda situs Anda berada di peringkat atas.

Sekarang kita akan melihat hubungan antara 10 mesi pencari teratas dan 2 direktori teratas, misalnya mesin pencari mana yang menjadi pemasok dan mana yang menjadi penerima.

Google :

  • Hasil pencarian utama Google disediakan sendiri oleh tekhnologi pencariannya. Google tidak menyediakan hasil dari mesin pencari atau sumber lain.
  • Google Directory berisikan daftar yang berasal dari The Open Directory Project (ODP, DMOZ).
  • Google menyediakan hasil pencarian bagi AOL, Netscape, IWon, Teoma, AskJeeves dan Yahoo! Web Results.

Yahoo! :

  • • Submisi yang gratis dan berbayar (saat ini termasuk hasil pencarian Inktomi).
  • Hasil berbayar datang dari Overture.
  • Menyediakan hasil utama bagi HotBot, Excite, Go.com, MSN, Excite, Infospace.
  • Hasil backup bagi LookSmart dan Overture.

Bing :

  • Bing menyediakan hasil sponsor dari sumber iklan berbayar.
  • Bing menyediakan hasil pencarian utama dari LookSmart.
  • Hasil pencarian sekunder berasal dari Inktomi.

AOL :

  • Hasil AOL untuk ”Recommended Sites” adalah daftar yang dipilih secara manual oleh editor-editor AOL.
  • “Sponsored Sites” AOL dipasok oleh Google AdWords.
  • “Matching Sites” AOL dipasok oleh Google. Hasil yang muncul pada AOL tidak selalu cocok dengan hasil pada Google, karena Google memperbarui database mereka lebih sering.
  • Daftar direktori AOL disediakan oleh ODP.

Alta Vista :

  • Alta Vista menerima pendaftar sponsor dari Overture dan pengiklan Alta Vista sendiri.
  • Alta Vista menggunakan hasil dari database mereka sendiri untuk hasil pencarian utama.
  • Alta Vista mendapatkan hasil pencarian direktorinya dari LookSmart.

HotBot :

  • Hasil pencarian HotBot terdiri dari tiga kategori: Top 10 Results, Directory Results & Web Results.
  • Top 10 Results termasuk situs-situs dan pencarian yang populer.
  • Directory Results dipilih langsung oleh orang yang bertugas sebagai editor.
  • Web Results disediakan oleh Inktomi.
  • HotBot menawarkan kemampuan untuk menelusuri database HotBot, Lycos, Google dan/atau AskJeeves semuanya dari satu lokasi dengan satu klik.

IWon :

  • Hasil pencarian IWon Spotlight terdiri dari halaman-halaman situs yang ditemukan dalam IWon atau situs-situs yang memiliki kerjasama langsung dengan IWon.
  • IWon Sponsored Listings disediakan oleh berbagai pengiklan berbayar melalui pihak ketiga, termasuk Google AdWords dan Overture.
  • IWon Web Site Listings disediakan oleh Google.
  • IWon Shopping Listings disediakan oleh Dealtime.com.

Lycos :

  • Lycos menyediakan hasil pencarian direktori dari The Open Directory Project.
  • Lycos menyediakan pendaftar sponsor dari Overture.
  • Lycos menyediakan Web Results dari Fast dan dari jaringan Lycos.

Netscape :

  • Link sponsor Netscape disediakan oleh Google Adwords.
  • Hasil pencarian Netscape termasuk situs-situs yang dipilih langsung oleh editor-editor ODP yang digabung dengan hasil pencarian yang berasal dari Google.

AllTheWeb :

  • AllTheWeb menjelajahi dan mengindeks hasil pencarian ODP.
  • AllTheWeb membantu hasil pencarian utama di Lycos.
  • AllTheWeb menyediakan hasil pencarian dari Lycos.
  • AllTheWeb juga membantu fitur pencarian lanjutan pada Lycos, fitur pencarian FTP dan mesin khusus MP3 mereka.

Direktori:

  1. Dmoz: Daftar direktori yang disediakan bagi AOL, Google, Lycos dan Netscape dan banyak situs, direktori, dan portal lainnya.
  2. Yahoo!:Yahoo! Directory dipasok oleh editor-editor Yahoo! Sendiri dan menarik bayaran untuk situs-situs komersial. Hasil pencarian direktori Yahoo diberikan juga kepada Alta Vista.

Bagaimana Mesin Pencari Meranking Halaman Situs

Secara umum mesin pencari dibagi menjadi 2 kategori utama:

  1. Mesin pencari berbasis crawler.
  2. Direktori yang dikelola oleh manusia.

Crawler adalah program yang dibuat untuk memindai halaman-halaman situs. Crawler memindai seluruh halaman, mengindeks, dan mendaftarkannya pada mesin pencari. Ia mengevalusi halaman situs berdasarakan beberapa faktor yang berbeda seperti, kata kunci, tabel, judul halaman, isi halaman dll. Karena pendaftaran di mesin pencari bersifat otomatis, maka dapat berubah bila Anda merubah beberapa isi situs.

Pendaftaran manual dilakukan pada direktori-direktori yang dikelola oleh manusia. Para editor bertugas untuk mendaftar setiap situs ke dalam direktori. Webmaster perlu memberikan sebuah deskripsi singkat pada direktori untuk keseluruhan situs dan pencarian untuk menemukan kecocokan dilakukan hanya pada deskripsi yang diberikan itu. Pendaftaran ini tidak terpengaruh jika Anda merubah beberapa isi dalam situs Anda. Pendaftaran pada direktori dan mesin pencari sangatlah berbeda dan oleh karena itu parameter yang digunakan juga berbeda. Namun pada keduanya, tetaplah penting untuk membuat situs yang informatif dan kaya isi untuk menarik lebih banyak pengunjung.

Mesin pencari berbasis crawler terdiri dari 3 komponen utama:

  1. Crawler atau Spider
  2. Indeks
  3. Software mesin pencari

Semua komponen ini bekerja satu demi satu dan mendaftarkan halaman situs pada mesin pencari. Mesin pencari menemuka halaman situs dengan 2 cara:

  • Dengan menerima pendaftaran yang dikirim oleh pengelola situs.
  • Melalui crawler yang menelusuri internet untuk menyimpan link dan informasi mengenai setiap halaman yang dikunjungi.

Bila sebuah situs ditemukan oleh mesin pencari, crawler akan memindai seluruh situs. Pada saat memindai, crawler mengunjungi halaman situs, membacanya dan menelusuri link ke halaman lain yang ada di dalam situs itu. Mesin pencari besar seperti Google, Yahoo dan MSN menggunakan beberapa mesin pencari sekaligus. Google menggunakan 4 spider yang dapat menelusuri lebih dari 100 halaman per detik dan menghasilkan sekitar 600KB data setiap detiknya.

Program indeks dimulai setelah crawler melaksanakan tugasnya. Bila sebuah halaman situs telah ditelusuri, maka halaman itu harus ditransfer ke database. Indeks berisikan sebuah salinan dari setiap halaman situs yang telah dipindai oleh crawler. Jika halaman situs dirubah, indeks akan diperbarui dengan informasi yang baru.. Sangatlah penting untuk memasukkan halaman situs Anda ke dalam indeks, sebab halaman itu tidak akan dapat ditemukan oleh pencari jika tidak terindeks.

Software mesin pencari melakukan tugas untuk membuat daftar yang relevan. Software ini menelusuri seluruh database, misalnya halaman indeks, dan mencocokan temuan dengan pencarian. Kemudian ia meranking dan menyusun daftar dari hasil pencarian yang paling relevan. Penyusunan daftar ini dilakukan sebagaimana software mesin pencari diprogram. Daftar yang diberikannya menurut apa yang dianggapnya memiliki isi yang paling relevan.

Ada banyak faktor lagi yang menentukan bagaimna mesin pencari merangking sebuah halaman tetapi kita akan melihat secara detail nanti.

Secara umum, itu bergantung pada faktor-faktor On-page dan faktor-faktor Off-page. Faktor On-page termasuk kata kunci sasaran, tag HTML, isi, anchor text dan URL. Sementara faktor Off-page termasuk link building, popularitas link dan anchor text.

Walaupun istilah-istilah ini akan diterangkan nanti, saat ini marilah kita melihat strategi-strategi yang digunakan mesin pencari untuk mendaftar sebuah halaman situs. Mesin pencari berbasis crawler melakukan pendaftaran situs tanpa campur tangan manusia. Ini berarti ia merangking sebuah halaman berdasarkan apa yang dianggapnya sebagai halaman yang paling relevan! Ada beberapa parameter yang digunakan crawler untuk memeriksa apakah situs relevan dengan sebuah pencarian atau tidak. Program ini disebut Algoritma Mesin Pencari. Tidak seorang pun yang tahu persis algoritma dari mesin pencari apa pun tetapi penelitian telah membuktikan bahwa ada beberapa faktor yang umum pada sebagian besar algoritma mesin pencari.

Letak kata kunci: Bila kata kunci telah ditetapkan, maka tugas utama berikutnya adalah “penempatan kata kunci”. Algoritma mesin pencari umumnya berputar di sekitar lokasi kata kunci. Kata kunci dapat diletakkan dalam tag HTML, isi, headline, atau dalam beberapa paragraf pertama. Tingkat kepentingannya bervariasi menurut lokasinya. Kata kunci yang ditempatkan pada headline atau pada beberapa paragraf pertama lebih penting daripada lokasi lain di dalam situs. Jika kata kunci diletakkan di bagian awal. Mesin pencari akan berasumsi bahwa halaman itu lebih relevan untuk tema yang sedang dicari.

Frekuensi: Sekalipun sangat penting untuk meletakkan kata kunci ditempat yang paling terlihat pada halaman situs, adalah penting untuk membatasi jumlah kata kunci. Ini disebut sebagai frekuensi. Mesin pencari juga mengukug frekuensi kata kunci ketika merangking halaman situs. Mesin pencari menganalisis seberapa sering kata kunci muncul dalam hubungannya dengan kata lain dalam sebuah situs. Oleh karena itu situs dengan jumlah kata kunci yang lebih banyak dianggap lebih relevan dibanding yang lainnya.

Fitur tambahan pada Lokasi dan Frekuensi: Lokasi dan frekuensi hanyalah dasar dari algoritma mesin pencari. Pada saat mesin pencari mendapati bahwa orang bisa mengakalinya dan berhasil mengatur rangking halaman situs mereka, maka mesin pencari menambah kompleksitas algoritma mereka. Saat ini mesin pencari yang berbeda mengindeks jumlah halaman situs yang berbeda. Ada yang lebih banyak dan ada yang lebih sedikit. Karena beberapa mengindeks lebih banyak halaman dari yang lainnya, maka tidak ada mesin pencari yang memiliki koleksi halaman situs yang persis sama untuk ditelusuri.

Ketika pengelola situs mengetahui tentang frekuensi, mereka berusaha membobol algoritma dengan menggunakan kata kunci secara berlebihan dalam satu halaman, hanya untuk mendapat rangking yang lebih tinggi. Oleh karenanya, mesin pencari mulai menindak situs dengan terlalu banyak kata kunci yang sama. Mesin pencari menyebut hal itu ”spamming”. Menjadi sangat penting bagi perusahaan di bidang SEO untuk menjaga agar frekuensi kata kunci lebih dari situs lainnya, tetapi kurang untuk dapat disebut spamming. Mesin pencari mengawasi metode-metode spamming dengan berbagai cara, termasuk dengan menerima keluhan yang disampaikan oleh pengguna mereka.

Faktor-faktor Off-page: Di atas telah disebutkan beberapa faktor On-page. Sekarang kita melihat faktor-faktor umum Off-page. Mesin pencari berbasis crawler saat ini memiliki banyak pengalaman dengan para pengelola situs yang terus-menerus menulis kembali halaman situs mereka dalam rangka mendapatkan rangking yang lebih baik. Beberapa pengelola yang canggih bahkan merekayasa ulang sistem lokasi/frekuensi yang digunakan oleh sebuah mesin pencari tertentu. Oleh karenanya, semua mesin pencari besar saat ini memanfaatkan kriteria rangking di luar halaman situs (off the page).

Faktor-faktor di luar halaman situs adalah sesuatu yang tidak mudah dipengaruhi oleh para pengelola situs. Yang menonjol dari faktor-faktor ini adalah analisa link. Dengan menganalisa bagaimana halaman saling terhubung satu dengan lainnya, sebuah mesin pencari dapat menentukan apa isi sebuah halamana dan apakah halamana tersebut bisa dianggap penting sehingga rankingnya dapat ditingkatkan.

  • Analisa link: Mesin pencari berbasis jaringan telah memperkenalkan satu fitur pembeda penting untuk menimbang dan meranking halaman-halaman situs. Analisa link bekerja lebih kurang seperti sebuah kutipan bibliografi, seperti yang digunakan oleh Science Citation Index. Analisa link didasarkan pada seberapa baik setiap halaman terhubung, sebagaimana yang didefinisikan sebagai Hubs dan Otoritas, dimana dokumen Hubs memiliki link ke banyak halaman lain (out-links), dan dokumen Otoritas adalah dokumen yang dirujuk oleh banyak halaman lain, atau memiliki banyak ”in-links”.
  • Popularitas link: Popularitas link adalah sebuah parameter besar yang digunakan oleh Google. Ada logika sederhana dibalik hal ini. Jika situs-situs lain membuat link ke situs Anda maka pastilah terdapat sesuatu yang lebih relevan pada situs Anda. Popularitas menggunakan data frekuensi terpilihnya sebuah halaman oleh pengguna lain sebagai cara untuk memperkirakan relevansi. Sedang popularitas sering kali adalah sebuah indikator yang baik, ia mengasumsikan bahwa informasi yang mendasarinya selalu sama.

Ada beberapa faktor lain seperti:

  • Tanggal artikel dipublikasikan: Semakin baru konten semakin penting! Mesin pencari selalu percaya bahwa jika sebuah konten adalah baru maka konten itu akan semakin bernilai bagi para pengunjung dibanding lainnya. Oleh karena itu mesin pencari menampilkan hasil pencarian dimulai dari yang paling baru berurutan hingga yang tidak terlalu baru.
  • Panjang: Sementara panjang halaman saja tidak menunjukkan relevansi, ia menjadi faktor yang digunakan untuk menghitung nilai relatif dari halaman-halaman yang sama. Jadi, ketika memilih antara dua dokumen yang mengandung kata kunci yang sama, dokumen yang mengandung kata kunci yang lebih banyak secara proporsional dibanding panjang dokumen akan dianggap lebih relevan.
  • Kedekatan istilah-istilah dalam pencarian: Ketika istilah-istilah yang digunakan dalam pencarian muncul berdekatan satu dengan yang lainnya dalam sebuah dokumen; kemungkinan besar dokumen tersebut relevan dengan pencarian yang sedang dilakukan dibanding jika istilah-istilah tersebut muncul secara berjauhan. Sementara beberapa mesin pencari tidak mengenali frasa per se dalam pencarian, beberapa mesin pencari lainnya meranking dokumen lebih tinggi jika istilah-istilah yang digunakan dalam pencarian muncul berdekatan satu dengan lainnya.
  • Kata benda yang tepat kerap kali memiliki bobot lebih, karena banyak pencarian dilakukan atas orang, tempat, atau benda. Jika mesin pencari berasumsi bahwa Anda mencari sebuah nama ketimbang kata yang serupa yang digunakan sebagai istilah sehar-hari, maka hasil pencarian mungkin akan nampak berat sebelah.

Spam Pada Mesin Pencari

Melakukan spam pada mesin pencari adalah tindakan tak etis untuk mengoptimisasi situs agar memiliki ranking tinggi pada halaman hasil pencarian (SERP). Spamming dilakukan untuk mengelabui mesin pencari dengan menggunakan beberapa taktik seperti pengulangan kata kunci, penggunaan link dan teks tersembunyi dll. Semua mesin pencari memberi sanksi kepada situs yang melakukan spam. Sejak awal –paling tidak sejak Internet dimulai– para pengelola situs telah menggunakan strategi ini untuk menipu mesin pencari agar memberi ranking tinggi pada halaman-halaman yang tidak relevan.

Semua mesin pencari bertujuan untuk memberikan hasil yang paling relevan kepada pengunjungnya. Inilah yang menjadi faktor penentu bagi popularitas sebuah mesin pencari. Setiap mesin pencari mengukur relevansi menurut algoritmanya sendiri, oleh karena itu masing-masing memberi hasil pencarian yang berbeda. Spam pada mesin pencari muncul ketika seseorang mencoba secara artifisial mempengaruhi dasar perhitungan relevansi yang digunakan oleh sebuah mesin pencari.

Setiap mesin pencari besar menyediakan panduan spesifik yang menggambarkan apa yang boleh dan tidak boleh dilakukan oleh para webmaster pada halaman-halaman situsnya untuk mendapatkan ranking yang lebih baik, walaupun tidak selalu demikian.

Seluruhnya ada 16 taktik yang dapat dianggap sebagai spam pada mesin pencari, yaitu:

  • Kata kunci yang tak berhubungan dengan situs
  • Redirect
  • Stuffing kata kunci
  • Duplikasi konten/Mirror
  • Teks yang disamarkan
  • Halaman doorway
  • Link farms
  • Cloaking
  • Stacking kata kunci
  • Gibberish
  • Teks yang disembunyikan
  • Domain spam
  • Links yang disembunyikan
  • Situs-situs mini/mikro
  • Typo spam dan cyber squatting

Berbeda dengan arti harafiahnya, spam adalah penggunaan tehnik-tehnik yang berlebihan dan tidak etis untuk meningkatkan posisi halaman situs pada mesin pencari. Untungnya, atau sialnya –tergantung sudut pandang Anda– mesin pencari dengan cepat menanggapi hal ini. Beberapa mesin pencari tidak akan mengindeks halaman yang diyakini mengandung spam; yang lainnya tetap mengindeks, namun menempatkan halaman tersebut pada posisi yang lebih rendah; sementara beberapa lainnya tidak memunculkan seluruh isi situs yang bersangkutan. Sudah tentu tidak semua mesin pencari bersikap keras pada spam. Apa yang dianggap bisa diterima oleh satu mesin pencari dapat dianggap spam oleh mesin pencari lain.

Tehnik-Tehnik Melakukan Spam

Invisible text : Menyembunyikan kata kunci dengan cara menggunakan warna yang sama pada huruf dan latar belakangnya adalah salah satu trik tertua dalam dunia spam. Sekarang ini, tehnik tersebut adalah salah satu yang paling mudah dideteksi oleh mesin pencari.

Keywords stuffing : Mengulang-ulang kata kunci, biasanya pada bagian bawah halaman dengan menggunakan huruf berukuran kecil, atau dilakukan dari dalam meta tags atau tag lain yang tersembunyi.

Unrelated keyword : Jangan gunakan kata kunci populer yang tidak ada hubungannya dengan isi situs Anda. Beberapa orang yang melakukan pencarian dengan menggunakan kata kunci tersebut bisa saja terkecoh dan mengklik link Anda, tetapi mereka akan segera meninggalkan situs Anda saat mereka melihat bahwa situs tersebut tidak mengandung informasi yang sedang mereka cari. Jika Anda memiliki situs mengenai ilmu medis dan diantara kata kunci yang Anda gunakan terdapat ”Sharukh Khan” dan ”Britney Spears”, maka itu akan dianggap sebagai kata kunci – kata kunci yang tak berhubungan.

Hidden tags : Penggunaan kata kunci dalam tag-tag HTML yang tersembunyi, seperti tag comment, tag style, tag http-equiv, tag alt, tag font, tag author, tag option, tag no-frame.

Duplicate sites : Duplikasi konten juga dianggap sebagai usaha melakukan spam pada mesin pencari. Biasanya yang dilakukan adalah orang mengkopi isi sebuah situs dan memberi nama yang berbeda. Tetapi mesin pencari dapat menemukannya dengan mudah dan mereka menandainya sebagai spam. Jangan menduplikasi sebuah halaman situs atau halaman doorway, lalu memberi nama baru dan mendaftarkannya ke mesin pencari. Halaman mirror juga dianggap sebagai spam oleh semua mesin pencari dan direktori.

Link farm: Ini adalah sebuah jaringan halaman pada satu atau beberapa situs yang saling link satu dengan yang lain secara berlebihan. Tujuannya semata untuk meningkatkan rangking halaman-halaman atau situs-situs tersebut di mesin pencari.

Banyak mesin pencari menganggap penggunaan link farm atau link generator antar situs adalah spam. Beberapa mesin pencari bahkan diketahui mengeluarkan dari hasil pencarian mereka situs-situs yang berpartisipasi dalam program pertukaran link yang meningkatkan popularitas link secara tidak wajar.

Link dapat digunakan untuk melakukan dua jenis spam pada mesin pencari, yaitu: content spam dan meta spam.

Link content spam: Bila sebuah link ada di halaman A dan ditujukan ke halaman B untuk mempengaruhi komponen halaman A atau otoritas halaman B, maka ini adalah contoh dari spam konten pada halaman A. Tanpa ada bukti lain, halaman B tidak dapat diberi hukuman.

Link meta spam : Bila teks anchor atau teks judul dari sebuah link keliru menggambarkan target link tersebut atau menggambarkannya dengan menggunakan bahasa yang tidak koheren, maka ini adalah contoh dari spam meta link.

Repetitive submit : Setiap mesin pencari memiliki batasan masing-masing terhadap seberapa banyak jumlah halaman yang di-submit dan seberapa sering. Jangan submit halaman yang sama lebih dari satu kali sebulan ke mesin pencari yang sama dan jangan submit terlalu banyak halaman setiap harinya. Jangan pernah submit halaman doorway ke direktori.

Redirect : Jangan mendaftarkan situs dengan menggunakan URL redirect. Ini termasuk welcome.to, i.am, go.to dan lainnya. Seluruh situs haruslah ditempatkan pada domain yang sama dengan halaman entry. Pengecualian dapat dilakukan untuk situs-situs yang berisi chat atau massage board yang ditempatkan secara terpisah, selama sebagian besar situs ditempatkan pada domain sendiri. Sejatinya redirect halaman tidak dikembangkan untuk menjadi spam, namun menjadi tehnik yang populer untuk melakukan spam.

Ada banyak cara untuk melakukan redirect dari satu halaman situs ke halaman lainnya. Contoh metode redirect adalah kode-kode redirect response seri HTTP 300, error vector seri HTTP 400, tag META REFRESH dan redirect JavaScript. Seperti yang telah dikemukakan sebelumnya, semua ini digunakan untuk memindahkan pengunjung dari satu halaman ke halaman lain dalam waktu singkat. Dalam kasus ini, halaman yang dibuat untuk mesin pencari adalah spam.

Alt text spamming : Teks berukuran kecil yang bertujuan menempatkan kata kunci dalam ukuran terkecil di seluruh situs. Umumnya orang tidak dapat melihat teks-teks ini, tetapi spider dapat menemukannya. Spam alt text adalah menjejali tag alt text (untuk gambar) dengan kata kunci dan frasa yang tidak berhubungan dengan isi situs.

Doorway pages : Halaman yang dioptimisasi hanya untuk spider mesin pencari dalam rangka menarik lebih banyak pengunjung. Biasanya halaman tersebut dioptimisasi hanya untuk satu kata kunci atau frasa dan hanya ditujukan bagi spider, bukan bagi pengguna.

Content spam : Bisa saja terjadi URL yang berbeda berisikan konten yang sama, contohnya: duplikasi konten, dan bisa juga terjadi URL yang sama berisikan konten yang berbeda. Baik HTML dan HTTP memungkinkan hal ini terjadi dan, oleh karena itu, dapat dijadikan spam. Sebagai contoh, IMG support dan ALT text dalam HTML berarti pengunjung ke sebuah URL dapat melihat konten yang berbeda dengan apa yang dapat dilihat pengunjung lain yang tidak dapat melihat image.

Agent based spam : Penggunaan agent based tentulah bukan spam. Namun dapat menjadi spam bila agent based digunakan untuk mengidentifikasi robot-robor mesin pencari dan memberikan konten unik kepada robot-robot tersebut. Karena konten itu dibuat semata untuk mesin pencari dan tidak terlihat oleh pengguna, maka selalu disebut sebagai spam.

IP spam : Identifikasi robot mesin pencari dengan menggunakan nama atau alamat IP dan memberikan konten unik kepada mesin pencari dianggap sebagai spam. Sebagaimana pada agent based spam, tehnik ini pun dianggap sebagai spam karena Anda memberi konten unik yang bagi mesin pencari dan bukan bagi pengguna atau pengunjung.

No content : Jika situs tidak berisikan konten yang unik dan relevan bagi pengunjung, maka mesin pencari akan menganggapnya sebagai spam. Dengan demikian, konten ilegal, duplikasi konten dan situs yang berisi banyak link afiliasi juga dianggap bernilai rendah bagi relevansi pada mesin pencari.

Meta spam : Meta data adalah data yang menggambarkan sebuah sumber. Meta spam adalah data yang menggambarkan secara keliru sebuah sumber atau menggambarkan sebuah sumber secara tidak koheren untuk memanipulasi perhitungan relevansi pada mesin pencari.

Anda tentu ingat akan tag ALT. Tag tersebut bukan saja memberikan konten pada sebuah sumber HTML, namun juga memberikan deskripsi pada sumber image. Dalam kemampuannya untuk mendeskripsikan ini, penggambaran secara keliru dari sebuah image atau menggambarkannya dengan tidak koheren dapat disebut sebagai meta spam. Mungkin contoh terbaik dari meta spam sekarang ini dapat ditemukan pada bagiandari halaman HTML. Namun ingat, ini hanya disebut spam bila dilakukan semata-mata untuk mendapatkan relevansi pada mesin pencari.

Meta spam jelas lebih abstrak dibanding content spam. Daripada mendiskusikannya secara abstrak, kita aakan mengambil beberapa contoh dari HTML dan XML/RDF untuk mengilustrasikan meta spam dan dimana letak perbedaannya dari content spam. Secara umum, semua yang ada dalam sebuah dokumen HTML, atau apa pun juga dalam bagian itu yang mendeskripsikan sumber lain, dapat digunakan untuk melakukan meta spam.

Untuk memastikan bahwa Anda tidak melakukan spam, Anda perlu memeriksa beberapa hal. Pertama dan yang paling utama, Anda harus mengetahui apakah konten Anda benar-benar bernilai bagi pelanggan dan pengunjung Anda atau tidak. Buat dan uji situs Anda menurut cara pandang pengguna. Selalu ingat bahwa pengguna internet adalah pencari informasi dan mereka selalu menginginkan konten terbaru. Rencanakan dan bangun situs dengan pikiran seolah-olah tidak ada mesin pencari dan hindari halaman-halaman yang diotomatisasi. Google dan banyak mesin pencari lainnya tidak mengindeks halaman-halaman yang auto generated.

Inktomi menerima halaman-halaman informasi ke dalam indeks gratis dan ke dalam program berbayar mereka. Sebagai contoh, jika sebuah situs mengandung dokumen PDF, dan Anda membuat sebuah halaman informasi dalam HTML dengan sebuah ringkasan untuk setiap dokumen PDF, maka halaman HTML tersebut dapat diterima ke dalam Inktomi.

Bagaimana Melaporkan Spam Pada Mesin Pencari

Karena praktek spam selalu berkembang, maka penting untuk mengetahui apa yang dikatakan secara spesifik oleh mesin pencari mengenai spam dan praktek-praktek apa yang pasti dilarang jika Anda ingin meraih ranking pada deretan atas mesin pencari. Terlebih lagi, setiap SEO yang etis sepatutnya tahu bagaimana melaporkan dengan benar setiap spam yang mereka temukan, sehingga mesin pencari dapat memperbaiki algoritma mereka.

Bagaimana Google Mendefinisikan Spam
Sebagai bagian dari panduan webmaster mereka, Google menggariskan tehnik-tehnik yang digunakan untuk mencari, mengindeks, dan merangking situs Anda. Mereka juga secara spesifik menyatakan bahwa tehnik-tehnik berikut ini dapat membuat mereka menyingkirkan situs Anda dari indeks Google:

  • Teks atau link tersembunyi.
  • Cloaking atau redirect secara curang.
  • Query otomatis ke Google.
  • Halaman-halaman yang berisi kata kunci yang tidak relevan.
  • Halaman-halaman ganda, subdomain, atau domain dengan duplikasi konten yang mencolok.
  • Halaman-halaman doorway yang dibuat semata-mata untuk mesin pencari, atau cara-cara cookie cutter lainnya seperti program afiliasi dengan sedikit atau tanpa konten orisinil.

Namun demikian, Anda harus terus mengingat bahwa bukan hanya praktek-praktek di atas yang tidak diijinkan oleh Google. Secara umum, Google tidak mau jika hasil pencarian mereka dimanipulasi oleh praktek-praktek curang. Rekomendasi mereka bagi para webmaster adalah:

Para webmaster yang mencurahkan banyak energi untuk menjunjung semangat prinsip-prinsip dasar di atas akan memberikan pengalaman yang lebih baik kepada pengguna dan dengan demikian menikmati rangking yang lebih baik dibanding mereka yang menghabiskan waktu mencari titik-titik lemah yang dapat mereka manfaatkan.

Untuk melawan praktek-praktek spam yang umum dilakukan dengan SEO polesan, Google juga telah memberikan daftar praktek-praktek yang patut diwaspadai bila Anda melakukan optimisasi mesin pencari. Menurut Google, jangan ragu untuk menghindari SEO yang:

  • Memiliki domain bayangan.
  • Menaruh link ke klien mereka yang lain pada halaman doorway.
  • Menawarkan untuk menjual kata kunci pada address bar.
  • Tidak membedakan antara hasil pencarian yang aktual dengan iklan-iklan yang muncul pada hasil pencarian.
  • Menggaransi ranking, namun hanya pada kata kunci berfrasa panjang yang tak jelas, yang sudah pasti dapat Anda capai.
  • Beroperasi dengan menggunakan berbagai nama alias atau info WHOIS yang palsu.
  • Mendapat traffic dari mesin pencari palsu, spyware, atau scumware.
  • Pernah memilik domain yang dikeluarkan dari indeks Google atau tidak pernah terdaftar pada Google.\

Bagaimana Melaporkan Spam Kepada Google

Google menyediakan form yang dapat Anda gunakan untuk melaporkan spam kepada Google, atau Anda dapat mengirim e-mail kepada Google di [email protected] Catatan: Google jarang menyingkirkan situs secara manual dari mesin mereka. Namun, Google akan melakukan perubahan pada algoritma dan software pelacak spam mereka untuk mengeliminasi tehnik spam yang mengganggu mesin pencari mereka.

Bagaimana Yahoo! Mendefinisikan Spam

Catatan: AltaVista, All the Web dan Inktomi dimiliki oleh Yahoo!, maka kebijakan Yahoo! Mengenai spam dan panduan webmaster mereka juga berlaku pada mesin-mesin pencari tersebut. Menurut Yahoo!, spam pada mesin pencari adalah halaman-halaman situs “yang dianggap tidak dinginkan dan muncul dalam hasil pencarian dengan tujuan mengelabui atau menarik pengguna, dengan sedikit perhatian pada relevansi atau kualitas keseluruhan pengalaman si pengguna.” Secara resmi, Yahoo! tidak ingin mengindeks situs-situs dengan:

  • Teks yang disembunyikan dari pengguna.
  • Penyalahgunaan nama/produk kompetitor.
  • Halaman-halaman yang memiliki konten yang secara substansial sama dengan halaman-halaman lain.
  • Situs-situs ganda yang menawarkan konten yang sama.
  • Halaman-halaman dalam jumlah besar yang dibuat secara otomatis atau hanya memiliki sedikit nilai.
  • Halaman-halaman yang ditujukan untuk me-redirect pengguna ke halaman lain.
  • Halaman-halaman yang memberi konten yang berbeda kepada mesin pencari dengan apa yang dilihat oleh pengguna.
  • Halaman-halaman yang dibangun terutama untuk mesin pencari.
  • Halaman-halaman yang menggunakan pop-up secara berlebihan, yang bercampur aduk dengan navigasi bagi pengguna.
  • Halaman-halaman yang menggunakan metode artifisial untuk meningkatkan rangking pada mesin pencari.
  • Situs-situs dengan berbagai nama host virtual yang tidak perlu.
  • Cross-linking yang berlebihan antar situs untuk dengan cepat meningkatkan popularitas situs.
  • Halaman-halaman yang mengganggu akurasi, diversitas, atau relevansi mesin pencari.
  • Halaman-halaman yang terlihat menipu, curang, atau memberi pengalaman yang tidak bermanfaat bagi pengguna.

Bagaimana Melaporkan Spam Kepada Yahoo!

Jika Anda menemukan sebuah situs yang melakukan spam di Yahoo!, Anda dapat melaporkan spam tersebut pada sebuah form pada situs mereka.
Catatan: Selain dapat melaporkan spam, Anda juga dapat melaporkan pelanggaran hak cipta kepada Yahoo! Untuk meminta agar mereka mengeluarkan setiap konten yang melanggar hak cipta, e-mail mereka di [email protected]

Bagaimana Teoma/AskJeeves Mendefinisikan Spam

Salah satu sumber utama kebijakan spam pada Teoma/AskJeeves ada di halaman Site Submission Terms mereka. Tehnik-tehnik yang dapat membuat situs Anda tidak terindeks adalah:

  • Memiliki teks yang menipu.
  • Terdapat duplikasi konten.
  • Memiliki meta data yang tidak akurat menggambarkan konten halaman situs.
  • Memasukan kata kunci yang keluar dari topik dan berlebihan.
  • Membuat halaman-halaman untuk mengarahkan pengguna ke halaman situs lain.
  • Menampilkan bagi pengunjung konten yang berbeda dari konten yang didatangi spider.
  • Secara sengaja menggunakan misleading link.
  • Menggunakan pola-pola untuk melakukan self linking.
  • Menyalahgunakan program afiliasi atau referral.

Bagaimana Melaporkan Spam Kepada Teoma/AskJeeves

Untuk melaporkan spam kepada AskJeeves atau Teoma, kirim e-mail ke [email protected]

Bagaimana Bing Mendefinisikan Spam

Bing/MSN Search baru-baru ini menambahkan panduan konten untuk situs mereka, yang secara eksplisit menyatakan bahwa MSNBot akan memandang tehnik-tehnik berikut ini sebagai spam:

  • Halaman stuffing dengan kata kunci – kata kunci yang tidak relevan yang bertujuan untuk menambah kepadatan kata kunci di halaman tersebut, termasuk disini stuffing tag ALT.
  • Penggunaan teks atau link tersembunyi.
  • Penggunaan tehnik-tehnik seperti link farm yang secara artifisial menambah jumlah link ke halaman Anda.

Juga, dalam sebuah e-mail yang mengumumkan peluncuran MSN Search yang baru, Microsoft menyebutkan cloaking dan duplikasi konten pada beberapa domain sebagai hal-hal yang dapat menyebabkan situs Anda dikenai sanksi atau dikeluarkan dari indeks MSN Search.

Bagaimana Melaporkan Spam Kepada Bing

Untuk melaporkan spam kepada Bing, gunakan form yang ada pada situs mereka.

Bahkan mereka yang melakukan spam pada saat ini dan berpikir bahwa mereka dapat terus melakukannya, haruslah mengingat satu hal, ketika kompetitor memeriksa situs Anda (dan mereka memang melakukannya), mereka akan melihat hal itu sebagai spam dan mereka akan melaporkannya. Sekali Anda terlapor ke sebuah mesin pencari, Anda akan dikenai sanksi dalam hasil pencarian karena menggunakan tehnik spam.

10 Responses to Pengenalan Search Engine

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>