Hành Trang Khoa Học/Các nguồn thông tin điện tử

Từ Thư viện Khoa học VLOS
Bước tới: chuyển hướng, tìm kiếm


Trong đời sống ngày nay, một phương tiện không thể thiếu cho việc học tập và nghiên cứu khoa học là biết tận dụng khả năng cuả tin học. Trong đó, việc sử dụng Internet một cách hiệu quả có thể góp phần giúp các bạn đẩy nhanh tiến độ cuả các đề án cũng như nó là một công cụ không thể thiếu cho việc tự trao dồi, cập nhật hoá kiến thức và nghiên cứu. Phần bài viết này được viết ra nhằm đáp ứng phần nào việc giúp các bạn có thêm kĩ năng để xử dụng đúng mức phương tiện Internet (Hi hi! 'chat' thường không có ích gì ngoại trừ dùng để tìm bạn 4 chiều!), đặc biệt là các máy truy tìm dữ liệu (search engine).

Bài giảng sẽ bao gồm nhiều phần, trong phần kết chúng tôi sẽ trình lại tất cả tài liệu tham khảo chính mà tác giả đã dùng để viết nên loạt bài này. Các tài liệu này sẽ rất hữu ít nếu như các bạn có thì giờ và trình độ Anh ngữ đề nghị hãy đọc thêm chúng để có dịp hiểu chi tiết thêm những chi tiết mà chúng tôi không đề cập đến.

Search engine là gì

Mụch đích cuả phần này là trình bày kiến trúc căn bản cuả các search engine. Có nắm bắt được nguyên lý hoạt động cuả các search engine thì việc xử dụng sẽ có nhiều hiệu quả và nhanh chóng hơn.

Khái quát về search engine

Search engine (tạm dịch - máy truy tìm) -nguyên thuỷ- là một công cụ phần mềm nhằm tìm ra các trang trên mạng dưạ vào các thông tin mà nó có. Dữ lượng thông tin cuả search engine thực chất là một loại cở sở dữ liệu (database) cực lớn. Công cụ này tìm các tài liệu dưạ trên các từ khoá (keyword) và trả về một danh mục cuả các trang có chưá từ khoá.

Spider

Cơ sở dữ liệu cuả các search engine được cập nhật hoá bởi các chương trình đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các chương trình này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các nối kết (links) từ các trang và trở lại bổ xung dữ liệu cho các search engine sau khi phân tích. Các chương trình này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá mà bạn bỏ vào là để cho search engine kiếm trong bảng chỉ số cuả nó. Kết quả đúng nhất sẽ được xếp ở thứ tự đầu tiên. Trang nổi tiếng nhất là dùng nguyên tắc này là www.google.com

Meta-search engine

Trên đây là các loại search engine "nguyên thuỷ". Ngày nay, người ta còn lợi dụng các search engine sẵn có để thiết kế thành một loại search engine mới còn gọi là meta-search engine (tạm dịch máy truy tìm ảo). Nguyên tắc cuả loại search engine này rất đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các search engine khác Một cách đồng loạt và nhận về tất cả các kết quả tìm được (Ui chao! sao giống ... mấy con kí sinh trùng quá!). Và nhiệm vụ cuả nó chỉ là phân tích hay sắp xếp lại các tài liệu tìm được cho thân chủ. Cái hay cuả loại meta-search engine là lợi dụng cơ sở dữ liệu cuả các search engine nguyên thuỷ để tìm ra nhiều kết quả hơn. Nhưng vì loại meta-search engine này chỉ tồn tại nếu có các search engine nguyên thuỷ nên gọi là meta- (tiếp đầu ngữ meta thường dịch là 'siêu hình' hay 'ảo'). Điển hình là http://www.metacrawler.com/

Ngoài hai loại search engine này ngưòi ta còn đề cập đến

Thư mục đối tượng (Subject Directories)

Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - search engine kiểu này sẽ phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lưạ rẻ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn. Kiểu này dể cho người tuy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà mình muốn kiếm ra. Hơn nưã, sự phân loại đôi khi không được đầy đủ và chính xác. (Ngoài ra, nó còn chứa cả đống trang 'shopping' chỉ phù hợp cho ... phái nữ hì hì). Điển hình cuả loại này là www.yahoo.com

Chúng ta sẽ không bàn sâu loại thư mục đối tượng.

Các cơ sở dữ liệu đặc biệt

Đặc điểm cuả loại này là dữ liệu kiếm ra không thực sự có được điạ chỉ trang WEB cụ thể qua các search engine; dữ liệu này tồn tại trong các cơ sở dữ liệu cuả một computer ở đâu đó mà các trang WEB được phép sử dụng. Đặc biệt, các trang WEB nghiên cứu cuả các ĐH hay học viện như là

(Xin nhớ cho đây là cơ sở dữ liệu cuả các cơ quan nghiên cứu đó nha!)

Ngoài ra, lợi dụng google hay yahoo ta cũng có thể tìm ra các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ: "database" - Nghiã là: thay vì dùng từ khoá "helium laser" thì viết thành "helium laser database".

Các trang WEB mô tả như trên gọi là invisible WEB (tạm dịch 'vô kiến WEB')

Đặc điểm và phân loại search engine

Các đặc điểm

Như vậy, tuỳ theo keyword mà có thể tìm số trang liên hệ ít hay nhiều. Trong nhiều trường hợp, số trang tìm ra có đến hàng triệu trang thì vấn đề đặt ra cho một search engine la làm sao xếp thứ hạng các trang để người dùng có nhiều cơ hội tìm ra dữ liệu mình muốn nhất?

Cách thức xếp thứ hạng (ranking) Hầu hết các search engine xếp hạng ưu tiên theo kiểu mà người design nghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều kiện cho thêm cuả người dùng máy (chẳng hạn như máy bên Pháp thì trang tiếng Pháp sẽ có ưu tiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị trường tìm kiếm). Mặc dù vậy, khi chưa quen dùng chúng ta sẽ "tìm" được cả đống những cái liên kết (links) không vưà ý và nhiều lúc ...chúng hoàn toàn vô dụng. Lý do chính có thể là do người dùng đã không hiểu rõ kĩ thuật tìm kiếm cuả máy và ngược lại cũng có thể là do kĩ thuật hiện tại cuả máy truy tìm chưa đủ sức để "hiểu" ngưòi dùng muốn gì! (bởi vậy mới phải tả rõ hơn cho 'nàng' search engine hiểu rằng 'chàng' muốn gì)

Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện" (còn gọi là tần xuất) cuả từ khoá trong 1 trang. Nghiã là trang có xuất hiện từ khoá nhiều nhất sẽ được hiển thị trước tiên khi search engine trả lời. (Người thiết kế search engine cho rằng tài liệu nào lập lại nhiều lần cái từ khoá thì chắc nó sẽ hữu dụng nên được xếp ngay ở hàng đầu tiên cuả trang trả lời!).

Bởi vậy nếu bạn tra tìm trang WEB mà lại dùng từ khoá chung chung hoặc từ có nhiều nghiã thì hầu như bạn sẽ không tìm được những trang chưá cái mình muốn. Trong trường hợp này hoặc bạn phải tìm bộ từ khoá khác hơn/chi tiết hơn hoặc dùng những kĩ thuật hổ trợ từ search engine mà sẽ đề cập trong các phần sau cuả bài viết.

Có một số search engine ngoài việc xác định tần xuất cuả từ khoá chúng còn dựa vào khả năng xuất hiện sớm cuả từ khoá này trong một hồ sơ như là tìm thấy trong tưạ đề (title), trong đầu trang (header),... Hoặc giả, họ xác định sự quan trọng cuả trang WEB bằng cách ... đếm số trang có liên kết từ các trang khác tới nó (Một trang WEB có hay có quan trọng thì tui mới cho 'link' và 'reference' trên trang WEB cuả tui chớ sao!)

Cũng vì lí do này, đa số các search engine lớn đều có thêm chức năng là "advanced" hay "advanced search" để giúp bạn tìm ra cái bạn cần dể hơn.

Phân loại search engine

Phân loại theo kiến trúc hoạt động

Theo phân định cuả Berkeley thì có 3 loại công cụ tìm kiếm (search tool): các search engine tồn tại dựa trên chưong trình spider, các search engine theo thư mục đối tượng, và invisible WEB.

Phân loại theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:

Chúng ta sẽ không đề cập sâu hơn trong phần này. (xem như là bài tập vậy mà ... Có muốn đi tìm người yêu cũ thì tự lo kiếm lấy chứ sao nhờ tui!).

Các Search Engine nên được biết

Metcraw.gif

www.google.com

Được xem là search engine kiểu spider tốt nhất (4 lần thắng do Search Engine Watch lưạ chọn) Bằng google, bạn có thể dùng để tìm ảnh, các bàn luận đang có trên Usenet, và newsgroups (tạm dịch -- các nhóm tin tức). Nó cũng cung cấp chức năng kiểm lỗi chính tả, tra cứu các từ điển (hầu hết các bài viết cuả tác giả đều mượn trang này để tra từ điển) tìm giá chứng khoáng, bản đồ đi đường, số điện thoại và ..vv

Google đầu tiên là một đề án từ ĐH Stanford cuả các sinh viên Larry Page và Sergey Brin lúc đó gọi là BackRub. Năm 1988, tên này đổi thành Google và dự án đã được tung ra thị trường trở thành một công ty tư nhân tên Google cho đến nay. www.yahoo.com Xuất hiện năm 1994 ban đầu trang này thiết kế theo phương pháp thư mục. Cho đến tháng 11 năm 2002 yahoo đã thêm vào chức năng spider lấy từ Google (để tăng sức cạnh tranh) cho đến tháng 2 2004. Hiện nay yahoo đã tự có kĩ thuật tìm kiếm độc lập.

Đây là trang "số 1" cho những người thích mua sắm vì cách phân loại theo đối tượng sẽ dể cho người tiêu dùng tìm đến sản phẩm cần thiết.

Kĩ thuật spider cuả yahoo là sự kết nối kĩ thuật cuả Altavista, AllTheWeb, và cuả Inktomi (một đề án serach engine phát khởi từ UC Berkeley)

www.askjeeves.com

Khởi sự từ năm 1998 đến 1999 thì trở thành seaech engin có "ngôn ngữ tự nhiên": Nó cho phép bạn đặt câu hỏi (dĩ nhiên tiếng Anh hoặc các thứ tiếng mà nó hổ trợ) và trả lời bạn tất cả những gì dường như có thể là đúng. Thật ra, đằng sau bức màn "kĩ thuật cao" này là công ty đã có khoảng một trăm chuyên viên có nhiệm vụ khảo sát các ghi nhận khi tìm kiếm và từ đó tìm ra những gì dường như là những trang đúng nhất cho sự tìm kiếm đó.

Ask Jeeves còn hổ trợ thêm vào đó một chức năng gọi là "smart search" (tạm dịch dò kiếm tinh khôn) chức năng này cung cấp thêm một sự phân loại tối thiểu về loại đối tượng mà bạn muốn tìm (hình ảnh, phim, nhạc, ....) bằng cách chọn các biểu tượng và do đó cho ra kết quả chính xác hơn nhiều.

Các máy truy tìm khác

Acad.gif

Các hỗ trợ nâng cao và các phép toán thông dụng trong máy truy tìm

Bài giảng phần này nói nhiều về các đặc điểm chuyên biệt cuả các search engine dựa trên các đặc điểm cuả chúng mà các bạn có thể có nhiều phương pháp để tìm, tra cứu tài liệu một cách hữu hiệu hơn. Chúng tôi sẽ mổ xẻ chi tiết cá khả năng chuyên biệt cuả các thiết bị truy tìm

Các Phép Toán đơn giản

Các phép này dùng để nâng cao hiệu quả cuả việc tìm kiếm. Trong hầu hết các trang truy tìm, việc dùng các dấu hổ trợ +, - và ngoặc kép đều thuận tiện.

Dùng dấu '+'

Khi bạn muốn tìm các trang có mặt tất cả các chữ mà bạn muốn không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (và nhớ chưà khỏang trống giưã các chữ)

Thí dụ muốn tìm trang nói về cách thức viết Linux scrips bạn có thể điền vào ô tìm bộ từ khoá:

+Linux +script +tutor

Tutor.gif
Hình: tự học Linux script bằng ... search engine

Làm vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới được tìm ra. Bằng cách này bạn có thể lọc bớt được một số lớn các trang không cần tìm

Dùng dấu '-'

Nhiều lúc bạn muốn loại bỏ bớt các trang có một (hay nhiều) chữ mà bạn không muốn có thì dùng dấu - trong trường hợp này

Chẳng hạn tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe lọt vào thì có thể thử từ khoá: car +hibrid -sale -Prius -Insight (Prius and Insight là hai kiểu xe hibrid đã có bán trên thị trường cuả Toyota va Honda)

Dùng ngoặc kép " "

Để tìm cụm từ trong nguyên văn

Nhiều khi bạn muốn tìm bài viết nguyên văn cuả một câu nói, tên cuả một người hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép. Phương pháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt (thí dụ hãy thử đánh nguyên văn một câu thơ "Quả cau nho nhỏ miếng trầu ôi" vào trong google tìm xem ai đã viết câu này? Hè hè! như zầy mà đi thi thả thơ là tui thắng chắc hết 99% còn một phần là ... xui hông ai đang bài trên In-tờ-nét)

Xuanhuong.gif
Hình: 0.14 giây đã tìm ra tác giả cuả câu "quả cau nho nhỏ"!

Để tìm ra các tài liệu viết về nhà khoa học Von Neumann thì gõ nguyên tên "von neumann"

Chú ý: Phương pháp này rất hiệu quả nhưng nếu bạn đánh sai chính tả thì ... kể như "bán luá giống" (hãy thử đánh tìm chữ "Quã cau" xem tui nói có đúng hông!)

Các phép toán Boolean

Các mệnh lệnh truy tìm dùng đại số boolean đã được phát triển từ nhiều năm. Mặc dù vậy, chúng đã khó xử dụng so với những trình độ người trung bình. Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểu này.Tuy nhiên, hầu hết các trường hợp thì bạn có thể tiòm ra những gì cần mà không phải xài tới chúng

Các phép toán thông dụng thường được các search engine hổ trợ là OR, AND, NOTNEAR

Lưu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.

Phép OR

Lệnh này cho phép tìm những trang WEB nào có mặt 1 trong các thành tố (hay còn gọi là toán tử cuả phép toán OR) cuả bộ từ khoá.

Thí dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng việt và tiếng nước ngoài thì có thể dùng bộ từ khoá

  "Nguyễn Trãi" OR "Nguyen Trai"

Xa hơn nưã, một số các search engines sẽ dùng phép toán OR như là phép toán mặc định (nghiã là nếu tui gõ "Nguyễn Trãi" "Nguyen Trai" thì kết quả. Chẳng hạn trường hợp cuả Altavista thì sẽ tìm ra ngay cả những bài viết ... không dấu)

Lưu ý: AOL search engine không làm tốt khả năng truy tìm khi dùng toán tử OR. Trong khi google sẽ không hoạt động để tìm những cụm từ khác nhau bởi phép toán OR

Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot, và Gigablast

Phép AND

Phép toán AND nhằm yêu cầu search engine truy tìm các trang có sự hiện diện cuả tất cả thành tố. Thí dụ

  "space craft" AND "health" 

sẽ truy tìm các trang có chữ health và chữ "space craft"

Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào search engine không có chức năng boolean

Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN) Northern Light, Yahoo, và Gigablast

Phép NOT

Phép này hoàn toàn tương tự như cách dùng dấu -. Nghiã là, sự truy tìm sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT.

Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast

Phép NEAR

Dùng để truy tìm những trang WEB có các thành tố cuả từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghiã hay một lời phát biểu mà bạn không nhớ hết được nguyên văn. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:

  "Nước đi" NEAR "thề non"


Tanda.gif
Hình: Không nhớ hết câu, vẩn tìm ra cụ Tản qua Altavista

Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specify number).

Chẻ nhánh bằng phép ()

Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp. Thí dụ:

  bootable AND (CD OR CDROM OR CD-ROM) AND (howto or instruction)

(không chơi mấy cái ví dụ... thơ với thẩn nữa vì sợ bạn đọc là phái nữ chê tui 'yêu sắc' chỉ biết có ba bài thơ cổ thì chết)


Bootable.gif
Hình: Tìm phương pháp làm CD tự khởi động bằng bộ từ khoá có ()

Hổ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light

Các lưu ý:

  • Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả
  • Cách tốt nhất là dùng chữ in hoa cho các phép toán
  • Các trang tìm kiếm cuả Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" khi dùng các phép toán Boolean
  • Trang Lycos (www.lycos.com) có thông báo là họ trợ giúp các phép toán boolean nhưng trong thực tế, chức năng này không hoạt động đúng và hiệu quả

Các hổ trợ nâng cao khác

Ngoài ra, nhiều search engine còn hổ trợ thêm các từ khoá qui ước. Khi dùng các từ khoá này thì search engfine sẽ chuyên biệt hoá các trang WEB, truy tìm theo ý nghiã quy ước mà từ khoá biểu tượng. Với các hổ trợ này bạn có thể kiểm soát được các loại trang nào mà bạn muốn truy tìm

Lưu ý: Đằng sau các từ khoá qui ước đều có dấu hai chấm ':'. Khi viết bộ từ khoá có các từ khóa qui ước này thì tốt nhất là viết từ tìm kiếm ngay liền sau dấu ':' và không chưà khoảng trống (space) nào (thí dụ ta viết từ khoá

  link:http://cnn.com 

thay vì viết là

  link: http://cnn.com)

Các từ khoá host:, site:, url.host:,domain

Dùng để thu hẹp các trang WEB tìm ra

Từ khoá host

cuả Alavista(www.altavista.com): Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong một WEB server (host) mà bạn muốn tìm. Thí dụ

  host:mars.jpl.nasa.gov mars saturn

Bộ từ khoá trên chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chưá chữ mars và chữ saturn

Kết hợp với các lệnh khác bạn có thể tìm theo cách chuyên biệt:

  "carbon nanotech" -host:www.technologyreview.com

Lệnh trên cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com (Bởi vì muốn đọc bài từ trang này thì phải trả tiền đăng kí nên tui ...bảo thủ)

Hay là:

  "heart transplan" +host:edu

mệnh lệnh trên sẽ tuy tìm các trang có đuôi gốc là .edu (vì tui biết rằng các trang có tận cùng edu thường là các trang cuả trường dại học)

Như là 1 bài tập, bạn hãy tìm tất cả các trang xuất phát từ vương quốc Anh viết về clonning (Hà hà! Anh là một trong những nước dẫn đầu về kĩ thuật clonning)

Từ khoá tương tự site:, url.host:,domain

Làm chức năng hoàn toàn tương tự với từ khoá host: cuả Altavista thì:

Từ khoá site: được dùng bởi Excite, Google (Netscape, Yahoo)

Từ khoá url.host: dùng bởi AllTheWeb

Từ khoá domain: dùng bởi Inktomi (HotBot, iWon, LookSmart)

Các từ khoá title:, intitle:,allintitle:

Dùng để tìm các trang có tựa đề chứa từ khoá. Tuỳ theo loại search engine mà chúng ta dùng từ khoá khác nhau. Điều này tiện lợi cho việc tìm kiếm tựa đề (hay các bài viết có chủ đề tập trung) các bài viết. Thông thường các bài nghiên cứu được đăng tải sẽ có tựa đề rất rõ ràng. Do đó, nếu dùng cách này cũng có thể tìm ra nhiều tài liệu. Ngoài ra, dùng cách này bạn có thể tìm lại được các trang mà bạn chỉ nhớ một hay một phần tựa đề của nó.

Từ khoá title:

Có thể dùng trong các trang WEB: AltaVista, AllTheWeb, Inktomi (MSN và HotBot). Để tuy tìm các trang có có tựa đề chưá 1 từ hay 1 cụm từ đặc biệt(trường hợp cụm từ thì bạn hãy để trong ngoặc kép) Thí du:

  title: "Mars Landing"

sẽ giúp tuy tìm các trang nói về Hoả tinh

Trong trường hợp bạn muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề baì thì có thể dùng hai lần từ khoá title. Thí du:

  title Mars title: water

Từ khoá intitle:allintitle:

Cho phép dùng trong các trang: google và teoma.

  • Từ khoá intitle: tương tự như tư khoá title cuả altavista để tìm một từ hay 1 cụm từ dể trong ngoặc kép. Ví dụ để so sánh với 'title':
  intitle:"mars landing" 
  • Từ khoá allintitle: được dùng để tìm tựa các bài mà có chưá nhiều hơn 1 từ mà bạn muốn tìm. Ví dụ để so sánh với việc dùng nhiêu lần chữ 'title':
  allintitle:Mars watwer 


Allintitle.gif
Hình: Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google

Các từ khoá inurl:, allinurl:, orginurl:,u:

Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chưá c'ac chữ cần tìm. (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉ khác nhau...nhưng có cùng 1 tên)

inurl:allinurl: trong google

Cũng như trên muốn tìm địa chỉ các trang WEB có một chữ đặc biệt thì dùng inurl. Thí dụ:

  inurl:nasa 

Nếu bạn tuy tìm một điạ chỉ có nhiều hơn 1 chữ thì dùng allinurl. Thí dụ:

  allinurl:vietnam thetholucbat 

Lưu ý: trang google chỉ có thể tìm ra nếu như bạn gõ nguyên 1 bộ phận cuả từ (nghiã là nếu trong ví dụ trên bạn gõ thành allinurl vietnam lucbat thì bạn sẽ thất bại trong việc tìm kiếm

Ngoài ra, trong google bạn có thể lạm dụng từ khoá naỳ để tìm các trang có đuôi file riêng biệt. chẳng hạn như:

  mars rover inurl:pdf

sẽ giúp tìm các trang có dạng đuôi tệp là pdf mà các trang này chứa từ khoá mars và chữ rover

originurl:, u:url:

Việc tìm địa chỉ trong Inktomi (AOL, GoTo, HotBot) sẽ thông qua từ khoá originurl:

Trong Yahoo thì dùng từ khoá u:

Trong exite (www.excite.com) dùng url:

Từ khoá Link:linkdomain:

Dùng để tìm các trang có dòng liên kết tới trang mà được ghi trong từ khoá.

Từ khoá link dùng được trong google và trong yahoo. Tuy nhiên, khi dùng yahoo bạn phải cho đủ tên trang WEB với tiền tố http://. Thí dụ: từ khoá link:vietsciences.free.fr sẽ tìm được một số trang bởi google. Trong khi đó, nếu đánh

  link:http://vietsciences.free.fr 

thì sẽ tìm ra nhiều kết quả hơn trong yahoo

Từ khoá linkdomain: được dùng để tìm các liên kết nếu dùng MSN.

Từ khoá filetype:

Khi cần tìm các tư liệu nằm dưới các dạng tệp khác nhau thì từ khoá filetype: sẽ giúp đỡ ít nhiều. Tuy nhiên, tuỳ theo trang mà chúng ta truy kiếm sẽ có các giới hạn khác nhau.

Trang google: sẽ hổ trợ truy tìm các kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt), và Rich Text Format (.rtf) cũng như là PostScript (.ps), Text (.txt), HTML (.htm hay .html), WordPerfect (.wpd), và các file extensions khác ...ví dụ:

 laser filetype:pdf 

sẽ giúp tìm các trang kiểu đuôi .pdf

Trang yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml), and Text Format (.txt)

Trang MSN chỉ chuyên biệt tìm các loại tệp: HTML, PDF, PowerPoint, Word, or Excel

Lưu ý: Dưới "con mắt" cuả các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html

Dùng các loại kí tự phỏng định (wildcard character)

Các dấu này được hiểu tương tự như khi ta dùng lệnh có dấu phỏng định trong DOS, Windows, hay Linux

  • Dấu *: dùng thay cho dãy không kể độ dài các kí tự (từ zero trở lên). hổ trợ dấu này trong các tư khoá có AltaVista, Inktomi (iWon), Northern Light, Gigablast, google, Yahoo, MSN ... Thí dụ:
  *chnology +laser* 
  • Dấu? : Dùng thay cho một kí tự bất kì. Hổ trợ kiểu tìm này có AOL Search, Inktomi (iWon)

Dùng kí tự ~:

Đặc biệt trong google có một cách để tìm không những các trang có chưá từ khoá mà còn tìm các trang có chưá chữ đồng nghiã với từ khoá (trong tiếng Anh). Ví dụ:

  ~food facts

sẽ giúp truy tìm các dữ liệu có chữ 'food facts' và các chữ tương đương như 'nutrition facts', ...

Liên kết đến đây