Deep Web ( tạm dịch là Web Ẩn ) là các nguồn dữ liệu, thông tin dạng Web trên internet nhưng không thể tìm thấy trên các máy tìm kiếm thông thường hiện nay như Google, Bing…
Có rất nhiều nghiên cứu cho thấy, các máy tìm kiếm hiện nay chỉ lập được chỉ mục ( indexing ) cho một phần rất nhỏ của tất cả các nội dung web hiện có trên internet, còn một phần rất lớn của internet hoàn toàn không được biết đến bởi hầu hết người dùng internet.
Bạn sẽ nghĩ gì nếu bạn được cho biết rằng ngầm bên dưới của internet là cả một thế giới nội dung rộng lớn gấp nhiều lần hơn thế giới World Wide Web mà chúng ta có thể tiếp cận hiện nay ? Chúng tôi cho rằng bạn sẽ cảm thấy thực sự sốc. Các chuyên gia ước tính rằng các Web Ẩn mà các máy tìm kiếm hiện nay không thể chạm tới, chứa lượng nội dung nhiều gấp 500 lần so với World Wide Web.
Để có thể giải thích đơn giản và dễ hiểu hơn về khái niệm Web Ẩn, chuyên gia về Web Ẩn Mike Bergman, sáng lập viên của công ty BrightPlanet đã đưa ra một hình ảnh so sánh. Các dữ liệu có thể truy cập được của internet hiện nay thông qua cách tìm kiếm trên các máy tìm kiếm (Google, Bing…) giống như bề mặt của đại dương ( xem hình minh họa đầu bài ), rất nhiều thứ có giá trị có thể được tìm thấy trên bề mặt của đại dương internet, thế nhưng những mỏ dữ liệu, thông tin có kích thước lớn hơn nhiều, giá trị hơn nhiều lại nằm sâu, thậm chí rất sâu dưới bề mặt yên ả của internet, các dữ liệu này thường bị bỏ lỡ bởi các máy tìm kiếm không thể với tới chúng.
Thông thường các máy tìm kiếm sẽ lục lọi trên internet để thu thập các dữ liệu bằng một dạng phần mềm gọi là “Crawler” ( chương trình thu thập thông tin ). Công nghệ này hoàn toàn không hiệu quả trong việc lục tìm các nguồn dữ liệu ẩn trên internet ( Web Ẩn ), chúng ta có thể phân các dạng Web Ẩn thành các loại sau:
Dữ liệu web động: các trang web động có nội dung được sinh ra dựa vào các yêu cầu truy vấn nội dung đặc biệt hoặc truy cập thông qua các biểu mẫu truy vấn nội dụng
- Các nội dung không được tạo liên kết hyperlink: các trang nội dung web không được liên kết tới từ bất kỳ trang web nào và bản thân nó cũng không có liên kết tham chiếu nào đến trang web khác. Giống như việc bạn đưa lên internet một tờ giấy A4 chỉ chứa nội dung mà không hề có một cái link nào hết cả vậy ( chú giải của người dịch )
- Các trang web phải xác thực truy cập: các trang web yêu cầu muốn truy cập nội dung của nó thì thực hiện việc đăng ký và đăng nhập
- Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
- Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung cua nó, cũng như tạo phiên bản cache nội dụng.
- Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript ( mà hva là một ví dụ trực tiếp ), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
- Nội dung phi HTML hoặc text: tức là các nội dung là text ( văn bản ) nhưng được hiển thị bên trong một tấm hình, video hoặc một số định dạng file mà các máy tìm kiếm không thể đọc được.
- Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS
Thế giới Web Ẩn song song này còn rộng lớn hơn nữa với rất nhiều nguồn thông tin, dữ liệu đa dạng thuộc các hệ thống mạng ( có đấu nối với internet ) của các doanh nghiệp, các chính phủ và cả của các tổ chức tội phạm mạng ( như các nguồn dữ liệu bị đánh cắp và công bố bởi Anonymous, LulzSec… ).
Trong trí tưởng tượng của nhiều người, khái niệm Web Ẩn thường đi kèm với ý tưởng về các nguồn dữ liệu bị đánh cắp, các nguồn dữ liệu bí mật thuộc các hệ thống bí ẩn không thể truy cập được. Dĩ nhiên, điều này thực sự chỉ là một sự hiểu biết sai lầm về Web Ẩn, các nội dung này vẫn có thể truy cập được theo một cách nào đó và trong một giới hạn nào đó, tuy nhiên ta sẽ chắc chắn rất khó để tìm thấy chúng bằng cách lục lọi trên một máy tìm kiếm phổ thông nào đó. Web Ẩn chính là giới hạn kỹ thuật mà các máy tìm kiếm hiện nay đang cố vượt qua.
Theo TheHackerNews
Một số thông tin về Deep Web :
Lượng thông tin được chứa trên Deep Web gấp 400 đến 550 lần so với lượng thông tin phổ biến trên World Wide Web.
Deep Web chưa 7500 terabytes lượng thông tin so với 19 terabytes lượng thông tin tại các trang web bình thường.
Deep Web chứa gần 550 tỉ hồ sơ cá nhân so với 1 tỉ trên lượng thông tin tại trang web thông thường.
Hiện đang có hơn 200 000 Deep Web đang tồn tại.
Sixty of the largest deep-Web sites collectively contain about 750 terabytes of information — sufficient by themselves to exceed the size of the surface Web forty times ( ko rõ nghĩa lắm pác nào dịch đi )
Deep Web là trang cập nhật tin tức sớm và lớn nhất trên internet.
Deep Web có lượng thông tin hẹp hơn , sâu hơn các trang web thông thường.
Tổng chất lượng nội dung của Deep Web lớn hơn 1000 - 2000 lần so với web thông thường .
Nội dung của Deep Web có liên quan tới mọi nhu cầu .
Hơn một nửa nội dung Deep Web nằm trong cơ sở dữ liệu chủ đề cụ thể.
95% thông tin trên Deep Web là công khai , hoàn toàn không bảo mật , không cần phí và đăng kí
-------------------------
Nếu bạn đã " thích " Deep web và muốn lăn lộn qua hàng đống lớp kiểm soát của Chính phủ, thì hãy chuẩn bị sẵn " Tor ". Nhưng nhớ rằng, chỉ một mình Tor thì không đủ đảm bảo an toàn cho tính mật danh của các bạn.
a) Tor chỉ bảo vệ những dữ liệu duyện Web mà đã được điều tuyến để đường truyền của nó phải được gửi qua Tor. Nó không phải mà tự nhiên bảo vệ hết cả đường truyền Internet của bạn và khiến bạn ẩn danh khi duyện Deep web. Tốt hơn bạn nên có Firefox và plugin của nó là Torbutton
b) Torbutton sẽ chặn và vô hiệu hóa các plugin thông thường khác như Java, Flash, ActiveX, Realtime, Quicktime....bla bla bla. Lý do là các plugin trên có thể bị hack ngược và từ đó sử dụng để truy ra IP của máy bạn
c) Cẩn thận các cookies : Nếu log vào một website nào đó, mà trang đó yêu cầu bạn một cookies. Vì nó là một bộ nhắc mà website đó lưu trên máy để định danh bạn trên lần truy cập tiếp theo. Nên có khả năng là nếu trong máy có cookies, IP sẽ bị lộ khi dùng Tor.
d) Tor dùng để ẩn danh bạn, che giấu địa chỉ IP bằng việc mã hóa lệnh tìm kiến và đường truyền, nhưng bên cạnh đó, nếu mà Tor bị config sai, nó sẽ gửi đến những web ẩn độc hại hay các spyware nằm dưới các tên miền mà bạn tưởng an toàn ( mà xuống tới đây thì ránh chịu vậy ).
Nói tóm lại, tìm hiểu kỹ Tor rồi config lại nó, rồi hãy tính đến chuyện mò Web.
0 comments:
Post a Comment