The Internet Archive

The Internet Archive là một kho lưu trữ khổng lồ phi lợi nhuận được tạo ra để lưu trữ dữ liệu trên internet: văn bản, hình ảnh, âm thanh, phần mềm. Họ tự đặt ra cho mình sứ mệnh càn quét intenet định kỳ và lưu lại tất cả những dữ liệu thu được. Có lẽ bạn sẽ thấy họ kỳ quặc vì internet không chỉ có vàng, mà còn đầy rác. Nhưng nếu bạn ở tình huống của tôi hôm nay, bạn sẽ thấy đó là một ý tưởng tuyệt vời và những con người đã tạo ra nó mới đáng yêu làm sao.

Cuối năm 2016, lão thien thử nghiệm chuyển blog sang opensource blog dùng github, sau khi mirgate thử vài bài từ botbie.io sang blog.botbie.io thì lão ngưng, và đề nghị các thành viên khác move và viết bài tiếp.

Sau hai năm, web botbie.io chết do không ai quan tâm bảo trì, thank github mà blog.botbie.io vẫn còn đó, nhưng cảm giác công sức dịch và viết bài trên blog cũ đã mất thật tệ. Với một người vừa dở Anh vừa dở Văn như tôi thì mỗi bài dịch là nhiều giờ ngồi tra từ điển và gõ phím, nên tôi rất rất muốn có lại những bài viêt đó. Sau khi thử tìm kiếm các bản backup trong máy tính, các văn bản đã từng lưu trữ trong google drive, dropbox và evernote, và không tìm thấy gì cả.

Đó là lúc mà vị cứu tinh Internet Archive bỗng nhiên xuất hiện trong đầu tôi. Thư viện số này thành lập cách đây 22 năm, khi một gã cuồng internet là Brewster Kahle bắt đầu lo lắng về việc các trang web không ai chăm sóc có thể chết đi, và lượng thông tin (rác) mà người dùng đã cất công tạo ra sẽ biến mất mãi mãi. Gã quyết định lập một công ty phi lợi nhuận để cứu vớt những dữ liệu này.

Ban đầu trung tâm dữ liệu của tổ chức được đặt ở ba thành phố San Francisco, Redwood City, và Richmond của bang California. Sau đó để đảm bảo an toàn cho hệ thống khi có thiên tai xảy ra, Kahle bắt đầu mở rộng hệ thống ra nhiều vị trí địa lý khác nhau, hệ thống kho hiện tại có ở cả Ai Cập và Anh Quốc. hệ thống này chỉ scan internet và lưu trữ cho đến 2001, Kahle mở dịch vụ Wayback Machine cho phép người dùng truy cập vào cơ sở dữ liệu khổng lồ của công ty.

Cho tới nay, Internet Archive đã lưu trữ 279 tỉ trang web, 11 triệu sách và văn bản, 4 triệu bản ghi âm, 3 triệu video, 1 triệu hình ảnh và hơn 100 ngàn phần mềm. Và không chỉ internet, Kahle bắt đầu lưu trữ sách in bằng cách số hoá sách (hiện công ty scan 1000 đầu sách mới mỗi ngày), lưu trữ lại các kênh truyền hình đang phát. Có thể một ngày nào đó khi trái đất gặp phải thảm hoạ hạt nhân hoặc mạt thế, kho này là sẽ là nguồn tư liệu quý giá cho những ai muốn tái tạo văn minh loài người.

Quay trở lại với botbie blog, tôi đã tìm lại được một số bài viết cũ từ bản lưu trên webarchive của botbie.io lẫn blog.botbie.com và sẽ cập nhật lên blog.botbie.io sớm, mọi người nếu muốn ủng hộ thì hãy fork source github và tham gia viết bài cho botbie nhé. Trong mã nguồn đã có hướng dẫn sử dụng đi kèm.