繼學術搜尋之後,谷歌重磅推出資料集搜尋!
谷歌Scholar自推出以來已經成為很多科研工作者搜尋學術資料的必備神器,在前段時間的谷歌重返中國風波中,也有相當多開發者和科研工作者表示希望谷歌Scholar也能快點進入中國市場。今天,谷歌繼Google Scholar(Google學術搜尋)之後,又為資料工作者和科研人員推出了一款重磅產品——Google Dataset Search(Google 資料集搜尋)。雖然我們依然無法知道谷歌搜尋到底什麼時候才能重新回到中國,但好產品即使需要“梯子”也得先用起來!
在當今世界,資料成了諸多學科領域的科學家和資料記者的命脈。網路上有成千上萬的資料儲存庫,提供了數百萬個數據集,世界各地的地方和國家政府也會公佈他們的資料。為了能夠輕鬆訪問這些資料,谷歌啟動了Dataset Search專案,讓科學家、資料記者、資料愛好者或其他人能夠快速找到他們想要的資料,或者僅僅為了滿足他們的求知慾。
Google Dataset Search傳送門:https://toolbox.google.com/datasetsearch
什麼是 Dataset Search?
資料集搜尋使使用者能夠查詢網上數以千計的儲存區中儲存的資料集,從而讓這些資料集可供大眾使用,讓人人受益。
資料集和相關資料往往分佈在網上的多個數據儲存區中。在大多數情況下,搜尋引擎既無法提供這些資料庫相關資訊的連結,也不會將這些資訊編入索引,這會導致資料尋找變得無比繁瑣,或者在某些情況下無法實現。
Google為使用者提供了能夠同時搜尋多個儲存區的單個介面,希望藉此改變使用者釋出和運用資料的方式。
Ggogle表示,這個專案能夠帶來下列好處:
- 形成資料共享生態系統,鼓勵資料釋出者依照最佳做法來儲存和釋出資料;
- 為科學家提供相應平臺,方便大眾引用他們建立的資料集,展現他們的研究成果所帶來的影響力。
Dataset Search與Google Scholar的工作方式類似,可以讓使用者找到託管在任何位置的資料集,無論是釋出者的網站、數字圖書館還是個人主頁。谷歌為資料提供者制定了一個指南,通過某種方式來描述他們的資料,這樣,谷歌(和其他搜尋引擎)可以更好地理解他們的資料。指南要求描述有關資料集的一些重要資訊:資料集的建立者、釋出時間、資料的收集方式、資料的使用條款等等。然後,谷歌會收集並連結這些資訊,分析可能存在的相同資料集的不同版本,並嘗試找與描述或討論資料集相關的資料。谷歌所採用的方法是基於一種資料集描述開放標準(schema.org),資料釋出者可以通過這種方式描述他們的資料集。資料集提供者可以採用這一通用標準,以便讓更多的資料整合為這個強大生態系統的一部分。
Google資料指南基於資料集的開放標準(schema.org),任何釋出資料的人都可以通過這種標準方式來描述他們的資料集。以下是一個數據集定義的示例,完整資料集定義參見:http://schema.org/Dataset 。
在這個Dataset Search版本中,使用者可以找到環境科學和社會科學領域的大多數資料集引用,以及來自其他學科領域的資料,包括政府提供的資料和新聞機構(如ProPublica)提供的資料。隨著越來越多的資料儲存庫使用schema.org標準來描述他們的資料集,使用者在Dataset Search中找到的資料集的種類和覆蓋範圍將會越來越多。
Dataset Search支援多種語言,後續將推出更多的語言支援。只需輸入要查詢的內容,就可以訪問到資料提供者釋出的資料集。
例如,如果想要分析每日的天氣記錄,可以在Dataset Search中嘗試搜尋:
可以看到來自NASA和NOAA的資料,以及來自哈佛大學Dataverse和大學間政治與社會研究聯盟(ICPSR)等學術資料庫的資料。NOAA首席資料官Ed Kearns是這個專案的堅定支持者,他讓NOAA的很多資料集都可以在Dataset Search中搜索到。他說,“一直以來,這種型別的搜尋是開放資料和科學社群眾多研究人員的夢想。NOAA的一個使命是與他人共享我們的資料,對於NOAA來說,這個工具是讓更廣泛的使用者社群能夠更容易訪問到我們資料集的關鍵”。
Dataset Search是谷歌為了更好地將資料集納入到谷歌產品而採取的一系列舉措之一。最近,谷歌的搜尋引擎可以更容易的搜尋到表格資料,這也是使用了相同的元資料和連結的表格資料,直接在搜尋中提供這些結果。雖然這個工具更多關注的是新聞機構和資料記者,但無論是查詢科學資料、政府資料還是新聞機構提供的資料,Dataset Search都能助你一臂之力。
這個搜尋工具依賴資料釋出者提供的元資料。谷歌希望更多人能夠使用開放標準來描述他們的資料,讓其他使用者能夠找到他們需要的資料。如果資料釋出者在搜尋結果中看不到已釋出的資料,可以訪問谷歌的開發者網站,上面提供了提問和提供反饋的連結。
Google Dataset Search使用嚐鮮
目前Google Dataset Search已經支援多種語言,中英文均不在話下。
最近Google聯手哈佛釋出了一款AI工具用於預測地震餘震位置,那麼我們就來分析一下地震資料,可以在Google Dataset Search的搜尋欄中輸入earthquake,結果如下圖所示:
左側會呈現出所有與關鍵詞有關的資料來源,右側則會顯示每一個數據來源的詳細資訊,包括資料集名稱、資料集更新日期、提供者、支援的下載格式和說明。
下面我們再試試輸入中文的“地震”,得到的搜尋結果如下:
可能因為日本也屬於地震多發地區,且“地震”二字在日語漢字和中文中是一樣的,因此搜尋結果中排在前面的是來自日本的地震資料集,不過左側往下拉還是能看到不少中文資料集。比如下面這個中國地震災後恢復重建財政支出的資料集。
目前Google Dataset Search仍然處於測試階段,雖然已有中文介面且支援中文搜尋,但中國大陸的使用者想要使用依然需要“梯子”科學上網,直接開啟是無法訪問頁面的噢!如果使用中遇到任何問題,可以通過頁面右上角按鈕向開發人員反饋,或者檢視以下連結中的資料集搜尋常見問題尋找解答:https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA 。
檢視英文原文:https://www.blog.google/products/search/making-it-easier-discover-datasets/