ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

GitHub 公佈 Multilingual Repositories Dataset,提升 AI 開發者在多語言環境中的應用

工具 2 個來源 · 1 天前
為何重要

提供結構化的非英文開發內容資料,使 AI 編碼與檔案生成工具能更精準地支援多語言開發者社群,促程序式碼生態的包容性。

GitHub 發布名為「GitHub Multilingual Repositories Dataset」的新開放資料集,涵蓋超過 4,000 萬個儲存庫的 README、Issue 與 Pull Request 的語言識別結果。該資料集整合了 fastText、gcld3 與 lingua-py 多種演算法的判讀,並提供更高的信心分數作為篩選依據,遵循 CC0-1.0 授權,旨在解決歐洲語言及低資源語言在 AI 訓練資料中代表性不足的問題。

GitHubMultilingual Repositories DatasetOpen DataMachine LearningEuropean Languages

來源 · 2 篇報導

首發 The GitHub Blog github.blog 03:17 首發 The GitHub Blog github.blog 03:17