AI 탐구노트

FineWeb-2 : 허깅페이스에서 공개한 대규모 웹 텍스트 데이터셋 본문

AI 기술

FineWeb-2 : 허깅페이스에서 공개한 대규모 웹 텍스트 데이터셋

42morrow 2025. 7. 2. 10:57

 

인터넷에는 수많은 언어로 된 문서들이 존재하지만, 우리가 흔히 접하는 대규모 언어 모델들은 주로 영어 같은 고자원 언어에 편중되어 있습니다. 이런 모델들이 뛰어난 성능을 내는 이유는 단순히 구조가 좋기 때문만이 아니라, 훈련에 사용되는 데이터가 방대하고 질이 높기 때문입니다. 그런데 이 데이터 대부분은 영어로 되어 있고, 덕분에 영어 기반 모델들은 똑똑하지만 다른 언어에 대한 이해도는 상대적으로 떨어집니다.

 

다양한 언어를 이해하는 다국어 모델을 만들기 위해서는 수천 개 언어에 대해 데이터를 수집하고 가공하는 작업이 필수입니다. 하지만 언어마다 구조도 다르고, 문장 구분 방식도 제각각이라 이 과정을 자동화하기는 무척 어렵습니다. 이에 대한 해답으로 등장한 것이 바로 Hugging Face에서 개발한 FineWeb2입니다. 이는 언어마다 다른 특성을 자동으로 분석해 최적화된 데이터 처리 방식으로 정제하고, 이를 통해 1,000개 이상의 언어를 지원하는 다국어 데이터셋을 구축하는 방법을 제시합니다.


 

대규모 다국어 웹 텍스트 데이터셋

 

1️⃣ 대규모 다국어 웹 텍스트 데이터셋이란?

 

인터넷에서 수집한 다양한 언어의 문서들로 구성된 방대한 텍스트 모음을 말합니다. 이 데이터셋은 주로 인공지능 언어 모델을 훈련하기 위한 자료로 활용됩니다. 용어 내용 그대로 다음과 같은 속성을 따릅니다.

 

  • 대규모 : 수백억 개 이상의 단어(또는 문서)로 구성된 방대한 양의 데이터
  • 다국어 : 영어, 중국어, 아랍어, 힌디어, 스와힐리어 등 수십~수천 개의 언어로 되어 있음
  • 웹 텍스트 : 뉴스, 블로그, 위키피디아, 포럼, 전자책, 커뮤니티 등 인터넷에서 수집한 공개 텍스트
  • 데이터셋 : AI 모델이 학습할 수 있도록 정리된 데이터 모음

 

 

2️⃣ 주요 데이터셋 (웹 기반 대규모 데이터셋)

 

이런 데이터셋에는 어떤 것이 있는지 ChatGPT에게 조사 시켜봤습니다. 이들 가운데는 실제 이번에 공개된 FineWeb-2 데이터셋보다 더 큰 용량을 가지는 것도 있습니다. 

이름 주요 특징
Common Crawl - 웹 크롤링 원본 데이터- 가장 오래되고 대표적인 웹 코퍼스- 전처리 거의 없음, 노이즈 많음
C4 (Colossal Clean Crawled Corpus) - Common Crawl에서 영어만 추출하고 강력하게 정제- Google T5, PaLM 등에서 사용- 노이즈·중복 제거, 욕설 필터
mT5 (Multilingual C4) - C4의 다국어 버전- 100여 개 언어 지원- 언어 식별, 정제 및 중복 제거 포함
CC-100 - Facebook AI가 구축- Common Crawl 기반 100여 개 언어로 나눠진 원시 웹 데이터- 중복·필터링 최소화
CulturaX - 34개 언어 6TB 규모- 언어·문화 다양성 강조, 텍스트 품질 유지- 특정 문화권 저자원 언어 반영
The Pile - 다양한 도메인(웹, 위키, arXiv, 책 등) 혼합- 825GB(압축전 기준), GPT-NeoX 등에서 사용
RedPajama - LLM 사전학습을 위한 1.2TB 규모의 다양한 도메인 데이터- Common Crawl, Github, 위키피디아, StackExchange 등
OSCAR - Common Crawl 기반, 언어별로 엄격히 분리된 166개 언어- 각 언어별 필터와 전처리
HPLT - 275개 언어, 1.5TB 규모- Hugging Face와 Google이 협력해 만든 다언어 LLM용 데이터

 

 

3️⃣ 주요 적용 분야

 

대규모 다국어 웹 텍스트 데이터셋은 주로 인공지능, 특히 대형 언어 모델(LLM, Large Language Model)과 다양한 자연어처리(NLP) 분야에서 핵심 자원으로 쓰이는데 세부적으로는 다음과 같은 분야들이 있습니다.

  • 대형 언어 모델(LLM) 사전학습(Pretraining)
    • GPT, LLaMA, T5, PaLM, Mistral 등 최신 AI 모델은 이런 대규모 코퍼스를 수십억~수천억 파라미터로 미리 학습합니다데이터가 많고, 언어·도메인 다양성이 풍부할수록 모델의 이해력 생성능력이 높아집니다.
  • 다국어 지원 AI(멀티언어/크로스언어 모델)
    • 한 모델이 수백~수천 개 언어로 자연스럽게 문장을 이해/생성할 수 있게 만듭니다.
    • 저자원 언어(데이터가 적은 언어)도 메이저 언어와 동등하게 AI가 처리할 수 있도록 지원합니다.
  • 기계번역(Machine Translation)
    • 여러 언어 쌍의 번역 품질을 높이기 위해 사용합니다.
    • 웹 데이터의 풍부한 표현·구문·도메인 다양성이 번역 품질 향상에 기여합니다.
  • 다국어 정보 검색·요약
    • 다양한 언어의 웹페이지, 문서, 뉴스 등에서 정보 추출·검색·요약에 사용됩니다.
  • 대화형 AI/챗봇의 글로벌화
    • 전 세계 다양한 언어로 자연스럽게 소통하는 AI 챗봇·비서 서비스 개발이 가능해집니다.
  • 저자원 언어 AI 개발
    • 소수민족어, 방언 등 데이터가 부족했던 언어의 AI 서비스(번역, 검색, 챗봇 등)도 지원할 수 있습니다.
    • 언어의 디지털 보존과 평등한 정보 접근권 확대에도 도움이 됩니다.
  • 다양한 NLP 태스크에 데이터 소스
    • 텍스트 분류, 감정 분석, 요약, 질의응답 등 모든 자연어처리 태스크의 데이터 소스로 사용됩니다.
    • 특정 언어·주제별 커스터마이즈 학습에도 유용합니다.

 

4️⃣ 한계점

 

이전까지는 영어 등 일부 언어에 대해 수작업으로 설계된 데이터 처리 파이프라인을 사용하는 방식이 일반적이었습니다. 이런 방식은 특정 언어에 대해서는 효과적이지만, 언어마다 구조와 특성이 다른 수천 개 언어를 일일이 처리하기엔 한계가 있습니다. 예를 들어 띄어쓰기가 없는 중국어나 태국어, 여러 문자를 함께 사용하는 언어의 경우 기존의 필터링 기준이나 토크나이저로는 적절히 다룰 수 없습니다. 또 기존 데이터셋은 고자원 언어 중심이라 저자원 언어는 충분한 데이터를 확보하기도 어렵습니다.


 

FineWeb-2 

1️⃣ FineWeb-2란?

 

FineWeb‑2는 Hugging Face에서 제공하는 대규모 다국어 웹 텍스트 데이터셋이면서 동시에 이 처리를 위한 파이프라인입니다.

 

2️⃣ 접근 방식

 

FineWeb-2는 기존 영어 중심 데이터셋 FineWeb의 파이프라인을 기반으로 하되, 이를 모든 언어에 맞게 자동으로 적응할 수 있도록 설계되었습니다. 핵심은 언어별 통계 자료를 바탕으로 전처리 기준을 자동 조정하는 것이며, 이로써 수천 개 언어에 대해 일관된 품질의 데이터셋을 생성할 수 있습니다.

 

이 파이프라인은 다음과 같은 주요 단계를 포함하며 모든 단계는 각 언어의 특성을 반영하여 자동으로 조정됩니다.

  • 언어 식별(Language Identification, LID)
    단순히 문자열을 분석해 언어를 판단하는 게 아니라, 최신 LID 모델인 GlotLID를 사용해 1,880개 언어-문자 조합을 구분할 수 있습니다. 이 모델은 특정 언어가 어떤 문자체계를 사용하는지도 고려해 더 정확한 분류가 가능합니다.
  • 중복 제거(Deduplication)
    비슷한 내용의 문서를 반복적으로 학습하면 모델이 특정 정보에 과적합될 수 있습니다. 이를 방지하기 위해 MinHash 기법을 사용하여 유사 문서를 찾아 제거하고, 각 문서의 중복 정도를 메타데이터로 기록합니다.
  • 필터링(Filtering)
    품질이 낮은 문서를 제거하기 위해 다양한 언어에 맞춘 필터링 규칙을 자동 설정합니다. 예를 들어 불필요하게 반복되는 단어 수, 문장의 평균 길이, 문장 부호의 사용 비율 등을 각 언어의 위키피디아나 신뢰할 수 있는 코퍼스를 통해 통계적으로 판단합니다.
  • 품질 기반 업샘플링(Rehydration)
    중복 제거로 사라진 데이터 중 유용한 문서들을 ‘선택적으로’ 다시 복원하는 과정입니다. 문서의 중복 빈도와 품질 평가 점수를 조합해 적절한 복원 비율을 결정합니다. 즉, 너무 자주 등장하는 문서는 덜 복원하고, 적당히 유용한 문서는 더 자주 학습에 사용하도록 조절합니다.
  • 평가 기준(Evaluation Task Selection)
    훈련된 모델의 성능을 비교하기 위해 ‘초기 신호(early signal)’가 잘 나타나는 평가 과제를 84개 선정하였습니다. 이 과제들은 단기간 학습만으로도 의미 있는 성능 차이를 보여주기 때문에 다양한 언어의 모델 품질을 효율적으로 비교할 수 있습니다.

 

 

3️⃣ FineWeb-2의 특징

  • 방대한 규모 : 약 8 TB 압축 텍스트(약 3조 단어)에 달하며, 2013년부터 2024년 4월까지 수집된 96개의 CommonCrawl 스냅샷을 기반
  • 언어 다양성 : 1,000개 이상의 언어와 1,893개의 언어-스크립트 조합을 지원, 특히 저자원 언어까지 폭넓게 포함

그림 : 전체 1000개 이상의 언어 지원 가운데 한국어 부분 예시

 

  • 고품질 전처리
    • 언어 식별 : GlotLID를 사용해 2,000가지 이상 언어와 스크립트를 구분하고, 각 언어마다 신뢰도 기준을 개별 설정
    • 언어별 중복 제거 : 문서 클러스터링 후 중복 문서를 제거하고, minhash_cluster_size 메타데이터로 클러스터 크기를 저장해 재샘플링 가능
    • 언어별 필터링 : 짧은 줄, 반복, 특이한 문자 비율 등의 기준을 언어 특성에 맞춰 조정 .
    • 개인정보 익명화 : 이메일과 공개 IP는 익명화 처리(예: email@example.com, 무작위 비작동 IP 등)
  • 퍼포먼스 우수성
    • CC‑100, mC4, CulturaX, HPLT 등의 기존 다언어 데이터셋에 비해 성능이 뛰어나며, 일부 언어에서는 단일 언어 데이터셋보다도 우수
    • 9개 언어에 대한 평가(FineTasks)에서 모델 성능 향상

그림 : 데이터셋간의 성능 비교

  • 오픈 라이선스 & 투명성
    • 데이터는 ODC‑By 1.0(오픈 데이터 커먼즈-저작자 표시) 라이선스로 공개
    • 파이프라인, 코드(fineweb-2-pipeline.py 포함), 언어별 설정 파일(configs/*.yml) 전부 공개되어 재현성과 투명성을 보장

FineWeb-2의 요약

항목 내용
규모 8 TB 압축 (약 3조 단어)
언어 수 1,000+ 언어, 1,893 언어-스크립트 조합
소스 CommonCrawl (2013–2024)
전처리 언어 식별, 중복 제거, 언어별 필터링, PII 익명화
라이선스 ODC‑By 1.0
공개 자원 Hugging Face 데이터셋, GitHub 코드, config 등
성능 다언어 벤치마크 및 FineTasks 평가에서 경쟁력
 

 


참고자료

  • 논문) FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language (링크)
  • 코드) FineWeb-2 Pipeline github 저장소 (링크)
  • Dataset) 허깅페이스 상의 데이터셋 (링크)
  • 블로그) How Fine is FineWeb2? (링크