Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- OpenAI
- javascript
- tts
- 생성형 AI
- 서보모터
- ChatGPT
- 뉴럴링크
- 일론 머스크
- TRANSFORMER
- LORA
- PYTHON
- AI
- 트랜스포머
- ControlNet
- 시간적 일관성
- 오픈AI
- 오블완
- 메타
- ubuntu
- 확산 모델
- 이미지 편집
- 인공지능
- 딥마인드
- 멀티모달
- AI 기술
- 우분투
- 가상환경
- 티스토리챌린지
- 아두이노
- LLM
Archives
- Today
- Total
목록크롤링 (1)
AI 탐구노트
Firecrawl : 웹사이트 데이터 크롤링 API 서비스
URL 내용을 크롤링해서 LLM을 위한 마크다운 또는 구조화된 데이터로 변환하는 API 서비스 Firecrawl은 웹 사이트 URL 상의 내용을 크롤링해서 정돈된 마크다운 형태나 LLM에 적합한 구조화된 데이터로 변환해 주는 서비스입니다. 인터넷 상에는 엄청나게 많은 데이터들이 있습니다. AI 모델 초기에는 잘 만들어진 데이터셋이 없었기 때문에, 클롤링을 통한 데이터 수집이 기본이었고, 최근 나오는 많은 수의 LLM 들도 이런 인터넷 스케일 데이터를 크롤러를 통해 수집해서 모델 학습에 활용하는 것으로 알려져 있습니다. 그런데 문제는 웹데이터 자체는 깔끔하고 정돈되어 있지 않은 경우가 많다는 것입니다. HTML, Javascript 등 데이터가 아닌 화면 렌더링을 위한 문서 구조를 가지고 있고, 수많은..
AI 기술
2024. 10. 1. 10:58