일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- PYTHON
- 휴머노이드 로봇
- LLM
- 다국어 지원
- ChatGPT
- 트랜스포머
- tts
- 감정 표현
- AI
- 일론 머스크
- 생성형AI
- 자연어 처리
- AI 기술
- 실시간 렌더링
- 강화학습
- 오픈소스
- 인공지능
- OpenAI
- 강화 학습
- 우분투
- 멀티모달
- 오블완
- XAI
- 확산 모델
- 오픈AI
- 티스토리챌린지
- 딥러닝
- Stable Diffusion
- 메타
- 이미지 생성
- Today
- Total
목록자연어 처리 (7)
AI 탐구노트

글로벌 사회로의 진입이 가속화되면서, 다양한 언어 간의 원활한 소통은 개인과 기업 모두에게 필수적인 요소가 되었습니다. 이러한 흐름 속에서 다국어 번역 기술은 단순한 언어 변환을 넘어, 문화적 뉘앙스와 문맥을 고려한 정교한 커뮤니케이션 도구로 발전하고 있습니다. 초기의 다국어 번역 기술은 주로 군사적 목적에서 출발하여, 제한된 언어 쌍을 대상으로 한 기계 번역 시스템이 중심이었습니다. 그러나 오늘날에는 인공지능(AI), 자연어 처리(NLP), 음성 인식, 클라우드 컴퓨팅 등의 기술이 접목되면서, 실시간 음성 통역, 문서 자동 번역, 다국어 챗봇 등 다양한 형태로 확장되고 있습니다. 특히, 스마트폰과 클라우드 기반의 서비스는 사용자에게 언제 어디서나 다국어 번역 기능을 제공함으로써, 언어 장벽을 허무는 데..

오픈AI에서 최근 개발자를 지원하기 위한 AI 기술을 새로 공개했습니다. 프로그래밍 자체를 처음 접하는 사람이나 바쁜 개발자 모두에게 큰 도움이 되는 AI 도구로 말입니다. 이번 글에서는 Codex가 뭔지, 어떻게 쓰는지 등에 대해 간략하게 내용을 정리해 보겠습니다. 🧠 Codex란 무엇인가요?Codex는 OpenAI에서 만든 인공지능(AI) 코딩에 특화된 AI 입니다. 다양한 다양한 프로그래밍 언어(파이썬, 자바스크립트, 타입스크립트 등)를 지원하고, 복잡한 작업도 처리할 수 있죠. 🔧 Codex는 어떤 곳에 사용될 수 있나요?코드를 자동으로 작성예: '간단한 계산기 앱을 만들어줘'라고 말하면, Codex가 HTML, CSS, 자바스크립트 등 12개 이상의 프로그래밍 언어를 이용해 코드를 짜주고 ..

AI 관련 소식들을 알아보다가 재미난 기사를 하나 봤습니다. AI타임즈의 기사였는데 사람들이 ChatGPT와 대화할 때의 말투와 관련된 것이었죠. "사람들이 챗GPT에 공손하게 군 대가로 수천만달러 날아가" - AI타임스샘 알트먼 오픈AI CEO가 인공지능(AI) 챗봇에 “제발”이나 “고마워요”라고 정중하게 말하는 것이 의외로 막대한 비용을 초래한다는 데 동의했다.알트먼 CEO는 20일(현지시간) X(트위터)에서 챗GPTwww.aitimes.com AI와의 대화 말투 때문에 비용이 발생한다고?기사는 '제발', '고마워요' 등 정중하게 말하는 것이 의외로 막대한 비용을 발생시키고 있다는 것을 전했는데, 이런 대화로 인해 AI가 불필요한 메시지를 생성하기 때문이라고 합니다. 하긴 답변을 한번 생성할 때..

최근 AI 기술이 빠르게 발전하면서 우리의 일상에 깊숙이 스며들고 있습니다. 하지만 그만큼 AI 서비스의 신뢰성에 대한 우려도 커지고 있습니다. 특히, 잘못된 정보로 인해 AI가 부정확한 답변을 제공하는 사례가 늘어나고 있는데요. 이러한 문제를 어떻게 해결할 수 있을지 함께 생각해보겠습니다. '가비지 인, 가비지 아웃'의 교훈컴퓨터 과학 분야에서 자주 언급되는 격언 중 하나가 바로 '가비지 인, 가비지 아웃(Garbage In, Garbage Out)'입니다. 이는 입력 데이터의 품질이 낮으면 출력 결과도 신뢰할 수 없다는 의미인데요. AI도 마찬가지입니다. AI는 방대한 데이터를 학습하여 세상을 이해하고 판단합니다. 따라서 학습 단계에서부터 올바른 데이터를 제공하는 것이 무엇보다 중요합니다. AI 챗봇..

디지털 문서의 핵심 정보는 PDF, Word, DjVu 등 다양한 포맷에 담겨 있습니다. 하지만 이러한 문서들은 본래의 레이아웃을 유지하는 데 초점이 맞춰져 있어 텍스트를 쉽게 추출하고 가공하는 것이 어렵습니다. 특히, PDF 파일은 단순한 텍스트 파일이 아니라 단어와 글자를 개별적인 그래픽 요소로 저장하며, 문서 내 논리적 순서를 따르지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해 기존에는 광학 문자 인식(OCR, Optical Character Recognition) 기술이 사용되었습니다. 1950년대부터 연구되어 온 OCR 기술은 2006년 구글의 Tesseract 같은 오픈소스 툴을 통해 많은 발전을 이루었지만, 여전히 문서 내의 논리적 순서를 완전히 보존하기 어려운 문제가 남아 있었습니다..

Alibaba 그룹의 Tongyi Lab에서 Wan 2.1이라는 텍스트와 이미지 등의 입력을 기반으로 비디오를 생성할 수 있는 고급 영상 생성 모델을 오픈소스로 공개했습니다. 이번 글에서는 이 모델에 대해 간략하게 알아보도록 하겠습니다. Wan 2.1Wan2.1은 다양한 영상 생성 작업을 지원하는 오픈소스 비디오 생성 모델들의 모음입니다.Text-to-Video, Image-to-Video, Video 편집, Text-to-Image, Video-to-Audio 등 여러 작업을 하나의 모델 패밀리로 수행할 수 있습니다.중국어, 영어 텍스트를 영상 속에 직접 생성해낼 수 있어 실용성이 높습니다.Wan-VAE라는 뛰어난 영상 전용 VAE(Variational Autoencoder)를 사용하여, 1080P 해..

인공지능(AI) 언어 모델이 발전하면서, 자연어 처리(NLP)에서의 활용 범위가 확장되고 있습니다. 일반적으로 생성형 언어 모델(Generative Language Model, GLM)은 Autoregressive 방식으로 토큰을 하나씩 생성하며 출력을 구성합니다. 하지만 일부 과제에서는 모델이 여러 개의 후보 중에서 적절한 정답을 선택하는 능력이 요구됩니다. 예를 들어, 선택형 질문 답변(MCQA), 극한 라벨 분류(extreme label classification), 의료 진단 등의 작업에서는 사전 정의된 후보군에서 최적의 답변을 골라야 합니다. 전통적인 방식은 전체 문장을 생성한 후, 후보군과 비교하여 가장 적합한 정답을 선택하는 것입니다. 하지만 이 방식은 시간이 오래 걸리고, 모델이 점진적으로..