Professional Field

ETL : Airflow / DW(Snowflake) | AI : Python | BI : Tableau / Power BI

랭체인 2

[LangChain] PDF Loader 종류

1. fitz - 매우 빠르다.- 복잡한 글을 잘 읽어오지 못한다.- 메타데이터중 페이지번호는 제공하지만 그 외 메타 데이터 제공은 하지 않는다. # Fitz (PyMuPDF)!pip install pymupdfimport fitzdoc = fitz.open('example.pdf')page = doc.load_page(0)text = page.get_text() 2. PyPDFLoader - 메타데이터의 source 파일명과 page 단위로 읽기가 가능하다.- 한글이 제일 인코딩이 잘 된다.- 속도가 평범하다.# PyDPFLoader (LangChain)!pip install langchain pypdffrom langchain.document_loaders import PyPDFLoader# PyPD..

Scientist/ML.DL 2024.08.09

[ML/DL] LangChain이란?

LangChain 랭체인이란 대규모 언어 모델(LLM)을 기반으로 애플리케이션을 구축하기 위한 오픈 소스 프레임워크이다.이는 다양한 언어 모델, 데이터 소스, 그리고 워크플로우를 결합하여 사용자 정의 가능한 NLP 파이프라인을 쉽게 만들 수 있게 하고 주로 챗봇, 텍스트 분석, 자동화된 데이터 처리 등의 분야에서 사용한다. 랭체인 패키지는 파이썬으로 사용이 가능하다.주요 특징모듈화된 구성 요소: 여러 NLP 작업을 모듈화하여 필요에 따라 조합하고 재사용할 수 있습니다.확장성: 새로운 언어 모델이나 데이터 소스를 쉽게 통합할 수 있는 구조를 가지고 있어 확장성이 높습니다.사용자 정의 가능: 사용자가 필요에 따라 파이프라인을 자유롭게 커스터마이즈할 수 있습니다.다양한 언어 모델 지원: BERT, GPT, T..

Scientist/ML.DL 2024.07.18