본문 바로가기
Data Science

<Data Science> Pandas 데이터프레임과 TensorFlow 데이터셋의 차이

by 바건정 2024. 11. 12.

두 데이터셋은 데이터 구조와 사용 목적에서 차이를 가집니다.

 

1. 데이터 구조

  • pandas 데이터프레임
    • 2차원 테이블 형태의 데이터 구조로, 행과 열로 구성
    • 인덱스와 컬럼 이름을 사용해 특정 데이터에 쉽게 접근 가능
    • 각 열은 서로 다른 데이터 타입을 가질 수 있어 다양한 형태의 데이터(숫자형, 문자열, 범주형 데이터 등)를 손쉽게 다룰 수 있음
  • TensorFlow 데이터셋
    • tf.data.DatasetTensorFlow가 제공하는 데이터 구조로, 딥러닝 모델 학습에 최적화된 형태
    • 데이터가 미니 배치 형태로 불러와질 수 있으며 연속적이고 병렬적으로 데이터를 불러올 수 있도록 설계되어 효율적인 학습 가능
    • 일반적으로 고정된 데이터 타입과 고정된 데이터 형태를 갖도록 설계되어 있음

2. 데이터 처리 목적과 용도

  • pandas 데이터프레임
    • 주로 데이터 분석, 데이터 전처리 및 변환 작업에 사용
    • 대규모 데이터셋의 경우 메모리 사용량이 많고 속도가 느릴 수 있지만 유연하고 간편하게 연산 및 활용 가능
  • TensorFlow 데이터셋
    • 모델 학습 및 예측에 최적화된 데이터 파이프라인 구축에 사용
    • 병렬 처리가 가능해 대규모 데이터셋을 빠르게 처리 가능

TF-DF를 사용하는 과정에서 pandas 데이터프레임을 TensorFlow 데이터셋으로 변환하는 과정이 왜 필요한지 궁금하여 찾아보게 되었습니다.

잘못된 내용이 있다면 언제든지 알려주세요!

 

읽어주셔서 감사합니다.