티스토리

나무가
검색하기

블로그 홈

나무가

namuga.tistory.com/m

나무가 님의 블로그입니다.

구독자
0
방명록 방문하기

주요 글 목록

  • Pandas 10분 가이드: 데이터 분석 맛보기 📘 1. Pandas란?Pandas는 Python의 데이터 분석 라이브러리로, 엑셀과 유사한 데이터프레임(DataFrame) 구조를 제공합니다. 대규모 데이터를 효율적으로 관리하고, 정렬, 필터링, 집계 등의 작업을 손쉽게 수행할 수 있습니다.📘 2. Pandas 설치 및 시작하기Pandas 설치하기pip install pandas Pandas 불러오기import pandas as pd📘 3. Pandas의 주요 자료 구조Series: 1차원 데이터 (엑셀의 한 열과 유사)DataFrame: 2차원 데이터 (엑셀의 표와 유사)# Series 생성 예시s = pd.Series([1, 2, 3, 4, 5])print(s)# DataFrame 생성 예시df = pd.DataFrame({ '이름': .. 공감수 2 댓글수 0 2024. 12. 10.
  • [Data mining] Itemset mining - GSP algorithm, Apriori algorithm [ Motivation ] Sequence data를 다룰 일이 있어서, Markov chain를 사용하던 와중에 "sequence pattern matching"에 대해서 찾아보게 되었다. Sequence Pattern Matching는 크게 String mining과 itemset mining로 나뉠 수 있다. 이 중에, itemset mining에 관심이 생겼고, 그에 대표적인 알고리즘인 GSP와 Apriori에 대해서 찾아보았다. [ Itemset Mining ] (Frequent) Itemset mining이란, 주어진 sequence에서 가장 빈번하게 발생되는 item들의 set을 (= itemset) 구하는 것을 의미합니다. -> 우리가 흔히 말하는 pattern matching에서 patt.. 공감수 0 댓글수 0 2021. 8. 30.
  • [ BPT ] Frequentist 관점에서의 Prob. 의 문제점 Frequency 기반으로 하는 Probability를 mathematical basis로 사용할 수 없는 이유 1. Restrictive "Frequency" 는 결국 finite number of outcome을 기반으로 한다. -> sample space가 infinte한 경우에는 사용이 불가능하다 2. Circular Probability 를 정의하기 위해 Probability를 사용한다. Ex. 52장의 트럼프 카드가 있을 때에, 스페이드 카드가 나올 확률 -> 13/52 = 1/4 위의 결과는, 각 카드가 나올 가능성이 equally likely = equally probable을 가정한 결과이다. 즉, 확률 정의를 위해 확률을 사용하기 때문에 순환 논리를 사용하는 오류가 있다. 3. Limi.. 공감수 0 댓글수 0 2021. 8. 21.
  • PCA - Principal Component Analysis Motivation 주어진 데이터의 차원이 너무 많은 경우에, 분석 및 시각화가 힘들어진다. → multivariate 분석에도 차원이 높으면 분석 및 계산 시간이 매우 증가한다. → 인간의 지각으로는 3차원 이상은 시각화를 하기도 힘들고, 인지하기도 힘들다 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아내는 방법 (Reference : https://adnoctum.tistory.com/977) 사용하는 목적 및 예시 => 차원 축소, 변수 추출 Assumptions PCA의 가정 - ver.1 - 데이터를 나타내는 submanifold는 직선의 basis를 가지고 있다. ( linear basis / linear kernel(?)을 가정한다 ) 큰 분산을 갖는 방향이 중.. 공감수 0 댓글수 0 2021. 1. 17.
  • Terraform Up & Running Ch 1 IaC : Infrastructure as Code 5가지 IaC의 큰 줄기 1. Ad hoc scripts 2. Configuration management tools 3. Server templating tools 4. Orchestration tools 5. Provisioning tools 1. Ad hoc Scripts Ad hoc : "이것을 위해" 또는 "특별한 목적을 위해서" 라는 뜻의 라틴어 ( Reference : Wikipedia ) 즉, 해당 작업만을 위해 생성된 스크립트를 뜻한다. 예로 들어, 물리 서버에 아파치를 설치하고 서비스 실행하는 코드를 bash 스크립트로 작성을 하면 해당 스크립트는 webserver.sh로 웹서버 설치 및 실행을 위한 ad-hoc 스크립트가 된다. # .. 공감수 0 댓글수 0 2020. 12. 27.
  • Pandas : to_parquet 수행 시 유의사항 # Latest modification @ 20-12-26 # 아래의 내용에 잘못된 부분이 있다면, 댓글로 알려주시면 확인하고 수정하겠습니다 ( 미리 감사합니다 :) ) 1. to_parquet을 사용하려면, pyarrow 또는 fastparquet이라는 라이브러리가 추가적으로 필요하다 -> 해당 라이브러리는 parquet 변환 시 엔진으로 사용하는 라이브러리 -> 사용 시 특정 엔진을 고를 수 있다 ( 아래 코드 참고 ) Engine : Pyarrow / Compression : gzip ( compression은 2번 참고) df = pd.DataFrame([1,2,3,4], columns=['idx']) df.to_parquet("test.parquet", engine="pyarrow", compr.. 공감수 1 댓글수 1 2020. 12. 26.
    문의안내
    • 티스토리
    • 로그인
    • 고객센터

    티스토리는 카카오에서 사랑을 담아 만듭니다.

    © Kakao Corp.