HSEOM GeckoHSEOM
Instagram

흑섬 TECH 블로그 - 데이터 기반 브리딩 기술

레오파드게코 브리딩에 데이터 분석과 AI 기술을 접목합니다. Python, NumPy를 활용한 체중 관리, 성장 추이 분석, 환경 데이터 시각화 등 실무에서 직접 사용하는 기술을 일반인도 이해하기 쉽게 설명합니다.

주요 카테고리

흑섬 TECH 블로그 전체 글 아카이브

Python, NumPy, 데이터 분석, AI 브리딩 등 다양한 주제의 기술 블로그 글을 모두 확인할 수 있습니다. 총 74개의 글이 최신순으로 정렬되어 있습니다.

Back to Tech
All Posts

ARCHIVE

65 posts

[NLP 프로젝트 1편] 한국어 뉴스 분류기 — BERT fine-tuning 처음부터 끝까지
Play·28min read·

[NLP 프로젝트 1편] 한국어 뉴스 분류기 — BERT fine-tuning 처음부터 끝까지

뉴스 제목 하나로 카테고리를 맞히는 분류기를 만들어봤습니다. TF-IDF 베이스라인부터 BERT fine-tuning까지, Tokenizer가 텍스트를 어떻게 쪼개는지, [CLS] 토큰이 왜 분류에 쓰이는지, Fine-tuning과 Feature Extraction의 차이까지 KLUE-YNAT 데이터셋으로 직접 확인해봤습니다.

#BERT#fine-tuning#KLUE
[딥러닝 분석 5편] DiT — 이미지를 생성하는 Transformer
AI·24min read·

[딥러닝 분석 5편] DiT — 이미지를 생성하는 Transformer

4편에서 LLM이 이미지를 '인식'하는 방법을 봤습니다. 5편은 반대 방향입니다. 노이즈에서 이미지를 만들어내는 Diffusion의 원리, U-Net을 Transformer로 교체한 DiT, VAE 잠재 공간, adaLN Timestep 주입, 텍스트 Cross-Attention, 그리고 FLUX.1과 Sora까지 정리했습니다.

#딥러닝#DiT#Diffusion Transformer
[딥러닝 분석 4편] VLM — LLM이 이미지를 인식하는 방법
AI·22min read·

[딥러닝 분석 4편] VLM — LLM이 이미지를 인식하는 방법

LLM이 텍스트 밖으로 나가는 이야기입니다. 스마트폰 카메라로 음식을 찍으면 칼로리를 알려주고, PDF 스캔 이미지에서 텍스트를 뽑아내는 게 어떻게 가능한 걸까요? 이미지 패치 토크나이징, ViT 구조, MLP Projector, 통합 시퀀스 처리까지 VLM 아키텍처 전체를 정리했습니다.

#딥러닝#VLM#Vision Language Model
[딥러닝 분석 3편] MLP — LLM이 지식을 저장하는 곳
AI·22min read·

[딥러닝 분석 3편] MLP — LLM이 지식을 저장하는 곳

GPT가 '파리는 프랑스의 수도'라는 사실을 어디에 저장할까요? Transformer 블록의 FFN(Feed-Forward Network)이 그 역할을 담당합니다. 활성화 함수 비교, 512→2048→512 차원 변화, 지식 저장 방식까지 FFN 구조를 정리해봤습니다.

#MLP#FFN#뉴럴넷
[딥러닝 분석 2편] 어텐션 — LLM이 문장을 읽는 방법
AI·24min read·

[딥러닝 분석 2편] 어텐션 — LLM이 문장을 읽는 방법

Query는 질문, Key는 색인, Value는 내용. 모델이 어디를 볼지 스스로 결정하는 Attention 메커니즘을 다뤄봤습니다. Q/K/V 행렬 연산부터 소프트맥스 어텐션 가중치, Multi-Head의 각 헤드가 보는 것까지 시각화로 정리했습니다.

#어텐션#Attention#Q/K/V
[딥러닝 분석 1편] 트랜스포머 — LLM이 작동하는 방식
AI·25min read·

[딥러닝 분석 1편] 트랜스포머 — LLM이 작동하는 방식

RNN은 단어를 하나씩 순서대로 읽었습니다. Transformer는 전체 문장을 한 번에 봅니다. 이 구조적 차이가 GPT, BERT 같은 현대 LLM의 기반이 됐습니다. Transformer가 왜 RNN보다 빠른지, 내부 구조를 정리해봤습니다.

#트랜스포머#Transformer#어텐션
[딥러닝 실전 5편] 불용어 제거 도구 만들기 — 노이즈를 걷어내야 모델이 보인다
AI·20min read·

[딥러닝 실전 5편] 불용어 제거 도구 만들기 — 노이즈를 걷어내야 모델이 보인다

3편 CNN(85.2%), 4편 BiLSTM(85.5%)에서 전처리가 성능에 미친 영향을 직접 확인했습니다. 이번 편은 그 전처리를 재사용 가능한 도구로 만드는 방법을 다뤘습니다. NLTK 179개 불용어 제거부터 커스텀 확장, 파이프라인 클래스까지.

#NLP#전처리#NLTK
[딥러닝 실전 4편] BiLSTM 감정 분석기 — 앞뒤 문맥을 동시에 읽는 모델
AI·24min read·

[딥러닝 실전 4편] BiLSTM 감정 분석기 — 앞뒤 문맥을 동시에 읽는 모델

CNN은 패턴을 잡고, LSTM은 순서를 기억합니다. BiLSTM은 앞→뒤와 뒤→앞을 동시에 읽어 'not like'처럼 부정 문맥까지 정확하게 포착해요. CNN과 성능을 직접 비교해봅니다.

#NLP#BiLSTM#LSTM
[딥러닝 실전 3편] CNN 텍스트 분류기 — 리뷰가 긍정인지 부정인지 판단하기
AI·22min read·

[딥러닝 실전 3편] CNN 텍스트 분류기 — 리뷰가 긍정인지 부정인지 판단하기

1D CNN으로 영화 리뷰를 긍정/부정으로 분류해봅시다. 커널 크기 2, 3, 4를 동시에 사용해서 다양한 n-gram 패턴을 포착하고, IMDb 25,000개 리뷰로 87% 정확도를 달성해요.

#NLP#CNN#텍스트분류
[딥러닝 실전 2편] 문장 유사도 계산기 — 두 문장이 얼마나 비슷한가요?
AI·20min read·

[딥러닝 실전 2편] 문장 유사도 계산기 — 두 문장이 얼마나 비슷한가요?

두 문장이 얼마나 비슷한지 수치로 계산해봅시다. 자카드 유사도와 코사인 유사도, 두 가지 방법으로 직접 구현하고 5×5 유사도 매트릭스까지 시각화해봐요.

#NLP#문장유사도#자카드
[딥러닝 실전 1편] 텍스트 요약 도구 만들기 — 핵심 문장만 골라내기
AI·20min read·

[딥러닝 실전 1편] 텍스트 요약 도구 만들기 — 핵심 문장만 골라내기

ML 모델 없이도 텍스트를 요약할 수 있어요. 단어 빈도 기반으로 문장에 점수를 매기고, 점수 높은 문장만 뽑아내는 추출 요약기를 직접 구현해봅시다.

#NLP#텍스트요약#NLTK
[딥러닝 기초 5편] 텍스트 전처리 파이프라인 — NLP의 기초 체력
AI·20min read·

[딥러닝 기초 5편] 텍스트 전처리 파이프라인 — NLP의 기초 체력

매번 반복되는 전처리를 하나의 파이프라인으로 묶어봅시다. NLTK로 정규화 → 토큰화 → 불용어 제거 → 어간 추출까지, 체계적인 전처리 클래스를 직접 만들어요.

#NLP#전처리#NLTK
[딥러닝 기초 4편] LSTM 이름 국적 분류기 — 기억하는 신경망
AI·25min read·

[딥러닝 기초 4편] LSTM 이름 국적 분류기 — 기억하는 신경망

RNN은 긴 문장에서 앞부분을 까먹습니다. LSTM은 '기억할 것/잊을 것'을 선택하는 게이트로 이 문제를 해결해요. 사람 이름만 보고 국적을 맞추는 분류기를 직접 만들어봅시다.

#딥러닝#LSTM#분류기
[딥러닝 기초 3편] 단어 빈도 분석기 — 텍스트의 핵심을 한눈에
AI·15min read·

[딥러닝 기초 3편] 단어 빈도 분석기 — 텍스트의 핵심을 한눈에

뉴스 기사 20개에서 가장 많이 나온 단어를 뽑으면, 세상이 뭘 말하는지 보입니다. Counter로 빈도를 세고, 막대그래프와 워드클라우드로 시각화하는 방법을 같이 해봅시다.

#NLP#텍스트분석#빈도분석
[딥러닝 기초 2편] RNN 언어 모델 — 다음 단어 예측하기
AI·25min read·

[딥러닝 기초 2편] RNN 언어 모델 — 다음 단어 예측하기

Word2Vec은 단어를 벡터로 바꿨지만 순서를 무시합니다. RNN은 단어를 순서대로 읽으면서 '기억'을 쌓고, 다음에 올 단어를 예측해요. 이게 바로 GPT의 시작이었습니다.

#딥러닝#RNN#순환신경망
[딥러닝 기초 1편] 단어(텍스트) 임베딩 이해하기 — Word2Vec
AI·20min read·

[딥러닝 기초 1편] 단어(텍스트) 임베딩 이해하기 — Word2Vec

컴퓨터는 글자를 모릅니다 — 숫자로 바꿔줘야 읽을 수 있어요. Word2Vec으로 단어를 의미가 담긴 벡터로 바꾸는 법, 그리고 '왕 - 남자 + 여자 = 여왕' 같은 벡터 연산까지 같이 해봅시다.

#딥러닝#NLP#Word2Vec
[IT장비#3] NAS — 나만의 클라우드 스토리지 구축하기
IT·12min read·

[IT장비#3] NAS — 나만의 클라우드 스토리지 구축하기

클라우드는 남의 집 창고, NAS는 내 집 창고. Synology NAS로 AI 생성 이미지를 자동 저장하고, 폰에서 바로 확인하고, USB 없이 파일을 공유하는 방법을 소개합니다.

#NAS#Synology#DSM
LangChain이 Claude Code 복제품을 출시했습니다 — Deep Agents 직접 써봤습니다
Play·22min read·

LangChain이 Claude Code 복제품을 출시했습니다 — Deep Agents 직접 써봤습니다

2026년 3월, LangChain이 클로드 코드의 오픈소스 복제품 Deep Agents를 공개했습니다. 커뮤니티에서 '클로드 코드 복제품'이라는 말이 돌 정도로 반응이 뜨거웠고 GitHub 스타 12K를 넘겼습니다. 계획 도구, 파일시스템, 셸 실행, 서브에이전트까지 — 클로드 코드가 하는 걸 전부 오픈소스로 구현했습니다. MIT 라이선스에 어떤 LLM이든 연결 가능합니다. 직접 설치하고 로컬 LLM까지 연결해봤습니다.

#DeepAgents#LangChain#LangGraph
[소셜 미디어 트렌드 4편] LDA 토픽 모델링 + Streamlit 대시보드로 시리즈 완결
Play·16min read·

[소셜 미디어 트렌드 4편] LDA 토픽 모델링 + Streamlit 대시보드로 시리즈 완결

수집한 523건 댓글에 LDA 토픽 모델링을 적용해 5개 주제를 자동 분류하고, Streamlit으로 인터랙티브 대시보드를 만듭니다. 감성 분석 + 토픽 분석 + 시각화를 하나로 합친 시리즈 최종편입니다.

#LDA#토픽모델링#Streamlit
[소셜 미디어 트렌드 3편] YouTube API로 댓글 523건 수집하고 감성 분석까지
Play·14min read·

[소셜 미디어 트렌드 3편] YouTube API로 댓글 523건 수집하고 감성 분석까지

Google Cloud Console에서 API 키를 발급받고, YouTube Data API v3으로 댓글을 수집합니다. 키워드 검색 → 영상 10개 → 댓글 523건 수집 → 1편 감성 분석 모델 적용까지, 실제 데이터 파이프라인을 만드는 과정입니다.

#YouTube API#데이터수집#감성분석
[소셜 미디어 트렌드 2편] 리뷰 15만 건, 문장 길이부터 워드클라우드까지 텍스트 EDA
Play·12min read·

[소셜 미디어 트렌드 2편] 리뷰 15만 건, 문장 길이부터 워드클라우드까지 텍스트 EDA

1편에서 전처리한 NSMC 데이터를 다시 꺼냅니다. 문장 길이 분포, 긍정/부정 워드클라우드, 단어 빈도 Top-20, 길이별 감성 비율까지 — 모델에 넣기 전에 텍스트 데이터를 눈으로 확인하는 과정입니다.

#NLP#EDA#워드클라우드
[소셜 미디어 트렌드 1편] 영화 리뷰 20만 건으로 감성 분석 모델 만들기
Play·15min read·

[소셜 미디어 트렌드 1편] 영화 리뷰 20만 건으로 감성 분석 모델 만들기

YouTube 댓글을 분석하려면 먼저 감성 분석 모델이 필요합니다. 네이버 영화 리뷰(NSMC) 20만 건으로 한글 텍스트를 전처리하고, TF-IDF로 숫자로 바꾸고, Logistic Regression과 Naive Bayes를 비교해서 83% 정확도의 감성 분류기를 만듭니다.

#NLP#감성분석#TF-IDF
[머신러닝 실전 6편] 전체 파이프라인 완성 — CSV 한 장에서 예측 모델까지
AI·18min read·

[머신러닝 실전 6편] 전체 파이프라인 완성 — CSV 한 장에서 예측 모델까지

1편 EDA부터 5편 튜닝까지, 코드가 흩어져 있었습니다. 전처리 따로, 모델 따로, 튜닝 따로 — 실수하기 딱 좋은 구조였습니다. sklearn Pipeline과 ColumnTransformer로 전부 하나로 묶었습니다. 전처리부터 튜닝까지 fit 한 번이면 끝나는, 재현 가능한 워크플로우를 완성합니다.

#Pipeline#ColumnTransformer#sklearn
[머신러닝 실전 5편] 같은 모델인데 셋팅만 바꿨더니 — 하이퍼파라미터 튜닝
AI·17min read·

[머신러닝 실전 5편] 같은 모델인데 셋팅만 바꿨더니 — 하이퍼파라미터 튜닝

4편에서 Gradient Boosting이 종합 1위였습니다. 근데 기본 설정 그대로 쓴 거라 '이게 최선인가?' 싶었습니다. 하이퍼파라미터를 바꿔봤더니 — 사실 기본 설정이 이미 꽤 좋았습니다. GridSearchCV, RandomizedSearchCV로 실험한 과정과, '튜닝이 항상 극적 개선을 주지는 않는다'는 현실적인 교훈을 정리했습니다.

#하이퍼파라미터튜닝#GridSearch#RandomSearch
[머신러닝 실전 4편] 이탈 예측, 어떤 모델이 이기나 — 5개 모델 실전 비교
AI·18min read·

[머신러닝 실전 4편] 이탈 예측, 어떤 모델이 이기나 — 5개 모델 실전 비교

전처리를 끝내고 나니 '어떤 모델을 써야 하지?'가 막막했습니다. 로지스틱 회귀? 랜덤포레스트? 그래디언트 부스팅? 실전에서는 하나만 골라서 올인하는 게 아니라, 여러 개를 빠르게 돌려보고 비교합니다. DummyClassifier로 베이스라인을 세우고, 5개 모델을 교차검증으로 공정 비교한 결과를 정리했습니다.

#모델선택#교차검증#베이스라인
[머신러닝 실전 3편] "남자/여자"를 모델은 못 읽는다 — 피처 엔지니어링 실전
AI·17min read·

[머신러닝 실전 3편] "남자/여자"를 모델은 못 읽는다 — 피처 엔지니어링 실전

2편에서 결측치와 이상치를 처리하고 바로 모델에 넣었더니 에러가 났습니다. gender='Male'을 모델이 이해하지 못한 겁니다. 범주형을 숫자로 바꾸는 인코딩, 스케일을 맞추는 스케일링, 새 변수를 만드는 파생변수까지 — 모델이 먹을 수 있는 형태로 데이터를 가공하는 과정을 정리했습니다.

#피처엔지니어링#인코딩#스케일링
[머신러닝 실전 2편] 빈 칸과 튀는 값 — 결측치·이상치 실전 처리
AI·16min read·

[머신러닝 실전 2편] 빈 칸과 튀는 값 — 결측치·이상치 실전 처리

1편에서 EDA를 하다가 TotalCharges에 빈 칸 11개를 발견했습니다. 그냥 삭제할까, 0으로 채울까, 중앙값으로 채울까 — 선택에 따라 모델 결과가 달라졌습니다. 결측치를 직접 파헤쳐보고, 이상치까지 IQR 방법으로 확인하면서 배운 실전 전처리 과정을 공유합니다.

#결측치#이상치#데이터전처리
[머신러닝 실전 1편] 통신사 고객 7천 명, 누가 떠날까 — EDA로 단서 찾기
AI·18min read·

[머신러닝 실전 1편] 통신사 고객 7천 명, 누가 떠날까 — EDA로 단서 찾기

처음 데이터를 받았을 때 바로 모델부터 돌렸습니다. 정확도 79%에 좋아했는데.. 자세히 보니 이탈 고객을 거의 못 잡고 있었습니다. 원인을 찾다 보니 데이터 자체에 문제가 있었습니다. 그때 깨달았습니다 — 모델 전에 데이터를 먼저 봐야 한다는 것을. 제가 했던 실수를 여러분은 안 하시도록, Telco Churn 데이터 7,043명을 직접 뜯어보면서 EDA가 왜 필수인지 확인합니다.

#EDA#탐색적데이터분석#데이터시각화
[머신러닝 중급 6편] 주성분 분석(PCA) — 100개 특성을 2개로 줄여도 되는 이유
AI·18min read·

[머신러닝 중급 6편] 주성분 분석(PCA) — 100개 특성을 2개로 줄여도 되는 이유

처음 PCA를 접했을 때 '특성을 줄이면 정보가 날아가는 거 아닌가?' 싶었습니다. 근데 iris 데이터 4개 특성을 2개로 줄여서 산점도를 그려보니까, 클래스 구분이 여전히 선명하더라고요. 분산 설명 비율, Scree Plot, 차원 축소 전후 비교까지 직접 코드로 확인합니다.

#PCA#주성분분석#차원축소
[머신러닝 중급 5편] 이상치 탐지 — 1000명 중 수상한 1명을 찾아내는 법
AI·18min read·

[머신러닝 중급 5편] 이상치 탐지 — 1000명 중 수상한 1명을 찾아내는 법

이상치 탐지는 처음 접했을 때 '그냥 평균에서 멀면 이상치 아닌가?' 싶었습니다. 근데 실제 데이터에서는 그렇게 단순하지 않더라고요. 레이블도 없고, 정상과 비정상의 경계도 애매하고.. Isolation Forest를 직접 돌려보고 나서야 왜 이 방법이 인기 있는지 이해했습니다.

#이상치탐지#AnomalyDetection#IsolationForest
[머신러닝 중급 4편] 그래디언트 부스팅 — 약한 모델들이 팀을 이루는 방법
AI·20min read·

[머신러닝 중급 4편] 그래디언트 부스팅 — 약한 모델들이 팀을 이루는 방법

랜덤포레스트랑 뭐가 다른 건지 처음엔 구분이 안 됐습니다. 둘 다 트리를 여러 개 쓰는 건 같은데.. 직접 코드를 돌려보고 나서야 '순차적으로 오차를 보정한다'는 게 무슨 뜻인지 이해했습니다. 그래디언트 부스팅의 원리부터 XGBoost, 특성 중요도 해석까지 정리합니다.

#그래디언트부스팅#XGBoost#앙상블
[머신러닝 중급 3편] 정규화 기법 — 모델에 '벌금'을 매기는 이유
AI·18min read·

[머신러닝 중급 3편] 정규화 기법 — 모델에 '벌금'을 매기는 이유

1편에서 과적합 해결책 중 하나로 '정규화'를 잠깐 언급했었는데, 솔직히 그때는 이름만 들었지 뭔지 감이 안 왔습니다. L1, L2가 뭐고 왜 가중치에 벌금을 매기는 건지.. Ridge, Lasso 코드를 직접 돌려보고 alpha 값을 이리저리 바꿔본 뒤에야 '아, 이래서 정규화가 필요하구나' 이해했습니다.

#정규화#Lasso#Ridge
[머신러닝 중급 2편] 서포트 벡터 머신(SVM) — 두 그룹 사이의 가장 넓은 길을 찾는 알고리즘
AI·18min read·

[머신러닝 중급 2편] 서포트 벡터 머신(SVM) — 두 그룹 사이의 가장 넓은 길을 찾는 알고리즘

SVM을 처음 접했을 때 '경계선을 긋는다'는 설명만 봤는데, 그러면 로지스틱 회귀랑 뭐가 다른 건지 감이 안 왔습니다. 핵심은 경계선이 아니라 '도로 폭'이더라고요. 마진 최대화, 서포트 벡터, 커널 트릭까지 — 직접 그래프를 그려보면서 정리합니다.

#SVM#서포트벡터머신#커널트릭
[머신러닝 중급 1편] 과적합과 과소적합 — 모델이 시험 문제만 외우면 생기는 일
AI·20min read·

[머신러닝 중급 1편] 과적합과 과소적합 — 모델이 시험 문제만 외우면 생기는 일

처음 머신러닝을 배울 때 '과적합'이 뭔 소린지 감이 안 왔습니다. 잘 맞추면 좋은 거 아닌가? 근데, 직접 코드를 돌려보고 나서야 이해했던 경험이 있습니다. degree 하나 바꿨을 뿐인데 그래프가 미친 듯이 요동치는 걸 보고.. 과적합·과소적합의 차이, 편향-분산 트레이드오프, 학습 곡선까지 직접 실행하면서 정리합니다.

#과적합#과소적합#편향분산트레이드오프
[머신러닝 기초 6편] 모델 평가 지표 — 정확도만 보면 안 되는 이유
AI·18min read·

[머신러닝 기초 6편] 모델 평가 지표 — 정확도만 보면 안 되는 이유

굉장히 민감한 영역입니다. 정확도 99%인데 암 환자를 전부 놓친다면 어떻게 될까요..(상상하기도 싫습니다.) 모델을 제대로 평가하려면 혼동행렬, 정밀도, 재현율, F1 점수를 알아야 합니다. 각 지표가 언제 중요한지, 어떻게 계산하는지 직접 코드로 확인해봅니다.

#머신러닝#모델평가#혼동행렬
[머신러닝 기초 5편] 선형 회귀 — 직선 하나로 미래를 예측한다
AI·15min read·

[머신러닝 기초 5편] 선형 회귀 — 직선 하나로 미래를 예측한다

선형 회귀는 데이터 사이의 직선 관계를 찾아내는 가장 기본적인 예측 알고리즘입니다. y=wx+b 수식이 어떻게 집값, 매출, 체중을 예측하는지, 경사 하강법으로 최적의 직선을 어떻게 찾는지 직접 구현해봅니다.

#머신러닝#선형회귀#경사하강법
[머신러닝 기초 4편] 나이브 베이즈 — 확률로 스팸을 잡는다
AI·15min read·

[머신러닝 기초 4편] 나이브 베이즈 — 확률로 스팸을 잡는다

받은 메일이 스팸인지 아닌지 AI는 어떻게 판단할까요? 나이브 베이즈는 단어 등장 확률을 곱해서 분류하는 단순하지만 강력한 알고리즘입니다. 베이즈 정리부터 스팸 필터 직접 구현까지 다뤄봅니다.

#머신러닝#나이브베이즈#베이즈정리
[머신러닝 기초 3편] 로지스틱 회귀 — S자 곡선 하나로 분류를 끝낸다
AI·15min read·

[머신러닝 기초 3편] 로지스틱 회귀 — S자 곡선 하나로 분류를 끝낸다

로지스틱 회귀는 시그모이드 함수를 이용해 어떤 숫자든 0~1 사이 확률로 변환하고 분류합니다. 스팸 탐지, 암 진단, 신용 심사에 실제로 쓰이는 이 알고리즘을 유방암 데이터셋으로 직접 구현해봅니다.

#머신러닝#로지스틱회귀#시그모이드
[머신러닝 기초 2편] 결정 트리 — 스무고개처럼 질문을 쪼개서 답을 찾는다
AI·15min read·

[머신러닝 기초 2편] 결정 트리 — 스무고개처럼 질문을 쪼개서 답을 찾는다

결정 트리는 데이터를 질문으로 쪼개 분류하는 알고리즘입니다. 지니 불순도와 정보 이득으로 최적 분할 기준을 찾고, 트리 깊이에 따른 과적합 문제까지 — 붓꽃 데이터셋으로 직접 구현해봅니다.

#머신러닝#결정트리#DecisionTree
[머신러닝 기초 1편] k-최근접 이웃(k-NN) — 주변을 보고 판단한다
AI·15min read·

[머신러닝 기초 1편] k-최근접 이웃(k-NN) — 주변을 보고 판단한다

가장 직관적인 머신러닝 알고리즘, k-NN. 데이터 포인트 간의 거리를 계산해 가장 가까운 k개의 이웃을 찾고 다수결로 분류합니다. 유클리드 거리 계산부터 k값 선택까지, 붓꽃 데이터셋으로 직접 구현해봅니다.

#머신러닝#kNN#분류
[알고리즘 기초 3편] 정렬 알고리즘 비교 — 버블·삽입·퀵·병합
AI·20min read·

[알고리즘 기초 3편] 정렬 알고리즘 비교 — 버블·삽입·퀵·병합

버블, 삽입, 퀵, 병합 정렬을 직접 구현하고 성능을 비교합니다. O(n²)과 O(n log n)이 실제로 얼마나 차이나는지, 데이터 상황별로 어떤 정렬이 유리한지 숫자로 확인해봅니다.

#알고리즘#정렬#버블정렬
[코딩테스트] 빈출 유형 4가지 — AI 시대에 코딩테스트가 웬말이냐
Play·22min read·

[코딩테스트] 빈출 유형 4가지 — AI 시대에 코딩테스트가 웬말이냐

AI시대에 코딩과 코딩테스트가 웬말이냐는 생각도 있겠지만, 문제를 풀어보면서 접근 방식을 이해하면 AI에게 일을 더 잘 시킬 수 있을 거라고 생각합니다 ㅎㅎ 해시·그리디·분할정복·DP 빈출 유형 4가지를 같이 풀어봅니다.

#코딩테스트#해시테이블#그리디
[IT장비#2] AI커맨드센터 — 이미지·비디오를 무료로 무한 생성하기
IT·15min read·

[IT장비#2] AI커맨드센터 — 이미지·비디오를 무료로 무한 생성하기

GPU 2대 분산시스템, 수냉 쿨링, 컨트롤러로 구축한 흑섬의 AI커맨드센터. 나아가 ComfyUI로 이미지·비디오를 외부 서비스 없이 무료로 무한 생성하는 방법을 소개합니다.

#AI커맨드센터#ComfyUI#GPU
[알고리즘 기초 1편] 스택·큐·재귀 — 컴퓨터가 기억하는 법
AI·20min read·

[알고리즘 기초 1편] 스택·큐·재귀 — 컴퓨터가 기억하는 법

모든 알고리즘의 기초가 되는 스택·큐·재귀를 Python으로 직접 구현해봅니다. 브라우저 뒤로가기는 스택, 카페 줄서기는 큐, 하노이 탑은 재귀로 — 실생활 예시로 자료구조의 핵심을 잡아봐요.

#알고리즘#스택#
[알고리즘 기초 2편] 그래프 탐색 — DFS와 BFS
AI·20min read·

[알고리즘 기초 2편] 그래프 탐색 — DFS와 BFS

1편에서 배운 스택·큐가 실제로 어떻게 쓰이는지 알 차례입니다. 스택으로 구현하는 DFS, 큐로 구현하는 BFS — 지하철 최단경로·SNS 추천·게임 AI까지 모두 이 두 알고리즘에서 시작해요. 3편에서는 최대공약수·이진 트리·프린터 스케줄링으로 이어집니다.

#알고리즘#DFS#BFS
[AI 기초수학 1편] 연립방정식, NumPy로 0.1초에 풀기
AI·15min read·

[AI 기초수학 1편] 연립방정식, NumPy로 0.1초에 풀기

AI는 기초가 중요하다고 합니다.. 그 기초가 수학입니다..(저도 사실 수학을 좋아하진 않지만)! 이번 포스팅에서 같이 사과·바나나 가격 구하는 연립방정식을 NumPy로 함께 돌려보면서, AI 신경망의 뿌리가 어디서 오는지 직접 확인해 봅시다.

#numpy#선형대수#연립방정식
[AI 기초수학 2편] 평균·분산·로그 — AI가 데이터를 읽는 법
AI·18min read·

[AI 기초수학 2편] 평균·분산·로그 — AI가 데이터를 읽는 법

AI가 데이터를 보는 눈, 평균과 분산으로 시작합니다. 거기에 로그까지 더하면 AI 손실함수의 기초가 완성돼요. 레오파드게코 모프 분류 예시로 직접 돌려봅시다.

#numpy#통계#평균
[AI 기초수학 3편] 확률 — AI가 예측하는 법
AI·20min read·

[AI 기초수학 3편] 확률 — AI가 예측하는 법

AI는 정답을 모릅니다. 대신 가장 확률 높은 답을 고릅니다. 이산 확률부터 정규분포, 조건부 확률, softmax까지 NumPy로 직접 돌려봅시다.

#numpy#확률#정규분포
[Plotly 실전] 우리 집 도마뱀 체중 기록을 인터랙티브 차트로 만들기
Data Viz·20min read·

[Plotly 실전] 우리 집 도마뱀 체중 기록을 인터랙티브 차트로 만들기

한번 씩 재는 도마뱀 체중 기록, 숫자로만 쌓아두고 있나요? Plotly로 체중 분포 히스토그램부터 개체별 성장 차트, 드롭다운/버튼이 달린 대시보드까지 만들어 봅니다.

#plotly#도마뱀#체중기록
[IT장비#1] 맥미니 대란? 나만의 AI 구축하기
IT·18min read·

[IT장비#1] 맥미니 대란? 나만의 AI 구축하기

AI를 운용할 수 있는 환경만 구축하면, 챗봇(LLM), 코드 에이전트, AI 비서를 언제든지 원할 때 무제한으로 사용할 수 있어요. 맥 여러 대를 연결해서 나만의 AI 환경을 만드는 방법을 알려드릴게요.

#맥미니#맥스튜디오#AI클러스터
[벡터#4 데이터 추출] 정규표현식으로 이메일 주소 찾기
AI·18min read·

[벡터#4 데이터 추출] 정규표현식으로 이메일 주소 찾기

100페이지 문서에서 이메일 빠르게 추출! 엑셀 '찾기'보다 강력한 정규표현식으로 반복 작업을 크게 줄이는 방법을 배웁니다.

#정규표현식#regex#python
[벡터#3 방정식] numpy.linalg.solve()로 빠르게 풀기
AI·15min read·

[벡터#3 방정식] numpy.linalg.solve()로 빠르게 풀기

사과 2개 + 바나나 3개 = 8,000원? 손으로 풀면 5분, Python으로는 빠르게! 연립방정식을 코드 3줄로 해결하는 방법을 배웁니다.

#선형방정식#numpy#linalg
[벡터#2 연산] 덧셈, 뺄셈, 곱셈으로 배우는 실전 데이터 계산
AI·15min read·

[벡터#2 연산] 덧셈, 뺄셈, 곱셈으로 배우는 실전 데이터 계산

장바구니 계산부터 할인 적용, 매출 분석까지. 벡터 연산으로 엑셀보다 훨씬 빠르게 계산하는 방법을 배웁니다.

#벡터연산#numpy#데이터분석
[벡터#1 입문] NumPy로 시작하는 AI 개발의 기초
AI·12min read·

[벡터#1 입문] NumPy로 시작하는 AI 개발의 기초

AI 개발의 핵심이 되는 벡터수학을 NumPy로 배워봅니다. 일상생활 속 벡터부터 AI 모델의 핵심 원리까지, 쉽고 실용적으로 시작하는 수학 여행.

#벡터수학#numpy#AI기초
[SQL 실습 #5] 음악 스트리밍 서비스 데이터 모델 작성
Data Viz·20min read·

[SQL 실습 #5] 음악 스트리밍 서비스 데이터 모델 작성

N:M 관계를 중간 테이블로 해결합니다. 한 플레이리스트에 여러 곡, 한 곡이 여러 플레이리스트에 담기는 복잡한 관계를 데이터베이스로 구현하는 방법을 배웁니다.

#SQL#N:M 관계#중간 테이블
[SQL 실습 #4] 병원 예약 시스템 데이터 모델 작성
Data Viz·18min read·

[SQL 실습 #4] 병원 예약 시스템 데이터 모델 작성

UNIQUE 제약 조건으로 예약 충돌을 원천 차단합니다. 같은 의사, 같은 시간에 중복 예약 불가 규칙을 데이터베이스 레벨에서 강제하는 방법을 배웁니다.

#SQL#UNIQUE 제약#예약 시스템
데이터에 생명을 불어넣다: Plotly Python 시각화 가이드
Data Viz·12min read·

데이터에 생명을 불어넣다: Plotly Python 시각화 가이드

데이터 시각화는 개발자만의 영역이 아닙니다. 취업 포트폴리오, 사업 기획서, 프로젝트 리포트까지—배워두면 인생 전반에서 요긴하게 쓰이는 스킬입니다. Plotly Python으로 누구나 쉽게 시작할 수 있는 인터랙티브 시각화의 세계를 소개합니다.

#plotly#python#데이터시각화
[SQL 실습 #3] 주차 관리 시스템 데이터베이스 설계
Data Viz·15min read·

[SQL 실습 #3] 주차 관리 시스템 데이터베이스 설계

시간 데이터 다루기와 CASE WHEN 조건문을 배웁니다. 주차 공간, 차량, 주차 기록 테이블로 실시간 요금 계산 시스템을 완성합니다.

#SQL#DATETIME#CASE WHEN
[SQL 실습 #2] 도서관 대출 시스템 테이블 구조 만들기
Data Viz·15min read·

[SQL 실습 #2] 도서관 대출 시스템 테이블 구조 만들기

1:N 관계와 Foreign Key 개념을 배우고 JOIN 쿼리로 여러 테이블을 연결합니다. 회원, 도서, 대출 기록 3개 테이블로 관계형 데이터베이스를 완성합니다.

#SQL#JOIN#Foreign Key
[SQL 입문] 데이터베이스 입문 - 기록의 시작
Data Viz·7min read·

[SQL 입문] 데이터베이스 입문 - 기록의 시작

일상 기록에서 출발하는 데이터베이스 입문. SQL이란 무엇이고, 왜 스키마 설계가 중요한지 알아봅니다. 브리딩 기록부터 시작해 데이터베이스의 본질을 이해합니다.

#데이터베이스#SQL#스키마
[SQL 실습 #1] 학생 정보 데이터베이스 설계
Data Viz·12min read·

[SQL 실습 #1] 학생 정보 데이터베이스 설계

가장 간단한 테이블 설계부터 시작. CREATE TABLE, INSERT, SELECT 기본 문법을 배우고 첫 데이터베이스를 완성합니다. DB Browser for SQLite 실습 포함.

#SQL#CREATE TABLE#Primary Key
[Step 4] 워드클라우드로 텍스트 데이터 시각화하기 - WordCloud + matplotlib
Data Viz·13min read·

[Step 4] 워드클라우드로 텍스트 데이터 시각화하기 - WordCloud + matplotlib

텍스트에서 단어 빈도를 추출하고 워드클라우드 이미지를 생성합니다. 영화 리뷰, SNS 게시글 분석부터 커뮤니티 트렌드 파악까지 활용 방법을 배웁니다.

#워드클라우드#wordcloud#텍스트분석
[Step 3] 막대 그래프로 범주형 데이터 시각화하기 - pandas + matplotlib
Data Viz·14min read·

[Step 3] 막대 그래프로 범주형 데이터 시각화하기 - pandas + matplotlib

월별 판매량, 제품별 성적, 분기별 매출... 범주로 나눌 수 있는 데이터라면 막대 그래프가 정답입니다. Step 3에서는 막대 그래프 그리는 방법을 배웁니다.

#막대그래프#pandas#matplotlib
[Step 2] 산점도로 데이터 관계 파악하기 - matplotlib scatter
Data Viz·12min read·

[Step 2] 산점도로 데이터 관계 파악하기 - matplotlib scatter

운동 시간과 체중 감량, 공부 시간과 성적... 두 데이터 사이에 관계가 있을까요? Step 2에서는 산점도로 데이터 간 상관관계를 한눈에 파악하는 방법을 배웁니다.

#산점도#matplotlib#python
[Step 1] 데이터를 선 그래프로 시각화하는 실습 - yfinance + matplotlib
Data Viz·15min read·

[Step 1] 데이터를 선 그래프로 시각화하는 실습 - yfinance + matplotlib

개발자나 데이터 분석가만 이쁜 그래프를 그릴 수 있는 건 아닙니다. 정말 간단한 지식이면 누구나 화려한 시각화를 만들 수 있어요. Step 1에서는 선 그래프 그리는 방법론을 주식 데이터 예제로 따라해봅니다.

#선그래프#matplotlib#python