CodeCut Blog Articles

About CodeCut

These notebooks are from CodeCut. CodeCut features open-source Python data science tools explained in clear, digestible tutorials. Subscribe to get:

Weekly articles with step-by-step guides
Newsletters 3x per week (2-minute digests)

Repository Overview

This repository contains 45+ comprehensive technical articles covering data science, MLOps, and AI tools.

Here are some examples of what you'll find in this repository:

Data Engineering

PySpark SQL - DataFrames, window functions, aggregations
DuckDB - Fast analytical queries for data scientists
DVC - Data versioning and experiment tracking
Delta Lake - Production lakehouses with delta-rs

Machine Learning

Bayesian Optimization - Efficient hyperparameter tuning
MLflow - RAG evaluation and experiment tracking
pytest for Data Scientists - Testing ML pipelines

LLM Applications

LangChain + Ollama - Private AI workflows
Pydantic AI - Type-safe LLM applications
RAG Pipelines - Intelligent QA systems
pgvector - Vector search for embeddings

Data Visualization

Python Visualization Libraries - Matplotlib, Plotly, Seaborn comparison
Manim - Mathematical animations like 3Blue1Brown

Data Utilities

Faker - Generate realistic test data
PRegEx - Human-readable regex patterns
Loguru - Simplified Python logging
Hydra - Configuration management

Setup

Prerequisites: Python 3.9+

Quick Start:

# Clone repository
git clone https://github.com/khuyentran1401/codecut-blog.git
cd codecut-blog

# Install dependencies (listed at top of each notebook)
pip install package1 package2

Use UV for faster installs: uv pip install package1 package2

License

All articles are copyright � Khuyen Tran. Code examples within articles are MIT licensed for reuse.

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
scrapegraphai		scrapegraphai
Pinecone_Ollama.ipynb		Pinecone_Ollama.ipynb
README.md		README.md
bayesian_optimization.ipynb		bayesian_optimization.ipynb
behave_write_readable_tests.ipynb		behave_write_readable_tests.ipynb
browser-use-vs-playwright.ipynb		browser-use-vs-playwright.ipynb
claude_code_tips.ipynb		claude_code_tips.ipynb
cloudquery_pgvector_rag_pipelines.ipynb		cloudquery_pgvector_rag_pipelines.ipynb
data_science_project_structure.ipynb		data_science_project_structure.ipynb
dict_namedtuple_dataclass_pydantic_debugging.ipynb		dict_namedtuple_dataclass_pydantic_debugging.ipynb
diffbot-llm-javascript-calculator.ipynb		diffbot-llm-javascript-calculator.ipynb
diffbot_llm.ipynb		diffbot_llm.ipynb
docling-vs-marker-vs-llamaparse.ipynb		docling-vs-marker-vs-llamaparse.ipynb
duckdb.ipynb		duckdb.ipynb
dvc_data_version_control.ipynb		dvc_data_version_control.ipynb
essential-rag-evaluation-mlflow.ipynb		essential-rag-evaluation-mlflow.ipynb
faker_generate_fake_data.ipynb		faker_generate_fake_data.ipynb
faster-chart-analysis-smolvlm-automation.ipynb		faster-chart-analysis-smolvlm-automation.ipynb
fastmcp_sql_bridge.ipynb		fastmcp_sql_bridge.ipynb
from_messy_pdfs_to_rag_ready_data_complete_document_processing_with_docling.ipynb		from_messy_pdfs_to_rag_ready_data_complete_document_processing_with_docling.ipynb
from_pandas_to_production_delta_rs.ipynb		from_pandas_to_production_delta_rs.ipynb
git-submodules-shared-ml-code.ipynb		git-submodules-shared-ml-code.ipynb
git_for_data_scientists.ipynb		git_for_data_scientists.ipynb
great_tables.ipynb		great_tables.ipynb
hydra_config.ipynb		hydra_config.ipynb
ibis-vs-narwhals-vs-fugue-dataframe-portability.ipynb		ibis-vs-narwhals-vs-fugue-dataframe-portability.ipynb
itertools_feature_engineering.ipynb		itertools_feature_engineering.ipynb
langchain_1.0_middleware.ipynb		langchain_1.0_middleware.ipynb
langchain_ollama.ipynb		langchain_ollama.ipynb
langraph.ipynb		langraph.ipynb
loguru_python_logging.ipynb		loguru_python_logging.ipynb
manim_mathematical_animations.ipynb		manim_mathematical_animations.ipynb
marimo_notebook.ipynb		marimo_notebook.ipynb
open_source_rag_pipeline_intelligent_qa_system.ipynb		open_source_rag_pipeline_intelligent_qa_system.ipynb
pandas_3_expressions.ipynb		pandas_3_expressions.ipynb
pandas_vs_polars_vs_duckdb.ipynb		pandas_vs_polars_vs_duckdb.ipynb
pgvector_rag.ipynb		pgvector_rag.ipynb
polars_vs_pandas_performance.ipynb		polars_vs_pandas_performance.ipynb
pregex_readable_regex.ipynb		pregex_readable_regex.ipynb
progressive_entity_extraction_business_documents.ipynb		progressive_entity_extraction_business_documents.ipynb
pydantic_ai.ipynb		pydantic_ai.ipynb
pyspark_4_0_whats_new.ipynb		pyspark_4_0_whats_new.ipynb
pyspark_langchain.ipynb		pyspark_langchain.ipynb
pyspark_pandas_api.ipynb		pyspark_pandas_api.ipynb
pyspark_parameterized_queries.ipynb		pyspark_parameterized_queries.ipynb
pyspark_sql_complete_guide.ipynb		pyspark_sql_complete_guide.ipynb
pytest_for_data_scientists.ipynb		pytest_for_data_scientists.ipynb
python_code_to_latex_jupyter_notebooks.ipynb		python_code_to_latex_jupyter_notebooks.ipynb
readable_regex_patterns.ipynb		readable_regex_patterns.ipynb
scale_pandas_to_cloud_with_coiled.ipynb		scale_pandas_to_cloud_with_coiled.ipynb
smart_data_extraction_llamaindex.ipynb		smart_data_extraction_llamaindex.ipynb
sqlmodel_vs_psycopg2_orm_convenience_vs_sql_control.ipynb		sqlmodel_vs_psycopg2_orm_convenience_vs_sql_control.ipynb
structured-llm-outputs-tools-comparison.ipynb		structured-llm-outputs-tools-comparison.ipynb
text_similarity_fuzzy_matching.ipynb		text_similarity_fuzzy_matching.ipynb
top_6_python_visualization_libraries.ipynb		top_6_python_visualization_libraries.ipynb
unified-dataframe-functions-pandas-polars-pyspark.ipynb		unified-dataframe-functions-pandas-polars-pyspark.ipynb
uv_python_package_manager.ipynb		uv_python_package_manager.ipynb
yellowbrick_ml_visualization.ipynb		yellowbrick_ml_visualization.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CodeCut Blog Articles

About CodeCut

Repository Overview

Setup

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CodeCut Blog Articles

About CodeCut

Repository Overview

Setup

License

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages