Human-made Feeling Bench

이 페이지는 “사람이 만든 것처럼 보이는가"를 감으로만 말하지 않기 위한 작은 평가표다.

Human-made Feeling Bench는 not a universal design-quality benchmark다. 외부 검증, 고객 성과, 전환율 개선, 시각 품질 개선을 증명하지 않는다. 지금 주장할 수 있는 것은 더 좁다.

AI가 만든 화면, 글, 데모, README, 리포트에서 사람의 판단 흔적이 남아 있는지 확인하기 위한 first-pass rubric.

핵심 질문은 이것이다.

이 결과물에는 trace of judgment가 있는가?
아니면 평균적인 AI 산출물이 예쁜 말과 카드로 덮인 것인가?

기준 원본

이 평가표는 새 이론을 선언하지 않는다. 이미 공개된 기준을 좁게 끌어와서 내 포트폴리오와 AI 산출물 검수에 맞춘다.

source	여기서 가져온 기준
NIST Human-Centered AI	AI 시스템은 인간의 맥락, 신뢰, 위험, 사용성을 중심으로 평가되어야 한다는 관점.
Microsoft HAX Toolkit	AI 경험은 불확실성, 실패, 사용자 통제, 기대 관리까지 설계해야 한다는 체크리스트.
W3C WCAG 2.2	보기 좋음보다 perceivable, operable, understandable, robust 기준으로 읽히고 조작되는지 확인하는 접근성 기준.
ArtifactsBench	생성된 visual/interactive artifacts는 실제 렌더링, 상호작용, 오류, 제약을 포함해 평가해야 한다는 방향.
ArtifactsBenchmark repository	benchmark도 데이터셋, 평가 기준, 실패 사례, scoring boundary가 필요하다는 공개 구현 표면.

이 원본들은 Human-made Feeling Bench를 검증해 주지 않는다. 이 원본들은 평가표가 무슨 기준을 빌려왔는지 공개하는 출처다.

Rubric v0

각 항목은 0, 1, 2로만 본다.

0 = 흔적 없음
1 = 일부 있음
2 = 명확함

dimension	질문	2점의 조건
trace of judgment	누군가가 직접 보고 버린 선택, 줄인 선택, 남긴 선택이 보이는가?	rejected path, tradeoff, boundary, changed wording이 결과물 안이나 옆 문서에 남아 있다.
artifact fit	이 화면이나 글이 실제 대상의 목적에 맞게 조정됐는가?	범용 카드/히어로/요약이 아니라 해당 제품, 문서, 사용자 흐름에 맞는 구조를 가진다.
source fidelity	어떤 원본에서 무엇을 배웠고 무엇을 베끼지 않았는지 보이는가?	source card, do-not-copy redline, 변형 이유가 있다.
interaction clarity	사용자가 다음 행동을 헷갈리지 않는가?	CTA, 입력, 오류, 빈 상태, 돌아가기 경로가 설명이 아니라 UI 구조로 보인다.
restraint	장식과 카피가 판단을 가리지 않는가?	과한 gradient, 카드 중첩, 추상 buzzword보다 읽기 쉬운 정보 구조가 우선한다.
accessibility and legibility	작은 화면, 키보드, contrast, 텍스트 길이가 버티는가?	WCAG 2.2에 맞춰 대체 텍스트, 초점, 읽기 순서, 텍스트 overflow를 확인한다.
failure evidence	실패나 한계가 기록됐는가?	무엇이 안 됐고, 왜 폐기했으며, 다음 검증이 무엇인지 남아 있다.
provenance and claim boundary	이 결과물이 무엇을 증명하지 않는지도 보이는가?	external validation, customer proof, production readiness 같은 과장 금지선이 명확하다.

총점은 참고용이다. 더 중요한 것은 어떤 항목이 0점인지다.

사용 방식

이 bench는 최종 판정기가 아니다. 먼저 결과물을 멈춰 세우는 화면이다.

평가할 artifact를 하나 고른다.
원본 또는 reference source를 적는다.
위 rubric의 8개 항목을 0, 1, 2로 채운다.
0점 항목은 “취향 문제"가 아니라 next proof task로 바꾼다.
결과 문장에는 반드시 claim boundary를 붙인다.

예시 문장:

이 화면은 source fidelity와 provenance boundary는 갖췄지만,
interaction clarity와 accessibility evidence가 아직 약하다.
따라서 human-made feeling이 검증됐다고 주장하지 않고,
다음 proof는 mobile screenshot, keyboard path, rejected layout note로 둔다.

실패 신호

아래가 보이면 사람의 판단 흔적이 약하다고 본다.

signal	왜 문제인가
모든 섹션이 비슷한 카드다	정보의 위계가 아니라 생성형 기본값일 가능성이 크다.
멋진 단어는 많은데 버린 선택이 없다	실제 판단이 아니라 카피만 남았을 수 있다.
출처는 있는데 변형 이유가 없다	source fidelity가 아니라 reference dumping이다.
UI 설명 문구가 UI 자체를 대신한다	상호작용 설계가 아니라 사용법 설명으로 메우고 있다.
한계가 없다	proof surface가 아니라 marketing surface로 흐른다.
모바일과 긴 텍스트가 무너진다	실제 사용자가 아니라 데스크톱 미리보기만 보고 만든 흔적이다.

Digital Factory와의 관계

Digital Factory의 private/local Mimesis workbench에는 visual failure와 taste gate를 다룬 기록이 있다. 하지만 그것은 이 bench의 public validation이 아니다.

현재 공개 가능한 말은 이 정도다.

private/local workbench에서 visual Mimesis가 실패할 수 있다는 기록이 있다.
그래서 이 페이지는 “디자인 감각이 좋다"가 아니라 “판단 흔적을 남겨야 한다"는 평가표로 둔다.
실제 품질 주장은 redacted board, screenshot comparison, blind panel, accessibility check 같은 별도 proof가 필요하다.

Claim Boundary

Allowed public claim:

Human-made Feeling Bench is a small first-pass rubric for checking whether AI-generated artifacts show trace of judgment, source fidelity, interaction clarity, accessibility, failure evidence, and claim boundaries.

Forbidden public claims:

Do not claim this is a universal design-quality benchmark.
Do not claim external validation.
Do not claim it proves visual taste, conversion lift, customer outcomes, or production readiness.
Do not claim it replaces human review.
Do not claim Digital Factory visual work publicly validates this rubric.

Next Proof

다음 증거는 점수표 자체가 아니라 적용 기록이어야 한다.

공개 페이지 하나를 이 rubric으로 채점한다.
0점 항목을 실제 수정 task로 바꾼다.
before/after screenshot, rejected alternative, check command, remaining limitation을 붙인다.
그 결과를 proof artifact로 남긴다.