Human-made Feeling Bench
Human-made Feeling Bench
이 페이지는 “사람이 만든 것처럼 보이는가"를 감으로만 말하지 않기 위한 작은 평가표다.
Human-made Feeling Bench는 not a universal design-quality benchmark다. 외부 검증, 고객 성과, 전환율 개선, 시각 품질 개선을 증명하지 않는다. 지금 주장할 수 있는 것은 더 좁다.
AI가 만든 화면, 글, 데모, README, 리포트에서 사람의 판단 흔적이 남아 있는지 확인하기 위한 first-pass rubric.
핵심 질문은 이것이다.
이 결과물에는 trace of judgment가 있는가?
아니면 평균적인 AI 산출물이 예쁜 말과 카드로 덮인 것인가?
기준 원본
이 평가표는 새 이론을 선언하지 않는다. 이미 공개된 기준을 좁게 끌어와서 내 포트폴리오와 AI 산출물 검수에 맞춘다.
| source | 여기서 가져온 기준 |
|---|---|
| NIST Human-Centered AI | AI 시스템은 인간의 맥락, 신뢰, 위험, 사용성을 중심으로 평가되어야 한다는 관점. |
| Microsoft HAX Toolkit | AI 경험은 불확실성, 실패, 사용자 통제, 기대 관리까지 설계해야 한다는 체크리스트. |
| W3C WCAG 2.2 | 보기 좋음보다 perceivable, operable, understandable, robust 기준으로 읽히고 조작되는지 확인하는 접근성 기준. |
| ArtifactsBench | 생성된 visual/interactive artifacts는 실제 렌더링, 상호작용, 오류, 제약을 포함해 평가해야 한다는 방향. |
| ArtifactsBenchmark repository | benchmark도 데이터셋, 평가 기준, 실패 사례, scoring boundary가 필요하다는 공개 구현 표면. |
이 원본들은 Human-made Feeling Bench를 검증해 주지 않는다. 이 원본들은 평가표가 무슨 기준을 빌려왔는지 공개하는 출처다.
Rubric v0
각 항목은 0, 1, 2로만 본다.
0 = 흔적 없음
1 = 일부 있음
2 = 명확함
| dimension | 질문 | 2점의 조건 |
|---|---|---|
| trace of judgment | 누군가가 직접 보고 버린 선택, 줄인 선택, 남긴 선택이 보이는가? | rejected path, tradeoff, boundary, changed wording이 결과물 안이나 옆 문서에 남아 있다. |
| artifact fit | 이 화면이나 글이 실제 대상의 목적에 맞게 조정됐는가? | 범용 카드/히어로/요약이 아니라 해당 제품, 문서, 사용자 흐름에 맞는 구조를 가진다. |
| source fidelity | 어떤 원본에서 무엇을 배웠고 무엇을 베끼지 않았는지 보이는가? | source card, do-not-copy redline, 변형 이유가 있다. |
| interaction clarity | 사용자가 다음 행동을 헷갈리지 않는가? | CTA, 입력, 오류, 빈 상태, 돌아가기 경로가 설명이 아니라 UI 구조로 보인다. |
| restraint | 장식과 카피가 판단을 가리지 않는가? | 과한 gradient, 카드 중첩, 추상 buzzword보다 읽기 쉬운 정보 구조가 우선한다. |
| accessibility and legibility | 작은 화면, 키보드, contrast, 텍스트 길이가 버티는가? | WCAG 2.2에 맞춰 대체 텍스트, 초점, 읽기 순서, 텍스트 overflow를 확인한다. |
| failure evidence | 실패나 한계가 기록됐는가? | 무엇이 안 됐고, 왜 폐기했으며, 다음 검증이 무엇인지 남아 있다. |
| provenance and claim boundary | 이 결과물이 무엇을 증명하지 않는지도 보이는가? | external validation, customer proof, production readiness 같은 과장 금지선이 명확하다. |
총점은 참고용이다. 더 중요한 것은 어떤 항목이 0점인지다.
사용 방식
이 bench는 최종 판정기가 아니다. 먼저 결과물을 멈춰 세우는 화면이다.
- 평가할 artifact를 하나 고른다.
- 원본 또는 reference source를 적는다.
- 위 rubric의 8개 항목을 0, 1, 2로 채운다.
- 0점 항목은 “취향 문제"가 아니라 next proof task로 바꾼다.
- 결과 문장에는 반드시 claim boundary를 붙인다.
예시 문장:
이 화면은 source fidelity와 provenance boundary는 갖췄지만,
interaction clarity와 accessibility evidence가 아직 약하다.
따라서 human-made feeling이 검증됐다고 주장하지 않고,
다음 proof는 mobile screenshot, keyboard path, rejected layout note로 둔다.
실패 신호
아래가 보이면 사람의 판단 흔적이 약하다고 본다.
| signal | 왜 문제인가 |
|---|---|
| 모든 섹션이 비슷한 카드다 | 정보의 위계가 아니라 생성형 기본값일 가능성이 크다. |
| 멋진 단어는 많은데 버린 선택이 없다 | 실제 판단이 아니라 카피만 남았을 수 있다. |
| 출처는 있는데 변형 이유가 없다 | source fidelity가 아니라 reference dumping이다. |
| UI 설명 문구가 UI 자체를 대신한다 | 상호작용 설계가 아니라 사용법 설명으로 메우고 있다. |
| 한계가 없다 | proof surface가 아니라 marketing surface로 흐른다. |
| 모바일과 긴 텍스트가 무너진다 | 실제 사용자가 아니라 데스크톱 미리보기만 보고 만든 흔적이다. |
Digital Factory와의 관계
Digital Factory의 private/local Mimesis workbench에는 visual failure와 taste gate를 다룬 기록이 있다. 하지만 그것은 이 bench의 public validation이 아니다.
현재 공개 가능한 말은 이 정도다.
- private/local workbench에서 visual Mimesis가 실패할 수 있다는 기록이 있다.
- 그래서 이 페이지는 “디자인 감각이 좋다"가 아니라 “판단 흔적을 남겨야 한다"는 평가표로 둔다.
- 실제 품질 주장은 redacted board, screenshot comparison, blind panel, accessibility check 같은 별도 proof가 필요하다.
Claim Boundary
Allowed public claim:
- Human-made Feeling Bench is a small first-pass rubric for checking whether AI-generated artifacts show trace of judgment, source fidelity, interaction clarity, accessibility, failure evidence, and claim boundaries.
Forbidden public claims:
- Do not claim this is a universal design-quality benchmark.
- Do not claim external validation.
- Do not claim it proves visual taste, conversion lift, customer outcomes, or production readiness.
- Do not claim it replaces human review.
- Do not claim Digital Factory visual work publicly validates this rubric.
Next Proof
다음 증거는 점수표 자체가 아니라 적용 기록이어야 한다.
- 공개 페이지 하나를 이 rubric으로 채점한다.
- 0점 항목을 실제 수정 task로 바꾼다.
- before/after screenshot, rejected alternative, check command, remaining limitation을 붙인다.
- 그 결과를 proof artifact로 남긴다.