{"service":"evals","title":"PlatPhorm Evals","version":"0.1.0","canonicalUrl":"https://evals.platphormnews.com","apiDocsUrl":"https://evals.platphormnews.com/api/docs","mcpUrl":"https://evals.platphormnews.com/api/mcp","healthUrl":"https://evals.platphormnews.com/api/health","counts":{"servicesTracked":217,"activeSuites":36,"capabilitiesIndexed":948,"evalRunsToday":0,"source":"merged","degradedReason":null},"apis":["/api/evals/status","/api/evals/database-status","/api/evals/registry","/api/evals/suites","/api/evals/runs","/api/evals/score","/api/evals/scorecards","/api/evals/dry-run","/api/evals/send-handoff","/api/web/status","/api/web/scorecard","/api/web/fingerprints","/api/provenance/lookup","/api/provenance/verify"],"tools":[{"name":"get_eval_info","protected":false,"description":"Get public-safe PlatPhorm Evals service information and product role"},{"name":"get_dashboard","protected":false,"description":"Get the public-safe Evals dashboard snapshot with registry, suites, runs, gates, and integrations"},{"name":"get_registry_status","protected":false,"description":"Get durable database, local fallback, and static fallback registry status"},{"name":"list_targets","protected":false,"description":"List public-safe evaluation targets"},{"name":"get_target","protected":false,"description":"Get one target by id or slug"},{"name":"list_capabilities","protected":false,"description":"List public-safe indexed or fallback capabilities"},{"name":"get_capability","protected":false,"description":"Get one capability by id"},{"name":"list_suites","protected":false,"description":"List persisted and built-in evaluation suites"},{"name":"get_suite","protected":false,"description":"Get one suite by id or slug"},{"name":"list_runs","protected":false,"description":"List public-safe eval run summaries"},{"name":"get_run","protected":false,"description":"Get one public-safe eval run summary"},{"name":"get_run_results","protected":false,"description":"Get public-safe eval run results summary"},{"name":"get_run_evidence","protected":false,"description":"Get public-safe eval evidence metadata for a run"},{"name":"get_scorecard","protected":false,"description":"Get a public-safe scorecard by scorecard id or run id"},{"name":"list_templates","protected":false,"description":"List built-in eval templates"},{"name":"get_template","protected":false,"description":"Get one eval template by slug"},{"name":"list_benchmarks","protected":false,"description":"List public-safe benchmark definitions"},{"name":"get_integration_status","protected":false,"description":"Get public-safe integration status across PlatPhorm services"},{"name":"evaluate_discovery","protected":false,"description":"Run a bounded public-safe discovery route evaluation against a trusted target"},{"name":"evaluate_openapi","protected":false,"description":"Run a bounded public-safe OpenAPI/spec evaluation against a trusted target"},{"name":"evaluate_mcp","protected":false,"description":"Run a bounded public-safe MCP JSON-RPC introspection evaluation against a trusted target"},{"name":"evaluate_agent_policy","protected":false,"description":"Return the local agent-policy validation summary"},{"name":"get_agent_policy","protected":false,"description":"Get the public-safe Evals agent policy"},{"name":"list_agent_platforms","protected":false,"description":"List agent platform policy entries without inventing official user agents"},{"name":"get_agent_platform","protected":false,"description":"Get one agent platform policy entry"},{"name":"get_cli_examples","protected":false,"description":"List public-safe platphormctl examples for Evals workflows"},{"name":"get_health","protected":false,"description":"Get Evals health and degraded persistence summary"},{"name":"get_evals_status","protected":false,"description":"Get canonical public-safe Evals status"},{"name":"get_evals_database_status","protected":false,"description":"Get safe AWS Postgres database status without secrets"},{"name":"list_eval_suites","protected":false,"description":"List public Evals suites"},{"name":"get_eval_suite","protected":false,"description":"Get an Evals suite by id or slug"},{"name":"list_eval_cases","protected":false,"description":"List public-safe eval cases"},{"name":"get_eval_case","protected":false,"description":"Get an eval case by id"},{"name":"list_public_eval_runs","protected":false,"description":"List public-safe eval runs"},{"name":"get_public_eval_run","protected":false,"description":"Get a public-safe eval run"},{"name":"get_eval_scorecard","protected":false,"description":"Get an eval scorecard by id or run id"},{"name":"list_eval_findings","protected":false,"description":"List public-safe eval findings"},{"name":"get_eval_finding","protected":false,"description":"Get a public-safe eval finding"},{"name":"list_eval_benchmarks","protected":false,"description":"List public-safe benchmark definitions"},{"name":"get_eval_benchmark","protected":false,"description":"Get benchmark by id"},{"name":"get_evals_registry","protected":false,"description":"Get Evals registry status"},{"name":"get_evals_integration_status","protected":false,"description":"Get Evals integration matrix status"},{"name":"get_evals_web4_manifest","protected":false,"description":"Get Evals Web4 manifest"},{"name":"get_evals_web4_status","protected":false,"description":"Get Evals Web4 status"},{"name":"get_evals_scorecard","protected":false,"description":"Get Evals Web4 scorecard"},{"name":"list_evals_fingerprints","protected":false,"description":"List public-safe Evals fingerprints"},{"name":"lookup_evals_provenance","protected":false,"description":"Lookup public Evals provenance"},{"name":"verify_evals_provenance","protected":false,"description":"Verify public Evals provenance"},{"name":"dry_run_eval_suite","protected":false,"description":"Preview an eval suite without persistence or protected downstream calls"},{"name":"get_route_compliance","protected":false,"description":"Get route-compliance summary from the registry status"},{"name":"get_discovery_compliance","protected":false,"description":"Get discovery-compliance summary from the registry status"},{"name":"sync_registry","protected":true,"description":"Sync services and capabilities from the network graph, MCP Hub, and Claws federation"},{"name":"sync_eval_registry","protected":true,"description":"Sync Evals registry from canonical sources"},{"name":"sync_network_registry","protected":true,"description":"Sync services and capabilities from the PlatPhorm network graph"},{"name":"import_targets_from_mcp","protected":true,"description":"Import evaluation targets from MCP Hub tools, resources, and prompts"},{"name":"import_targets_from_spec","protected":true,"description":"Import evaluation targets from OpenAPI/AsyncAPI specifications"},{"name":"create_eval_suite","protected":true,"description":"Create a new evaluation suite for a target service or capability"},{"name":"update_eval_suite","protected":true,"description":"Update an existing evaluation suite"},{"name":"create_eval_case","protected":true,"description":"Create a protected eval case"},{"name":"update_eval_case","protected":true,"description":"Update a protected eval case"},{"name":"create_suite","protected":true,"description":"Create a new evaluation suite"},{"name":"update_suite","protected":true,"description":"Update an existing suite"},{"name":"delete_suite","protected":true,"description":"Delete an existing suite"},{"name":"generate_eval_cases","protected":true,"description":"Generate evaluation test cases from a goal or existing data"},{"name":"create_dataset","protected":true,"description":"Create a new dataset for evaluation cases"},{"name":"create_grader","protected":true,"description":"Create a new grader for evaluating outputs"},{"name":"run_eval_suite","protected":true,"description":"Execute an evaluation suite and generate results"},{"name":"publish_eval_scorecard","protected":true,"description":"Publish a protected scorecard"},{"name":"approve_release_gate","protected":true,"description":"Approve a release gate when policy and evidence permit"},{"name":"reject_release_gate","protected":true,"description":"Reject a release gate with evidence-backed reasons"},{"name":"resolve_eval_finding","protected":true,"description":"Mark an eval finding resolved"},{"name":"send_findings_to_claws","protected":true,"description":"Send findings to Claws for remediation"},{"name":"publish_eval_report_to_docs","protected":true,"description":"Publish public-safe eval report to Docs"},{"name":"export_eval_results_to_sheets","protected":true,"description":"Export eval results to Sheets"},{"name":"send_eval_trace_update","protected":true,"description":"Send eval trace update"},{"name":"send_eval_handoff","protected":true,"description":"Send protected Evals handoff"},{"name":"rebuild_evals_fingerprints","protected":true,"description":"Rebuild public Evals fingerprints"},{"name":"create_evals_provenance","protected":true,"description":"Create Evals provenance record"},{"name":"sign_evals_provenance","protected":true,"description":"Sign Evals provenance record"},{"name":"run_model_grade","protected":true,"description":"Run protected optional model grade"},{"name":"run_suite","protected":true,"description":"Execute an evaluation suite"},{"name":"rerun_eval","protected":true,"description":"Rerun an existing evaluation"},{"name":"cancel_eval","protected":true,"description":"Cancel a queued or running evaluation"},{"name":"evaluate_browserops","protected":true,"description":"Run protected BrowserOps evaluation"},{"name":"evaluate_sandbox","protected":true,"description":"Run protected Sandbox evaluation"},{"name":"evaluate_claws","protected":true,"description":"Run protected Claws workflow evaluation"},{"name":"evaluate_agentui","protected":true,"description":"Run protected AgentUI render evaluation"},{"name":"evaluate_workflow","protected":true,"description":"Run protected tool-to-tool workflow evaluation"},{"name":"evaluate_llm_judge","protected":true,"description":"Run protected LLM-as-judge evaluation"},{"name":"evaluate_cli","protected":true,"description":"Validate or execute a protected CLI/platphormctl evaluation through a configured runner"},{"name":"run_release_gate","protected":true,"description":"Run a protected release gate"},{"name":"compare_eval_runs","protected":false,"description":"Compare two evaluation runs to identify differences"},{"name":"detect_regressions","protected":false,"description":"Detect regressions between current and baseline runs"},{"name":"generate_scorecard","protected":true,"description":"Generate a quality scorecard from an evaluation run"},{"name":"gate_release","protected":true,"description":"Evaluate release gates for a service"},{"name":"publish_scorecard","protected":true,"description":"Publish a scorecard to external systems (Docs, Trace, etc.)"},{"name":"create_docs_report","protected":true,"description":"Create a protected Docs report export"},{"name":"create_sheet_report","protected":true,"description":"Create a protected Sheets report export"},{"name":"create_deck_summary","protected":true,"description":"Create a protected Deck summary export"},{"name":"update_agent_policy","protected":true,"description":"Update agent policy metadata"}],"resources":["evals://dashboard","evals://registry","evals://targets","evals://capabilities","evals://suites","evals://runs","evals://scorecards","evals://release-gates","evals://templates","evals://benchmarks","evals://integrations","evals://cli","evals://web4","evals://provenance","agent-policy://summary","agent-policy://platforms"],"prompts":["create_eval_suite","create_mcp_tool_eval","create_browserops_eval","create_agentui_render_eval","create_sandbox_eval","create_spec_contract_eval","create_cli_eval","create_release_gate","summarize_eval_run","explain_eval_failure","generate_regression_report","generate_eval_remediation_plan","human_machine_evals_handoff"],"cliExamples":[{"id":"site-inspect-evals","command":"platphormctl site inspect evals","dryRun":false,"protected":false,"status":"documented"},{"id":"mcp-validate-evals","command":"platphormctl mcp validate evals","dryRun":false,"protected":false,"status":"documented"},{"id":"policy-inspect-evals","command":"platphormctl policy inspect evals","dryRun":false,"protected":false,"status":"documented"},{"id":"evals-list","command":"platphormctl evals list","dryRun":false,"protected":false,"status":"documented"},{"id":"evals-run-site-mcp","command":"platphormctl evals run-site mcp","dryRun":false,"protected":false,"status":"documented"},{"id":"evals-run-mcp-mcp","command":"platphormctl evals run-mcp mcp","dryRun":false,"protected":false,"status":"documented"},{"id":"grade-tool-health","command":"platphormctl evals grade-tool mcp get_health","dryRun":false,"protected":false,"status":"documented"},{"id":"harness-discovery-full","command":"platphormctl harness run discovery-full --trace","dryRun":false,"protected":false,"status":"documented"},{"id":"developer-validation-dry-run","command":"platphormctl harness run developer-validation --target https://evals.platphormnews.com --dry-run","dryRun":true,"protected":false,"status":"documented"},{"id":"spec-evals-browserops-loop","command":"platphormctl harness run spec-evals-browserops-loop --dry-run","dryRun":true,"protected":false,"status":"documented"}],"topics":["web4","provenance","fingerprints","asyncapi","evaluation","regression-detection","release-gates","mcp","network-registry","traceability","service-discovery","openapi-validation","browserops","sandbox","agent-policy"]}